Geri Dön

Derin öğrenme yöntemleri kullanılarak Türkçe doküman sınıflandırma

Classification Turkish documents using deep learning techniques

  1. Tez No: 542590
  2. Yazar: MUSTAFA SARI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AHMET MURAT ÖZBAYOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: TOBB Ekonomi ve Teknoloji Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

Çalışmamızda kaleme alınmış yazıların, yazarına ve konusuna göre birbirinden ayrılması ve sınıflandırılabilmesi amaçlanmıştır. Bir gazetenin köşe yazarlarının yazılarının vektörleri oluşturulmuştur ve birbirinden ne kadar ayrılabildiğinin analizi yapılmıştır. Yazarı bilinmeyen herhangi bir yazının hangi yazara ait olduğu belirlenebilir veya birbirlerine benzer stiller gruplanarak yazar profilleri oluşturulabilir. Konusu bilinmeyen bir yazının hangi konulara ait olabileceği belirlenebilir. DeepLearning4J Java kütüphanesi ve burada yer alan Doc2Vec sınıfı kullanılmıştır. 5,10,15 ve 20 yazar içeren modeller ve yazarların yazdıkları konulara göre modeller geliştirilmiştir. Bu şekilde elde edilen benzerlik vektörleri belirli bir eşik değeri ile karşılaştırılmıştır, değişik eşik değerleri seçimine bağlı model başarımları ölçülmüştür. Elde edilen sonuçlara göre bazı yazarlar belirgin bir şekilde diğer yazarlardan ayrılmaktadır. Yazılar konularına göre başarılı bir şekilde etiketlenebilmektedir. Bu yapı özellikle yazar profili çıkarımı, yazı tespiti veya konu gruplama gibi alanlarda kullanılabilecek niteliktedir.

Özet (Çeviri)

In our study, it is aimed to distinguish and classify author profiles and text subjects with vectors which were created from authors posts. The vectors of the columnists of a newspaper were formed and analyzed for how much they could be separated from each other. Hence, author of any post, can be determined by this model. It also can group similar styles together. The DeepLearning4J Java library and the Doc2Vec class included are used during development. 5,10,15, 20 author vector models and their subject models were created according to their posts. The similarity vectors obtained in this way were compared with a certain threshold value, and the model performances based on the selection of different threshold values were measured. According to the results, some authors differed significantly from other authors. Articles can be successfully labeled according to their topics. This structure can be used especially in areas such as author profile extraction, article detection or subject grouping.

Benzer Tezler

  1. Gizli dirichlet ayrımı ve Word2vec yöntemlerinin birleşimi ile özgün bir metin temsil modeli geliştirilmesi

    Combining latent dirichlet allocation and Word2vec for a novel document representation model

    HALİL İBRAHİM ÇELENLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEVİNÇ İLHAN OMURCA

    DOÇ. DR. MURAT CAN GANİZ

  2. Multilingual distributed word representation using deeplearning

    Derin öğrenme ile çok dilli, dağıtılmış kelime temsilleri

    GIHAD SOHSAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ONUR GÜZEY

  3. Yazılı para transferi talimatları üzerinden bilgi çıkarımı

    Information extraction from written money transfer orders

    BERKE ORAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bankacılıkİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  4. E-ticaret sitelerinde yer alan tüketici yorumlarının metin madenciliği yöntemleri ile analizi

    Analysing consumer comments on e-commerce websites using text mining methods

    ELİF UZUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Ekonomiİskenderun Teknik Üniversitesi

    Ekonomi Finans Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT UÇAR

  5. Finans sektöründe doğal dil işleme (NLP) ile rapor kümelendirme ve talep bazlı rapor önerileri oluşturma

    Reporting clustering and creating demand-based report recommendations with natural language processing (NLP) in financial industry

    SEDA AYDİN TUZCUAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUĞRUL TAŞCI