Geri Dön

Konu modelleme yöntemlerinin belge sınıflandırma üzerine kullanımı

Use of topic modeling methods for document classification

  1. Tez No: 691001
  2. Yazar: SÜLEYMAN ÖZDEMİRCİ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ METİN TURAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: İstanbul Ticaret Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 40

Özet

Konu modellemenin doküman sınıflandırma, konu kümeleme, belge etiketleme, geniş belge koleksiyonlarında özellik çıkarma gibi çok sayıda uygulaması vardır. Bu çalışmada, Latent Dirichlet Allocation konu modellemenin pratik keşif yöntemi, Bidirectional Encoder Representations from Transformers ve Terim Frekansı - Ters Belge Frekansı yöntemi deneysel belge setine ayrı ayrı uygulanmıştır. Bu veri seti lisansüstü öğrenciler tarafından internetten toplanan toplam 801 adet spor ve eğitim makalelerini içermektedir. Bu çalışmanın amacı, konu modellemesine hangi yöntemin en uygun olduğunu gözlemlemek ve mümkünse bu yöntemler topluluğu ile doğruluk oranını arttırmaktır. Çalışmada, en iyi yöntemlerin güçlü özellikleri birleştirilerek yeni bir yöntem önerilip önerilemeyeceği gibi soruların cevapları aranmıştır. Bu çalışma sonucunda BERT'in bazı dezavantajları olsa da doğru konuya sahip belgeleri ortalama %92.6 başarı oranıyla sınıflandırdığı, diğer yöntemlerden daha başarılı olduğu görülmüştür.

Özet (Çeviri)

Topic modeling has numerous applications like text categorization, topic clustering, document tagging, feature extraction on wide document collections. In this study, practical exploration method of topic modeling of Latent Dirichlet Allocation, transformers based machine learning method Bidirectional Encoder Representations from Transformers and Term Frequency — Inverse Document Frequency method were applied to the experimental document set separately. It includes sport and education articles collected from internet by graduate students, 801 number totally. The purpose of this study is to observe which method best suits to the topic modeling and if it is possible, increase the accuracy rate via the combination of these methods. In the study, the answers to the questions such as whether a new method can be proposed by combining the strong features of the best methods were sought. Although BERT has some disadvantages, it was observed that classifying the documents with the correct topic was achieved with a %92.6 success rate, overwhelming the other methods.

Benzer Tezler

  1. An approximate method to estimate fundamental site period by utilizing Vs30 and bedrock depth

    Vs30 ve anakaya derinliğini kullanarak zemin hakim periyodu tahmini üzerine yaklaşık bir metot

    SERKAN HASANOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Deprem Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ERCAN YÜKSEL

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. Seismic capacity of masonry arches optimally strengthened with fibre-reinforced polymer: Experimental and numerical investigation

    Lif takviyeli polimer ile optimum olarak güçlendirilen yığma kemerlerin sismik kapasitesi: Deneysel ve sayısal araştırma

    İSMAİL HAKKI TARHAN

    Doktora

    İngilizce

    İngilizce

    2022

    İnşaat MühendisliğiAtatürk Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. HABİB UYSAL

    PROF. DR. PAULO BARBOSA LOURENCO

  4. Abstractive text summarization for morphologically rich languages

    Biçimbilimsel açıdan zengin dillerde soyutlamalı metin özetleme

    BATUHAN BAYKARA

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  5. Şekillendirilmiş lazer hüzmelerinin yüksek saçılmalı ortamla etkileşimleri

    Interactions of shaped laser beams with highly scattering media

    TANSU ERSOY

    Doktora

    Türkçe

    Türkçe

    2016

    Fizik ve Fizik Mühendisliğiİstanbul Teknik Üniversitesi

    Fizik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELÇUK AKTÜRK