Geri Dön

Sentence based topic modeling

Tümce kökenli konu modelleme

  1. Tez No: 346388
  2. Yazar: CAN TAYLAN SARI
  3. Danışmanlar: PROF. DR. ÖZGÜR ULUSOY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: probabilistic graphical model, topic model, hidden Markov model, Markov chain Monte Carlo
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

Metin tipindeki veri kümesi sayısı her geçen gün akıl almaz bir şekilde artmaktadır. Bu durum, bu büyük metin veri kümelerinden el değmeden bilgisayarlar yardımıyla ve hızla kısa özetler çıkarmayı kaçınılmaz hale getirmektedir. Büyük metin veri kümelerinden, onların bilinmeyen, saklı konularını belirlemeye çalışan birçok çalışma olsa da, bunların hepsi sözcük torbası modelini kullanmışlardır. Bu çalışma, metin veri kümelerindeki bilinmeyen, saklı konuları ve bu konulara ait olasılık dağılımlarını ortaya çıkaran yeni bir gözetimsiz öğrenme metodu sunmaktadır. Bu çalışmaya göre veri kümesinde bulunan metinler, her tümcenin tek bir konudan türetildiği ve ardışık tümcelerin konularının bir gizli Markov zinciri oluşturduğu türetici bir çizgisel model tarafından açıklanmaktadır. Sözcük torbası modelinin tersine, önerdiğimiz model tümceyi metnin en küçük yapıtaşı olarak ele alır ve aynı tümce içerisindeki sözcüklerin birbirine anlamca sıkı sıkıya bağlı olduğunu, birbirini takip eden tümcelerin konularının ise yavasça değiştiğini kabul eder. Önerilen modelin uygulama sonuçları hem konu dağılımlarının en olası kelimelerini ve tümcelere atanan konuları inceleyerek nitel, hem de modelin genelleştirme başarımını ölçerek nicel bir şekilde değerlendirilmektedir. Anahtar sozcukler: olaslksal cizgisel model, konu modeli, gizli Markov modeli, Markov zincirleri Monte Carlo

Özet (Çeviri)

Fast augmentation of large text collections in digital world makes inevitable to automatically extract short descriptions of those texts. Even if a lot of studies have been done on detecting hidden topics in text corpora, almost all models follow the bag-of-words assumption. This study presents a new unsupervised learning method that reveals topics in a text corpora and the topic distribution of each text in the corpora. The texts in the corpora are described by a generative graphical model, in which each sentence is generated by a single topic and the topics of consecutive sentences follow a hidden Markov chain. In contrast to bag-of-words paradigm, the model assumes each sentence as a unit block and builds on a memory of topics slowly changing in a meaningful way as the text flows. The results are evaluated both qualitatively by examining topic keywords from particular text collections and quantitatively by means of perplexity, a measure of generalization of the model.

Benzer Tezler

  1. Heterojen veri kaynaklarında fikir madenciliği, otomatik özellik çıkarımı ve duygu analizi

    Opinion mining in heterogeneous data sources, automatic aspect extraction and sentiment analysis

    BARIŞ ÖZYURT

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  2. An ontology based approach for question answering systems that using machine learning

    Makine öğrenmesi kullanan soru cevaplama sistemleri için ontoloji tabanlı bir yaklaşım

    ZEKERİYA ANIL GÜVEN

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT OSMAN ÜNALIR

  3. Eğitim yönetimi ve denetimi anabilim dalında yapılmış lisansüstü tez çalışmalarının incelenmesi

    Department of educational administration and supervision of the graduate thesis studies review

    GÜZİN POLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Eğitim ve ÖğretimMaltepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. CEM KİRAZOĞLU

  4. The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching

    Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi

    ÖZLEM YAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. PAŞA TEVFİK CEPHE

  5. Açık deniz platformlarının konumlandırılması için konum belirleme sistemlerinin entegrasyonu

    Positioning systems integration for locating offshore platforms

    MAHMUT OLCAY KORKMAZ

    Doktora

    Türkçe

    Türkçe

    2012

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. RAHMİ NURHAN ÇELİK