Sentence based topic modeling
Tümce kökenli konu modelleme
- Tez No: 346388
- Danışmanlar: PROF. DR. ÖZGÜR ULUSOY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: probabilistic graphical model, topic model, hidden Markov model, Markov chain Monte Carlo
- Yıl: 2014
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Metin tipindeki veri kümesi sayısı her geçen gün akıl almaz bir şekilde artmaktadır. Bu durum, bu büyük metin veri kümelerinden el değmeden bilgisayarlar yardımıyla ve hızla kısa özetler çıkarmayı kaçınılmaz hale getirmektedir. Büyük metin veri kümelerinden, onların bilinmeyen, saklı konularını belirlemeye çalışan birçok çalışma olsa da, bunların hepsi sözcük torbası modelini kullanmışlardır. Bu çalışma, metin veri kümelerindeki bilinmeyen, saklı konuları ve bu konulara ait olasılık dağılımlarını ortaya çıkaran yeni bir gözetimsiz öğrenme metodu sunmaktadır. Bu çalışmaya göre veri kümesinde bulunan metinler, her tümcenin tek bir konudan türetildiği ve ardışık tümcelerin konularının bir gizli Markov zinciri oluşturduğu türetici bir çizgisel model tarafından açıklanmaktadır. Sözcük torbası modelinin tersine, önerdiğimiz model tümceyi metnin en küçük yapıtaşı olarak ele alır ve aynı tümce içerisindeki sözcüklerin birbirine anlamca sıkı sıkıya bağlı olduğunu, birbirini takip eden tümcelerin konularının ise yavasça değiştiğini kabul eder. Önerilen modelin uygulama sonuçları hem konu dağılımlarının en olası kelimelerini ve tümcelere atanan konuları inceleyerek nitel, hem de modelin genelleştirme başarımını ölçerek nicel bir şekilde değerlendirilmektedir. Anahtar sozcukler: olaslksal cizgisel model, konu modeli, gizli Markov modeli, Markov zincirleri Monte Carlo
Özet (Çeviri)
Fast augmentation of large text collections in digital world makes inevitable to automatically extract short descriptions of those texts. Even if a lot of studies have been done on detecting hidden topics in text corpora, almost all models follow the bag-of-words assumption. This study presents a new unsupervised learning method that reveals topics in a text corpora and the topic distribution of each text in the corpora. The texts in the corpora are described by a generative graphical model, in which each sentence is generated by a single topic and the topics of consecutive sentences follow a hidden Markov chain. In contrast to bag-of-words paradigm, the model assumes each sentence as a unit block and builds on a memory of topics slowly changing in a meaningful way as the text flows. The results are evaluated both qualitatively by examining topic keywords from particular text collections and quantitatively by means of perplexity, a measure of generalization of the model.
Benzer Tezler
- Heterojen veri kaynaklarında fikir madenciliği, otomatik özellik çıkarımı ve duygu analizi
Opinion mining in heterogeneous data sources, automatic aspect extraction and sentiment analysis
BARIŞ ÖZYURT
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
- An ontology based approach for question answering systems that using machine learning
Makine öğrenmesi kullanan soru cevaplama sistemleri için ontoloji tabanlı bir yaklaşım
ZEKERİYA ANIL GÜVEN
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT OSMAN ÜNALIR
- Eğitim yönetimi ve denetimi anabilim dalında yapılmış lisansüstü tez çalışmalarının incelenmesi
Department of educational administration and supervision of the graduate thesis studies review
GÜZİN POLAT
Yüksek Lisans
Türkçe
2010
Eğitim ve ÖğretimMaltepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. CEM KİRAZOĞLU
- The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching
Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi
ÖZLEM YAZAR
Yüksek Lisans
İngilizce
2004
Eğitim ve ÖğretimGazi Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. PAŞA TEVFİK CEPHE
- Açık deniz platformlarının konumlandırılması için konum belirleme sistemlerinin entegrasyonu
Positioning systems integration for locating offshore platforms
MAHMUT OLCAY KORKMAZ
Doktora
Türkçe
2012
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. RAHMİ NURHAN ÇELİK