Sentence based topic modeling
Tümce kökenli konu modelleme
- Tez No: 346388
- Danışmanlar: PROF. DR. ÖZGÜR ULUSOY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: probabilistic graphical model, topic model, hidden Markov model, Markov chain Monte Carlo
- Yıl: 2014
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Metin tipindeki veri kümesi sayısı her geçen gün akıl almaz bir şekilde artmaktadır. Bu durum, bu büyük metin veri kümelerinden el değmeden bilgisayarlar yardımıyla ve hızla kısa özetler çıkarmayı kaçınılmaz hale getirmektedir. Büyük metin veri kümelerinden, onların bilinmeyen, saklı konularını belirlemeye çalışan birçok çalışma olsa da, bunların hepsi sözcük torbası modelini kullanmışlardır. Bu çalışma, metin veri kümelerindeki bilinmeyen, saklı konuları ve bu konulara ait olasılık dağılımlarını ortaya çıkaran yeni bir gözetimsiz öğrenme metodu sunmaktadır. Bu çalışmaya göre veri kümesinde bulunan metinler, her tümcenin tek bir konudan türetildiği ve ardışık tümcelerin konularının bir gizli Markov zinciri oluşturduğu türetici bir çizgisel model tarafından açıklanmaktadır. Sözcük torbası modelinin tersine, önerdiğimiz model tümceyi metnin en küçük yapıtaşı olarak ele alır ve aynı tümce içerisindeki sözcüklerin birbirine anlamca sıkı sıkıya bağlı olduğunu, birbirini takip eden tümcelerin konularının ise yavasça değiştiğini kabul eder. Önerilen modelin uygulama sonuçları hem konu dağılımlarının en olası kelimelerini ve tümcelere atanan konuları inceleyerek nitel, hem de modelin genelleştirme başarımını ölçerek nicel bir şekilde değerlendirilmektedir. Anahtar sozcukler: olaslksal cizgisel model, konu modeli, gizli Markov modeli, Markov zincirleri Monte Carlo
Özet (Çeviri)
Fast augmentation of large text collections in digital world makes inevitable to automatically extract short descriptions of those texts. Even if a lot of studies have been done on detecting hidden topics in text corpora, almost all models follow the bag-of-words assumption. This study presents a new unsupervised learning method that reveals topics in a text corpora and the topic distribution of each text in the corpora. The texts in the corpora are described by a generative graphical model, in which each sentence is generated by a single topic and the topics of consecutive sentences follow a hidden Markov chain. In contrast to bag-of-words paradigm, the model assumes each sentence as a unit block and builds on a memory of topics slowly changing in a meaningful way as the text flows. The results are evaluated both qualitatively by examining topic keywords from particular text collections and quantitatively by means of perplexity, a measure of generalization of the model.
Benzer Tezler
- Havayolu işletmelerinde müşteri tatmin boyutlarının cümle gömme tabanlı konu modelleme yöntemiyle belirlenmesi
Determining customer satisfaction dimensions in airlines via sentence embedding-based topic modeling
BİLGEHAN ÖZKAN
Doktora
Türkçe
2025
Sivil HavacılıkEskişehir Teknik ÜniversitesiHavacılık Yönetimi Ana Bilim Dalı
PROF. DR. ÖZLEM ATALIK
- Heterojen veri kaynaklarında fikir madenciliği, otomatik özellik çıkarımı ve duygu analizi
Opinion mining in heterogeneous data sources, automatic aspect extraction and sentiment analysis
BARIŞ ÖZYURT
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
- Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi
Classification and analysis of employee feedback with deep learning algorithms
GÖKHAN YİĞİDEFE
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN
- An ontology based approach for question answering systems that using machine learning
Makine öğrenmesi kullanan soru cevaplama sistemleri için ontoloji tabanlı bir yaklaşım
ZEKERİYA ANIL GÜVEN
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT OSMAN ÜNALIR
- Türk işaret dilinde söylem belirleyicileri: Derlem tabanlı bir çalışma
Discourse markers in Turkish Sign Language (TID): A study based on TID corpus
OYA TANYERİ
Doktora
Türkçe
2025
DilbilimAnkara ÜniversitesiDilbilim Ana Bilim Dalı
PROF. DR. GÜLSÜN LEYLA UZUN
PROF. DR. OKAN KUBUŞ