Geri Dön

Sentence based topic modeling

Tümce kökenli konu modelleme

  1. Tez No: 346388
  2. Yazar: CAN TAYLAN SARI
  3. Danışmanlar: PROF. DR. ÖZGÜR ULUSOY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: probabilistic graphical model, topic model, hidden Markov model, Markov chain Monte Carlo
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

Metin tipindeki veri kümesi sayısı her geçen gün akıl almaz bir şekilde artmaktadır. Bu durum, bu büyük metin veri kümelerinden el değmeden bilgisayarlar yardımıyla ve hızla kısa özetler çıkarmayı kaçınılmaz hale getirmektedir. Büyük metin veri kümelerinden, onların bilinmeyen, saklı konularını belirlemeye çalışan birçok çalışma olsa da, bunların hepsi sözcük torbası modelini kullanmışlardır. Bu çalışma, metin veri kümelerindeki bilinmeyen, saklı konuları ve bu konulara ait olasılık dağılımlarını ortaya çıkaran yeni bir gözetimsiz öğrenme metodu sunmaktadır. Bu çalışmaya göre veri kümesinde bulunan metinler, her tümcenin tek bir konudan türetildiği ve ardışık tümcelerin konularının bir gizli Markov zinciri oluşturduğu türetici bir çizgisel model tarafından açıklanmaktadır. Sözcük torbası modelinin tersine, önerdiğimiz model tümceyi metnin en küçük yapıtaşı olarak ele alır ve aynı tümce içerisindeki sözcüklerin birbirine anlamca sıkı sıkıya bağlı olduğunu, birbirini takip eden tümcelerin konularının ise yavasça değiştiğini kabul eder. Önerilen modelin uygulama sonuçları hem konu dağılımlarının en olası kelimelerini ve tümcelere atanan konuları inceleyerek nitel, hem de modelin genelleştirme başarımını ölçerek nicel bir şekilde değerlendirilmektedir. Anahtar sozcukler: olaslksal cizgisel model, konu modeli, gizli Markov modeli, Markov zincirleri Monte Carlo

Özet (Çeviri)

Fast augmentation of large text collections in digital world makes inevitable to automatically extract short descriptions of those texts. Even if a lot of studies have been done on detecting hidden topics in text corpora, almost all models follow the bag-of-words assumption. This study presents a new unsupervised learning method that reveals topics in a text corpora and the topic distribution of each text in the corpora. The texts in the corpora are described by a generative graphical model, in which each sentence is generated by a single topic and the topics of consecutive sentences follow a hidden Markov chain. In contrast to bag-of-words paradigm, the model assumes each sentence as a unit block and builds on a memory of topics slowly changing in a meaningful way as the text flows. The results are evaluated both qualitatively by examining topic keywords from particular text collections and quantitatively by means of perplexity, a measure of generalization of the model.

Benzer Tezler

  1. Havayolu işletmelerinde müşteri tatmin boyutlarının cümle gömme tabanlı konu modelleme yöntemiyle belirlenmesi

    Determining customer satisfaction dimensions in airlines via sentence embedding-based topic modeling

    BİLGEHAN ÖZKAN

    Doktora

    Türkçe

    Türkçe

    2025

    Sivil HavacılıkEskişehir Teknik Üniversitesi

    Havacılık Yönetimi Ana Bilim Dalı

    PROF. DR. ÖZLEM ATALIK

  2. Heterojen veri kaynaklarında fikir madenciliği, otomatik özellik çıkarımı ve duygu analizi

    Opinion mining in heterogeneous data sources, automatic aspect extraction and sentiment analysis

    BARIŞ ÖZYURT

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  3. Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi

    Classification and analysis of employee feedback with deep learning algorithms

    GÖKHAN YİĞİDEFE

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN

  4. An ontology based approach for question answering systems that using machine learning

    Makine öğrenmesi kullanan soru cevaplama sistemleri için ontoloji tabanlı bir yaklaşım

    ZEKERİYA ANIL GÜVEN

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT OSMAN ÜNALIR

  5. Türk işaret dilinde söylem belirleyicileri: Derlem tabanlı bir çalışma

    Discourse markers in Turkish Sign Language (TID): A study based on TID corpus

    OYA TANYERİ

    Doktora

    Türkçe

    Türkçe

    2025

    DilbilimAnkara Üniversitesi

    Dilbilim Ana Bilim Dalı

    PROF. DR. GÜLSÜN LEYLA UZUN

    PROF. DR. OKAN KUBUŞ