Geri Dön

Gizli dirichlet ayrımı ve Word2vec yöntemlerinin birleşimi ile özgün bir metin temsil modeli geliştirilmesi

Combining latent dirichlet allocation and Word2vec for a novel document representation model

  1. Tez No: 629631
  2. Yazar: HALİL İBRAHİM ÇELENLİ
  3. Danışmanlar: DOÇ. DR. SEVİNÇ İLHAN OMURCA, DOÇ. DR. MURAT CAN GANİZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 58

Özet

Son zamanlarda veri miktarındaki artış ile derin öğrenme, makine öğrenmesinin en popüler alanı olmaya başlamıştır. Bu artış ile Doğal Dil İşleme alanında da yeni yöntemlerin geliştirilmesini sağlamıştır. Metinsel verilerin temsil edilmesi, geleneksel yöntemler üzerinde Kelime Çantası Modeli gibi kelime temsil yöntemleri kullanılarak temsil edilir. Fakat yeni yöntemler üzerinde hızlı ve verimli olabilmesi için kelime kalıplama yöntemleri kullanılmaya başlanmıştır. Kelime kalıplama yöntemlerinin en popüler olanı Word2vec yöntemidir. Word2vec yöntemi kelimelerin bağlamlarındaki istatistiklere bakarak, yapay sinir ağlarını kullanarak her kelime için bir vektör gösterimini öğrenmektedir. Dokümanların temsil edilmesi için ise Doc2vec olarak bilinen kelime kalıplama yöntemi temelli yöntem kullanılmaktadır. Konu modelleme teknikleri ise kelimelerin konu olasılık dağılımları üzerinde rastgele bir araya gelerek dokümanları oluşturmaktadır. En sık kullanılan modeli Gizli Dirichlet Ayırımı (LDA) modelidir. LDA modeli konuların dokümanlar üzerindeki dağılımı ile kelimelerin konular üzerindeki dağılımı olmak üzere 2 farklı dağılım üretmektedir. Tez çalışması içerisinde Word2vec yöntemi, LDA model dağılımları ile birleştirip yeni bir kelime kalıplama vektörü geliştirilmiştir. Bu sayede dokümanlar daha iyi temsil edilmiştir. Geliştirilen yöntem ile doküman temsilinde kullanılan Doc2vec yöntemleri sınıflandırma algoritmaları kullanılarak karşılaştırılmıştır. Sınıflandırma sonucunda geliştirilen yöntemin sonuçları iyileştirdiği ve model karmaşıklığını azalttığı gösterilmiştir.

Özet (Çeviri)

Recently, with the increase in the amount of data, deep learning has become the most popular field of machine learning. With this increase, new methods have been developed in the field of Natural Language Processing. Representation of textual data is represented on traditional methods using word representation methods such as the Bag of Words model. However, word embeddings methods are use in order to be fast and efficient on new methods. The most popular method of word embeddings is Word2vec. The Word2vec method learns to view a vector for each word using artificial neural networks, looking at the statistics in the context of the words. For the representation of the documents, the word embedding method known as Doc2vec is use. Topic modeling techniques are randomly generated on the topic probability distributions of the words and establish the documents. The most commonly used model is the Latent Dirichlet Allocation (LDA). The LDA model produces 2 different distributions, the distribution of topics on documents and the distribution of words on topics. This thesis, a new word embedding vector was developed by combining the Word2vec method with the LDA model distributions. In this way, the documents are better represented. The developed method and Doc2vec methods document representation were compared using classification algorithms. It has been shown that the method developed as a result of classification improves results and reduces model complexity.

Benzer Tezler

  1. UNESCO tarafından Türkiye'de dünya miras listesine alınan yerlerin metin madenciliği yöntemleri ile ziyaretçi yorumlarının analizi

    Analysis of visitor comments of places included in the world heritage list by UNESCO in Turkey using text mining methods

    MUSTAFA KARAKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikOndokuz Mayıs Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. PELİN KASAP

  2. Application of text mining to technology management domain to extract topics and trends

    Konuların ve eğilimlerin bulunması amacıyla metin madenciliğinin teknoloji yönetimi alanına uygulanması

    YAŞAR TEKİN

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilim ve Teknoloji Politikası Çalışmaları Anabilm Dalı

    PROF. DR. PINAR KARAGÖZ

  3. Otel yorumları üzerinde konu modelleme algoritmalarının uygulanması

    Application of topic modeling algorithms on hotel reviews

    AHMET KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EYYÜP GÜLBANDILAR

  4. Stack overflow platformunda devops gönderilerindeki trendlerin etiket ve konu modelleme analizi ile belirlenmesi

    Identification of trends in devops posts on the stack overflow platform using tag and topic modeling analysis

    BURAK BAKIRCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÖZCAN ÖZYURT

  5. Çevrimiçi iş ilanlarının veri ve metin madenciliği yöntemleri ile analizi: Bbilgi ve iletişim sektörü örneği

    Analysis of online jobs postings with data and text mining methods: Example of information and communication sector

    MUSTAFA ONUR KAÇAROĞLU

    Doktora

    Türkçe

    Türkçe

    2023

    İşletmePamukkale Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. ARZU ORGAN