Geri Dön

Dokümanların anlamsal benzerliklerine dayalı özgün bir konu modelleme yöntemi

An original topic model method based on semantic similarity of documents

  1. Tez No: 575122
  2. Yazar: EKİN EKİNCİ
  3. Danışmanlar: DOÇ. DR. SEVİNÇ İLHAN OMURCA
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 109

Özet

Yapısal ve yapısal olmayan milyarlarca içeriği biz kullanıcılarına sunan Web, günümüzün önemli veri kaynaklarından birisi haline gelmiştir. Sunulan içerik her geçen gün büyümekte, bu içerikten istenilen bilginin otomatik bir şekilde çıkartılması ve çıkartılan bilginin organize edilme, analiz edilme ve anlaşılması adımında ise daha yeni ve daha etkili yöntemlerin geliştirilmesi gerekmektedir. Konu modelleri ise bahsedilen bu görevleri gerçekleştirme aşamasında güçlü ve başarılı bir yöntem olarak karşımıza çıkmaktadır. İlk olarak 1990 yılında ortaya çıkan konu modelleri içerisinde ise en yeni ve başarılı olanı Gizli Dirichlet Ayırımıdır (LDA). Doküman gibi ayrık verileri modellemek ve dokümanı meydana getiren konuları ortaya çıkarmak için kullanılan üretici grafiksel bir yöntem olan LDA, sadece kelimelerin doküman koleksiyonunda birlikte geçme durumlarını dikkate almaktadır. Buna karşın içerdikleri anlamsal bilgiyi ise dikkate almamaktadır. Bu durum önemli bir dezavantaj oluşturmaktadır. Bu tez çalışmasında kavram ve adlandırılmış varlıklar şeklindeki anlamsal bilgiyi LDA'ya dahil ederek anlamsal olarak ilişkili, uyumlu, detayları yakalayabilen ve daha anlamlı konuları elde etmek amacıyla iki konu modeli önerilmiştir. Concept-LDA olarak adlandırılan birinci yöntemde, LDA'nın temel varsayımı olan kelime torbası yaklaşımı, {kelime+kavram+adlandırılmış varlık} torbası olacak şekilde genişletilerek anlamsal bir zenginleştirme yöntemi hedeflenmiştir. Geliştirilen Concept-LDA alandan bağımsız bir yöntemdir. NET-LDA olarak adlandırılan ikinci yöntemde ise, anlamsal olarak benzer dokümanlar birleştirilmiş ve birleştirme adımında elde edilen anlamsal benzerlik bilgisi yeni bir adaptif parametre olarak modele dahil edilmiştir. NET-LDA hem alandan hem de dilden bağımsız olup her iki yöntem ile başarılı konuların çıkartılması sağlanmıştır. Anlamsal bilginin elde edilmesi adımında ise graf tabanlı bir yaklaşım olan Babelfy kullanılmıştır. Geliştirilen yöntemlerin performansları hem niceliksel hem de niteliksel olarak değerlendirilmiştir. Concept-LDA'nın değerlendirilmesi adımında on iki farklı ürüne ait İngilizce kullanıcı yorumları kullanılmıştır; NET-LDA'nın değerlendirilmesinde ise biri Türkçe diğer on iki tanesi İngilizce olmak üzere on üç farklı ürüne ait kullanıcı yorumları kullanılmıştır. Ayrıca, geliştirilen yöntemler hem niceliksel hem de niteliksel olarak üç temel yöntemden elde edilen sonuçlar ile karşılaştırılmıştır. Yapılan deneyler sonucunda anlamsal bilginin modele dahil edilmesi ile anlamsal olarak ilişkili, uyumlu, detayları yakalayabilen ve daha anlamlı konuların elde edildiği görülmüştür. Geliştirilen yöntemlerin temel yöntemlere kıyasla da oldukça başarılı oldukları yapılan deneylerde ispatlanmıştır.

Özet (Çeviri)

The Web, which provides billions of structural and non-structural content to its users, has become one of today's important data sources. The content provided is growing day by day, newer and more effective methods need to be developed in the process of automatically extracting desired information from this content and organizing, analyzing and understanding this extracted information. Topic models come across as a powerful and successful method for performing these tasks. Among the topic models themselves, which first appeared in 1990, Latent Dirichlet Allocation (LDA) is the most recent and successful topic model. LDA, which is a generative graphical method used to model discrete data such as documents and reveal the topics that compose the documents, considers only word co-occurrence distribution in the document. On the other hand, LDA does not considers the semantic information documents contain. This poses a significant drawback. In this thesis, two topic models have been devised by incorporating semantic knowledge in the form of concepts and named entities into the LDA in order to obtain semantically related, coherent, detailed and more meaningful topics. In the first method called Concept-LDA, bag-of-words which is the basic assumption of LDA is expanded to be a bag of {words+concepts+named entities} as a semantic enrichment method is aimed. The proposed Concept-LDA is independent of domain. In the second method called NET-LDA, semantically similar documents are merged and semantic similarity obtaining in the merging step is injected into the model as a new adaptive parameter. NET-LDA is independent both of domain and language. In the step of obtaining semantic knowledge a graph based approach Babelfy is used. The performances of the proposed methods are evaluated both quantitatively and qualitatively. In the evaluation of Concept-LDA, user reviews of twelve different domains are used; in the evaluation of NET-LDA, user reviews of thirteen different domains one in Turkish and the other twelve in English are used. Besides, the proposed methods are compared both quantitatively and qualitatively with the results obtained from three baselines. As a result of the experiments conducted, it is seen that the incorporating semantic knowledge into the model semantically related, coherent, detailed and more meaningful topics are obtained. It has been proved with the experiments that the proposed methods are also fairly successful compared to the baselines.

Benzer Tezler

  1. Soru dokümanlarının anlamsal benzerliklerine dayalı derin öğrenme tabanlı kümeleme analizi

    Deep learning based clustering analysis based on the semantic similarity of question documents

    ERAY YELMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEVCİHAN DURU

  2. Multi̇-document summarization using distortion-rate ratio

    Bozulum-hız oranına göre çoklu metin özetinin çıkarılması

    ULUKBEK ATTOKUROV

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  3. Türkçe dokümanlar için anlamsal benzerlik hesaplama yöntemi

    Semantic similarity method for Turkish documents

    BÜLENT YÜCESOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. ŞULE ÖĞÜDÜCÜ

  4. Semantic iinteroperability of the UN/CEFACT CCTS based electronic business document standards

    UN/CEFACT CCTS tabanlı elektronik iş dokümanlarının anlamsal birlikte çalışabilirliği

    YILDIRAY KABAK

    Doktora

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ASUMAN DOĞAÇ

  5. Enhancing content management systems with semantic capabilities

    Doküman yönetim sistemlerini anlamsal yeteneklerle geliştirme

    SUAT GÖNÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgi ve Belge YönetimiOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ASUMAN DOĞAÇ

    PROF. DR. NİHAN KESİM ÇİÇEKLİ