Geri Dön

Soru dokümanlarının anlamsal benzerliklerine dayalı derin öğrenme tabanlı kümeleme analizi

Deep learning based clustering analysis based on the semantic similarity of question documents

  1. Tez No: 651235
  2. Yazar: ERAY YELMEN
  3. Danışmanlar: PROF. DR. NEVCİHAN DURU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

İnternet ortamında metinsel dokümanların miktarının büyük boyutlara ulaşması ile birlikte aranan doğru dokümana kolay ve hızlı bir şekilde ulaşmak zorlaşmıştır. Metin dokümanlarının benzerliklerine göre kümelenmesi manuel yöntemlerle oldukça zahmetlidir. Bu durumu otomatik hale getirerek kolaylaştırmak için gelişmiş yöntemlere ihtiyaç vardır. Belge kümelemede metin verileri yakınlık ve benzerlik ölçüsüne göre gruplandırılır. Kümelemede yüksek başarı elde etmek, belgelerin doğru bir şekilde keşfedilmesi için oldukça önemlidir. Kelimelerin anlamsal özelliklerini yoğun vektörler kullanarak temsil etmek için kelime temsil yöntemlerinin kullanımı yaygınlaşmıştır. Yapay sinir ağı tabanlı ve semantik bir yapı içeren kelime temsil yöntemleri, kelimeler arasındaki anlamsal ilişkileri tespit etmekte oldukça başarılıdır. Bu temsil yöntemleri, geleneksel yöntemlere göre daha etkili bulunmuştur. Özellikle anlambilimsel analizlerde başarılı çalışmalar yapılmıştır. Doküman kümeleme çalışmaları kelime temsil yöntemleri veya geleneksel yöntemlerle yapılmış olup tek başına yeterli başarıya ulaşılamamıştır. Bundan dolayı başarıyı artırmak için benzer dokümanları kümelemede kelime temsil yöntemleri ve öznitelik boyut indirgeme yöntemlerinin birlikte kullanılmasına ihtiyaç bulunmaktadır. Bu tez çalışmasında soru dokümanları üzerinde kümeleme çalışması kelime temsil yöntemleri ve öznitelik boyut indirgeme yöntemlerine odaklanılarak yapılmıştır. Kelime temsili için word2vec, doc2vec ve fasttext yöntemleri kullanılmıştır. Temel Bileşenler Analizi yöntemi ise boyut indirgeme için bu 3 kelime temsil yöntemi ile birlikte kullanılmıştır. Kümeleme için ise k-means++, k-medoids, gaussian mixture ve bulanık c-means algoritmaları üzerinde deneysel çalışmalar yapılmış olup, en yüksek başarı doc2vec, temel bileşenler analizi (PCA) ve bulanık c-means algoritmasının birlikte kullanılması ile elde edilmiştir.

Özet (Çeviri)

With the increase of the amount of textual documents on the Internet, it had difficult to reach the searched correct document easily and quickly. Clustering of text documents according to their similarities is very troublesome by manual methods. Advanced methods are needed to automate this situation by facilitating it. In document clustering, text data is grouped according to proximity and similarity. Achieving high success in clustering is very important for accurate discovery of documents. The use of word embedding methods has become widespread to represent the semantic properties of words using dense vectors. Word embedding methods based on artificial neural network and containing a semantic structure are very successful in finding semantic relationships between words. These embedding methods were found to be more effective than traditional methods. Successful studies have been carried out especially in semantic analysis. Document clustering studies were made using word embedding methods or traditional methods, and not enough success was achieved alone. Therefore, in order to increase success, it is necessary to use word embedding methods and attribute dimension reduction methods together in clustering similar documents. In this thesis, clustering on question documents was done by focusing on word embedding and dimension reduction methods. Word2vec, doc2vec and fasttext methods are used for word embeddings. Principal Component Analysis (PCA) was used with this 3 word embedding methods for dimension reduction. For clustering, experimental studies have been conducted on k-means++, k-medoids, gaussian mixture and fuzzy-c means algorithms, and the highest success has been achieved by using doc2vec, PCA and fuzzy-c means algorithm.

Benzer Tezler

  1. Metin işleme: Soru soran bir sistem tasarımı

    Text processing: Design of question asking system

    ZEKİ MOCAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ.DR. COŞKUN SÖNMEZ

  2. 2018-2023 yılları arasındaki Liselere Giriş Sınavı ve yayınlanan örnek matematik sorularının Yenilenmiş Bloom Taksonomisine göre incelenmesi

    Investigation of the High School Entrance Exam and published sample mathematics questions between 2018-2023 years according to the Revised Bloom Taxonomy

    NUR SEDA TUNACI ÇOLAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimEskişehir Osmangazi Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    DOÇ. DR. EMRE EV ÇİMEN

  3. Resimli çocuk kitaplarında aile ortamı ve aile ilişkileri ile annelerin çocuklarıyla kitap okumaya dair görüşlerinin incelenmesi

    Investigation of family environment and family relations in pictured children books and the views of mothers about reading books with their children

    BÜŞRA GÖKTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimAnkara Üniversitesi

    Çocuk Gelişimi Ana Bilim Dalı

    PROF. DR. GÜLEN BARAN

  4. 2022-2023 LGS MATEMATİK ALT TESTİ SORULARININ TIMSS-2019 BİLİŞSEL ALANLARINA GÖRE İNCELENMESİ

    ANALYSİS OF 2022-2023 LGS MATHEMATİCS EXAM QUESTİONS ACCORDİNG TO TIMSS-2019 COGNİTİVE DOMAİNS

    KÜBRA SÜMER DİKMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimOndokuz Mayıs Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEVLÜDE DOĞAN

  5. 2018-2021 yılları arası OKIMS matematik alt testi sorularının öğrenme alanları ve RBT boyutlarına göre incelenmesi

    Examination of OKIMS mathematics sub-test questions according to learning areas and RBT dimensions between 2018-2021

    UĞUR YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimOndokuz Mayıs Üniversitesi

    Matematik ve Fen Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEVLÜDE DOĞAN