Soru dokümanlarının anlamsal benzerliklerine dayalı derin öğrenme tabanlı kümeleme analizi
Deep learning based clustering analysis based on the semantic similarity of question documents
- Tez No: 651235
- Danışmanlar: PROF. DR. NEVCİHAN DURU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 77
Özet
İnternet ortamında metinsel dokümanların miktarının büyük boyutlara ulaşması ile birlikte aranan doğru dokümana kolay ve hızlı bir şekilde ulaşmak zorlaşmıştır. Metin dokümanlarının benzerliklerine göre kümelenmesi manuel yöntemlerle oldukça zahmetlidir. Bu durumu otomatik hale getirerek kolaylaştırmak için gelişmiş yöntemlere ihtiyaç vardır. Belge kümelemede metin verileri yakınlık ve benzerlik ölçüsüne göre gruplandırılır. Kümelemede yüksek başarı elde etmek, belgelerin doğru bir şekilde keşfedilmesi için oldukça önemlidir. Kelimelerin anlamsal özelliklerini yoğun vektörler kullanarak temsil etmek için kelime temsil yöntemlerinin kullanımı yaygınlaşmıştır. Yapay sinir ağı tabanlı ve semantik bir yapı içeren kelime temsil yöntemleri, kelimeler arasındaki anlamsal ilişkileri tespit etmekte oldukça başarılıdır. Bu temsil yöntemleri, geleneksel yöntemlere göre daha etkili bulunmuştur. Özellikle anlambilimsel analizlerde başarılı çalışmalar yapılmıştır. Doküman kümeleme çalışmaları kelime temsil yöntemleri veya geleneksel yöntemlerle yapılmış olup tek başına yeterli başarıya ulaşılamamıştır. Bundan dolayı başarıyı artırmak için benzer dokümanları kümelemede kelime temsil yöntemleri ve öznitelik boyut indirgeme yöntemlerinin birlikte kullanılmasına ihtiyaç bulunmaktadır. Bu tez çalışmasında soru dokümanları üzerinde kümeleme çalışması kelime temsil yöntemleri ve öznitelik boyut indirgeme yöntemlerine odaklanılarak yapılmıştır. Kelime temsili için word2vec, doc2vec ve fasttext yöntemleri kullanılmıştır. Temel Bileşenler Analizi yöntemi ise boyut indirgeme için bu 3 kelime temsil yöntemi ile birlikte kullanılmıştır. Kümeleme için ise k-means++, k-medoids, gaussian mixture ve bulanık c-means algoritmaları üzerinde deneysel çalışmalar yapılmış olup, en yüksek başarı doc2vec, temel bileşenler analizi (PCA) ve bulanık c-means algoritmasının birlikte kullanılması ile elde edilmiştir.
Özet (Çeviri)
With the increase of the amount of textual documents on the Internet, it had difficult to reach the searched correct document easily and quickly. Clustering of text documents according to their similarities is very troublesome by manual methods. Advanced methods are needed to automate this situation by facilitating it. In document clustering, text data is grouped according to proximity and similarity. Achieving high success in clustering is very important for accurate discovery of documents. The use of word embedding methods has become widespread to represent the semantic properties of words using dense vectors. Word embedding methods based on artificial neural network and containing a semantic structure are very successful in finding semantic relationships between words. These embedding methods were found to be more effective than traditional methods. Successful studies have been carried out especially in semantic analysis. Document clustering studies were made using word embedding methods or traditional methods, and not enough success was achieved alone. Therefore, in order to increase success, it is necessary to use word embedding methods and attribute dimension reduction methods together in clustering similar documents. In this thesis, clustering on question documents was done by focusing on word embedding and dimension reduction methods. Word2vec, doc2vec and fasttext methods are used for word embeddings. Principal Component Analysis (PCA) was used with this 3 word embedding methods for dimension reduction. For clustering, experimental studies have been conducted on k-means++, k-medoids, gaussian mixture and fuzzy-c means algorithms, and the highest success has been achieved by using doc2vec, PCA and fuzzy-c means algorithm.
Benzer Tezler
- Metin işleme: Soru soran bir sistem tasarımı
Text processing: Design of question asking system
ZEKİ MOCAN
Yüksek Lisans
Türkçe
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ.DR. COŞKUN SÖNMEZ
- 2018-2023 yılları arasındaki Liselere Giriş Sınavı ve yayınlanan örnek matematik sorularının Yenilenmiş Bloom Taksonomisine göre incelenmesi
Investigation of the High School Entrance Exam and published sample mathematics questions between 2018-2023 years according to the Revised Bloom Taxonomy
NUR SEDA TUNACI ÇOLAK
Yüksek Lisans
Türkçe
2024
Eğitim ve ÖğretimEskişehir Osmangazi ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DOÇ. DR. EMRE EV ÇİMEN
- Resimli çocuk kitaplarında aile ortamı ve aile ilişkileri ile annelerin çocuklarıyla kitap okumaya dair görüşlerinin incelenmesi
Investigation of family environment and family relations in pictured children books and the views of mothers about reading books with their children
BÜŞRA GÖKTAŞ
Yüksek Lisans
Türkçe
2022
Eğitim ve ÖğretimAnkara ÜniversitesiÇocuk Gelişimi Ana Bilim Dalı
PROF. DR. GÜLEN BARAN
- 2022-2023 LGS MATEMATİK ALT TESTİ SORULARININ TIMSS-2019 BİLİŞSEL ALANLARINA GÖRE İNCELENMESİ
ANALYSİS OF 2022-2023 LGS MATHEMATİCS EXAM QUESTİONS ACCORDİNG TO TIMSS-2019 COGNİTİVE DOMAİNS
KÜBRA SÜMER DİKMEN
Yüksek Lisans
Türkçe
2024
Eğitim ve ÖğretimOndokuz Mayıs ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEVLÜDE DOĞAN
- 2018-2021 yılları arası OKIMS matematik alt testi sorularının öğrenme alanları ve RBT boyutlarına göre incelenmesi
Examination of OKIMS mathematics sub-test questions according to learning areas and RBT dimensions between 2018-2021
UĞUR YILMAZ
Yüksek Lisans
Türkçe
2022
Eğitim ve ÖğretimOndokuz Mayıs ÜniversitesiMatematik ve Fen Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEVLÜDE DOĞAN