Soru dokümanlarının anlamsal benzerliklerine dayalı derin öğrenme tabanlı kümeleme analizi

Deep learning based clustering analysis based on the semantic similarity of question documents

PDF İndir

Tez No: 651235
Yazar: ERAY YELMEN
Danışmanlar: PROF. DR. NEVCİHAN DURU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: Türkçe
Üniversite: Kocaeli Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 77

Özet

İnternet ortamında metinsel dokümanların miktarının büyük boyutlara ulaşması ile birlikte aranan doğru dokümana kolay ve hızlı bir şekilde ulaşmak zorlaşmıştır. Metin dokümanlarının benzerliklerine göre kümelenmesi manuel yöntemlerle oldukça zahmetlidir. Bu durumu otomatik hale getirerek kolaylaştırmak için gelişmiş yöntemlere ihtiyaç vardır. Belge kümelemede metin verileri yakınlık ve benzerlik ölçüsüne göre gruplandırılır. Kümelemede yüksek başarı elde etmek, belgelerin doğru bir şekilde keşfedilmesi için oldukça önemlidir. Kelimelerin anlamsal özelliklerini yoğun vektörler kullanarak temsil etmek için kelime temsil yöntemlerinin kullanımı yaygınlaşmıştır. Yapay sinir ağı tabanlı ve semantik bir yapı içeren kelime temsil yöntemleri, kelimeler arasındaki anlamsal ilişkileri tespit etmekte oldukça başarılıdır. Bu temsil yöntemleri, geleneksel yöntemlere göre daha etkili bulunmuştur. Özellikle anlambilimsel analizlerde başarılı çalışmalar yapılmıştır. Doküman kümeleme çalışmaları kelime temsil yöntemleri veya geleneksel yöntemlerle yapılmış olup tek başına yeterli başarıya ulaşılamamıştır. Bundan dolayı başarıyı artırmak için benzer dokümanları kümelemede kelime temsil yöntemleri ve öznitelik boyut indirgeme yöntemlerinin birlikte kullanılmasına ihtiyaç bulunmaktadır. Bu tez çalışmasında soru dokümanları üzerinde kümeleme çalışması kelime temsil yöntemleri ve öznitelik boyut indirgeme yöntemlerine odaklanılarak yapılmıştır. Kelime temsili için word2vec, doc2vec ve fasttext yöntemleri kullanılmıştır. Temel Bileşenler Analizi yöntemi ise boyut indirgeme için bu 3 kelime temsil yöntemi ile birlikte kullanılmıştır. Kümeleme için ise k-means++, k-medoids, gaussian mixture ve bulanık c-means algoritmaları üzerinde deneysel çalışmalar yapılmış olup, en yüksek başarı doc2vec, temel bileşenler analizi (PCA) ve bulanık c-means algoritmasının birlikte kullanılması ile elde edilmiştir.

Özet (Çeviri)

With the increase of the amount of textual documents on the Internet, it had difficult to reach the searched correct document easily and quickly. Clustering of text documents according to their similarities is very troublesome by manual methods. Advanced methods are needed to automate this situation by facilitating it. In document clustering, text data is grouped according to proximity and similarity. Achieving high success in clustering is very important for accurate discovery of documents. The use of word embedding methods has become widespread to represent the semantic properties of words using dense vectors. Word embedding methods based on artificial neural network and containing a semantic structure are very successful in finding semantic relationships between words. These embedding methods were found to be more effective than traditional methods. Successful studies have been carried out especially in semantic analysis. Document clustering studies were made using word embedding methods or traditional methods, and not enough success was achieved alone. Therefore, in order to increase success, it is necessary to use word embedding methods and attribute dimension reduction methods together in clustering similar documents. In this thesis, clustering on question documents was done by focusing on word embedding and dimension reduction methods. Word2vec, doc2vec and fasttext methods are used for word embeddings. Principal Component Analysis (PCA) was used with this 3 word embedding methods for dimension reduction. For clustering, experimental studies have been conducted on k-means++, k-medoids, gaussian mixture and fuzzy-c means algorithms, and the highest success has been achieved by using doc2vec, PCA and fuzzy-c means algorithm.

Benzer Tezler

Tez No
166564
Metin işleme: Soru soran bir sistem tasarımı
Text processing: Design of question asking system
ZEKİ MOCAN
Yüksek Lisans
Türkçe
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ.DR. COŞKUN SÖNMEZ
Tez No
865296
2018-2023 yılları arasındaki Liselere Giriş Sınavı ve yayınlanan örnek matematik sorularının Yenilenmiş Bloom Taksonomisine göre incelenmesi
Investigation of the High School Entrance Exam and published sample mathematics questions between 2018-2023 years according to the Revised Bloom Taxonomy
NUR SEDA TUNACI ÇOLAK
Yüksek Lisans
Türkçe
2024
Eğitim ve Öğretim Eskişehir Osmangazi Üniversitesi
Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DOÇ. DR. EMRE EV ÇİMEN
Tez No
886313
2022-2023 LGS MATEMATİK ALT TESTİ SORULARININ TIMSS-2019 BİLİŞSEL ALANLARINA GÖRE İNCELENMESİ
ANALYSİS OF 2022-2023 LGS MATHEMATİCS EXAM QUESTİONS ACCORDİNG TO TIMSS-2019 COGNİTİVE DOMAİNS
KÜBRA SÜMER DİKMEN
Yüksek Lisans
Türkçe
2024
Eğitim ve Öğretim Ondokuz Mayıs Üniversitesi
Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEVLÜDE DOĞAN
Tez No
752961
Resimli çocuk kitaplarında aile ortamı ve aile ilişkileri ile annelerin çocuklarıyla kitap okumaya dair görüşlerinin incelenmesi
Investigation of family environment and family relations in pictured children books and the views of mothers about reading books with their children
BÜŞRA GÖKTAŞ
Yüksek Lisans
Türkçe
2022
Eğitim ve Öğretim Ankara Üniversitesi
Çocuk Gelişimi Ana Bilim Dalı
PROF. DR. GÜLEN BARAN
Tez No
145177
Hava Harp Okulu'nda görev yapan beden eğitimi öğretmenlerinin ders içi liderlik davranışlarının öğrenci gözüyle değerlendirilmesi
The evaluation of Air Force Academy's physical training instructores' leadership behaviours in lessons in the cadets' point of view
SULTAN ÜŞENMEZ
Yüksek Lisans
Türkçe
2004
Eğitim ve Öğretim Gazi Üniversitesi
Beden Eğitimi ve Spor Öğretmenliği Ana Bilim Dalı
PROF. DR. İBRAHİM YILDIRAN

Geri Dön