Document clustering on collection of multidisciplinary academic texts: Exploring document embeddings and clustering techniques

Disiplinlerarası akademik metin koleksiyonunun kümelere ayrılması: Döküman temsil vektörleri ve kümeleme yöntemlerinin araştırılması

PDF İndir

Tez No: 763834
Yazar: MURAT KARA
Danışmanlar: PROF. DR. PINAR KARAGÖZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 189

Özet

Üzerinde çalışılmamış büyük çaplı döküman kümeleri, onları incelemek ve değerlendirmek isteyen insanlar tarafından ilk aşamada yeterince anlamlandırılamazlar. Bu dökümanların üzerinde çalışmanın ilk aşaması bu dökümanları yakınlıklarına göre kümelere ayırmaktır. Kümeleme algoritmaları, bu tür yığın işler için en uygun yöntemdir. Ayrıca günümüzde, metin temsil algoritmalarıyla kelimeleri, cümleleri hatta dökümanları çok boyutlu vektörler olarak temsil edebiliyoruz. Bu vektörleri birbiriyle kıyaslayıp ona göre gruplama imkanına sahibiz. Bu tezin kapsamında, metin temsil algoritmaları koşturularak farklı içeriklere sahip, disiplinlerarası makale koleksiyonları üzerinden algoritmaların performansları değerlendirildi. Cost Action CA18110 projesindeki akademisyenlerin makalelerinden oluşan bir veri koleksiyonu; farklı kümeleme yöntemleri ile (Agglomerative, K-Means, DBSCAN), birçok metin temsil algoritmasının ürettiği metin temsil vektörlerine göre kümelere ayrıldı. Yöntemlerden, bahsedilen veri setinin üzerinde en iyi performansla çalışanlar seçilerek, bilimsel makaleler içeren bir tanesi daha küçük, diğeri daha büyük veri setleri üzerinde çalıştırılarak, sonuçlar gözlendi. Bunu yaparken, kümeleme sonuçlarını, silhouette skoruna göre en iyi hale getirmek üzere farklı metin temsil algoritmalarının hiper-parametreleri, birçok farklı denemelerle optimize edildi. Bunun için geliştirilen bir araçla, pek çok deney yapıldı, sonuçlar farklı ölçütlere göre değerlendirildi ve deney sonuçları görselleştirildi.

Özet (Çeviri)

A large collection of unstructured documents is mostly not comprehensible enough at first stage for people who need to analyse and evaluate these documents. Before working on these pile of documents, the first step is to group by their similarity. Clustering algorithms fit best for these kinds of batch job. Also, nowadays, by using embedding techniques, we could represent the words, sentences, and documents as multi-dimensional vectors. So, we can compare and cluster those documents using these representations. In this thesis, we have run embedding techniques to cluster multidisciplinary papers from different contexts. A collection of papers of academicians from Cost Action CA18110 project is clustered by different clustering methods, Agglomerative, K-Means and DBSCAN according to text representations created using distributed text representation techniques. The best methods chosen based on the experiments on the mentioned dataset are run on one small and one big text collection which contain scientific papers as well and the results are observed. While doing that, the hyper parameters of different embedding techniques were optimized to get better clustering results by applying several trials. Also, the parameters of the clustering methods are tried to be optimized to give better clustering result according to silhouette score. With a visualisation and experiment tool, lots of wise trials are performed, the results are evaluated with different clustering scores and visualised with dimensionality reduction techniques.

Benzer Tezler

Tez No
479534
Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği
Text mining using big data analysis methods and tools
EVREN PALA
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hava Harp Okulu Komutanlığı
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRAY YILMAZ
Tez No
201389
Türkçe belgelerin anlam tabanlı yöntemlerle madenciliği
Mining Turkish documents by meaning based techniques
AHMET GÜVEN
Doktora
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OYA KALIPSIZ
Tez No
275105
Efficiency and effectiveness of xml keyword search using full element index
Tam eleman indeksi kullanarak xml anahtar sözcük aramanın verimlilik ve etkililiği
DUYGU ATILGAN
Yüksek Lisans
İngilizce
2010
Bilgi ve Belge Yönetimi İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR ULUSOY
Tez No
129331
Text document querying via hierarchical clustering of documents in vector spaces
Vektör uzayında dökümanların sıradüzensel olarak gruplandırılmasıyla metin veri tabanlarında sorgulama
SERKAN KAYA
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Sistem ve Kontrol Mühendisliği Ana Bilim Dalı
PROF. DR. FİKRET GÜRGEN
YRD. DOÇ. DR. ULUĞ BAYAZIT
Tez No
304604
Metin madenciliği için iyileştirilmiş bir kümeleme yapısının tasarımı ve uygulaması
Design and application of an improved clustering algorithm for text mining
VOLKAN TUNALI
Doktora
Türkçe
2011
Bilgi ve Belge Yönetimi Marmara Üniversitesi
Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
PROF. DR. A. YILMAZ ÇAMURCU
YRD. DOÇ. DR. T. TUGAY BİLGİN

Geri Dön