Document clustering on collection of multidisciplinary academic texts: Exploring document embeddings and clustering techniques
Disiplinlerarası akademik metin koleksiyonunun kümelere ayrılması: Döküman temsil vektörleri ve kümeleme yöntemlerinin araştırılması
- Tez No: 763834
- Danışmanlar: PROF. DR. PINAR KARAGÖZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 189
Özet
Üzerinde çalışılmamış büyük çaplı döküman kümeleri, onları incelemek ve değerlendirmek isteyen insanlar tarafından ilk aşamada yeterince anlamlandırılamazlar. Bu dökümanların üzerinde çalışmanın ilk aşaması bu dökümanları yakınlıklarına göre kümelere ayırmaktır. Kümeleme algoritmaları, bu tür yığın işler için en uygun yöntemdir. Ayrıca günümüzde, metin temsil algoritmalarıyla kelimeleri, cümleleri hatta dökümanları çok boyutlu vektörler olarak temsil edebiliyoruz. Bu vektörleri birbiriyle kıyaslayıp ona göre gruplama imkanına sahibiz. Bu tezin kapsamında, metin temsil algoritmaları koşturularak farklı içeriklere sahip, disiplinlerarası makale koleksiyonları üzerinden algoritmaların performansları değerlendirildi. Cost Action CA18110 projesindeki akademisyenlerin makalelerinden oluşan bir veri koleksiyonu; farklı kümeleme yöntemleri ile (Agglomerative, K-Means, DBSCAN), birçok metin temsil algoritmasının ürettiği metin temsil vektörlerine göre kümelere ayrıldı. Yöntemlerden, bahsedilen veri setinin üzerinde en iyi performansla çalışanlar seçilerek, bilimsel makaleler içeren bir tanesi daha küçük, diğeri daha büyük veri setleri üzerinde çalıştırılarak, sonuçlar gözlendi. Bunu yaparken, kümeleme sonuçlarını, silhouette skoruna göre en iyi hale getirmek üzere farklı metin temsil algoritmalarının hiper-parametreleri, birçok farklı denemelerle optimize edildi. Bunun için geliştirilen bir araçla, pek çok deney yapıldı, sonuçlar farklı ölçütlere göre değerlendirildi ve deney sonuçları görselleştirildi.
Özet (Çeviri)
A large collection of unstructured documents is mostly not comprehensible enough at first stage for people who need to analyse and evaluate these documents. Before working on these pile of documents, the first step is to group by their similarity. Clustering algorithms fit best for these kinds of batch job. Also, nowadays, by using embedding techniques, we could represent the words, sentences, and documents as multi-dimensional vectors. So, we can compare and cluster those documents using these representations. In this thesis, we have run embedding techniques to cluster multidisciplinary papers from different contexts. A collection of papers of academicians from Cost Action CA18110 project is clustered by different clustering methods, Agglomerative, K-Means and DBSCAN according to text representations created using distributed text representation techniques. The best methods chosen based on the experiments on the mentioned dataset are run on one small and one big text collection which contain scientific papers as well and the results are observed. While doing that, the hyper parameters of different embedding techniques were optimized to get better clustering results by applying several trials. Also, the parameters of the clustering methods are tried to be optimized to give better clustering result according to silhouette score. With a visualisation and experiment tool, lots of wise trials are performed, the results are evaluated with different clustering scores and visualised with dimensionality reduction techniques.
Benzer Tezler
- Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği
Text mining using big data analysis methods and tools
EVREN PALA
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu KomutanlığıBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRAY YILMAZ
- Türkçe belgelerin anlam tabanlı yöntemlerle madenciliği
Mining Turkish documents by meaning based techniques
AHMET GÜVEN
Doktora
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OYA KALIPSIZ
- Efficiency and effectiveness of xml keyword search using full element index
Tam eleman indeksi kullanarak xml anahtar sözcük aramanın verimlilik ve etkililiği
DUYGU ATILGAN
Yüksek Lisans
İngilizce
2010
Bilgi ve Belge Yönetimiİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR ULUSOY
- Text document querying via hierarchical clustering of documents in vector spaces
Vektör uzayında dökümanların sıradüzensel olarak gruplandırılmasıyla metin veri tabanlarında sorgulama
SERKAN KAYA
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiSistem ve Kontrol Mühendisliği Ana Bilim Dalı
PROF. DR. FİKRET GÜRGEN
YRD. DOÇ. DR. ULUĞ BAYAZIT
- Metin madenciliği için iyileştirilmiş bir kümeleme yapısının tasarımı ve uygulaması
Design and application of an improved clustering algorithm for text mining
VOLKAN TUNALI
Doktora
Türkçe
2011
Bilgi ve Belge YönetimiMarmara ÜniversitesiElektronik-Bilgisayar Eğitimi Ana Bilim Dalı
PROF. DR. A. YILMAZ ÇAMURCU
YRD. DOÇ. DR. T. TUGAY BİLGİN