Geri Dön

Document clustering on collection of multidisciplinary academic texts: Exploring document embeddings and clustering techniques

Disiplinlerarası akademik metin koleksiyonunun kümelere ayrılması: Döküman temsil vektörleri ve kümeleme yöntemlerinin araştırılması

  1. Tez No: 763834
  2. Yazar: MURAT KARA
  3. Danışmanlar: PROF. DR. PINAR KARAGÖZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 189

Özet

Üzerinde çalışılmamış büyük çaplı döküman kümeleri, onları incelemek ve değerlendirmek isteyen insanlar tarafından ilk aşamada yeterince anlamlandırılamazlar. Bu dökümanların üzerinde çalışmanın ilk aşaması bu dökümanları yakınlıklarına göre kümelere ayırmaktır. Kümeleme algoritmaları, bu tür yığın işler için en uygun yöntemdir. Ayrıca günümüzde, metin temsil algoritmalarıyla kelimeleri, cümleleri hatta dökümanları çok boyutlu vektörler olarak temsil edebiliyoruz. Bu vektörleri birbiriyle kıyaslayıp ona göre gruplama imkanına sahibiz. Bu tezin kapsamında, metin temsil algoritmaları koşturularak farklı içeriklere sahip, disiplinlerarası makale koleksiyonları üzerinden algoritmaların performansları değerlendirildi. Cost Action CA18110 projesindeki akademisyenlerin makalelerinden oluşan bir veri koleksiyonu; farklı kümeleme yöntemleri ile (Agglomerative, K-Means, DBSCAN), birçok metin temsil algoritmasının ürettiği metin temsil vektörlerine göre kümelere ayrıldı. Yöntemlerden, bahsedilen veri setinin üzerinde en iyi performansla çalışanlar seçilerek, bilimsel makaleler içeren bir tanesi daha küçük, diğeri daha büyük veri setleri üzerinde çalıştırılarak, sonuçlar gözlendi. Bunu yaparken, kümeleme sonuçlarını, silhouette skoruna göre en iyi hale getirmek üzere farklı metin temsil algoritmalarının hiper-parametreleri, birçok farklı denemelerle optimize edildi. Bunun için geliştirilen bir araçla, pek çok deney yapıldı, sonuçlar farklı ölçütlere göre değerlendirildi ve deney sonuçları görselleştirildi.

Özet (Çeviri)

A large collection of unstructured documents is mostly not comprehensible enough at first stage for people who need to analyse and evaluate these documents. Before working on these pile of documents, the first step is to group by their similarity. Clustering algorithms fit best for these kinds of batch job. Also, nowadays, by using embedding techniques, we could represent the words, sentences, and documents as multi-dimensional vectors. So, we can compare and cluster those documents using these representations. In this thesis, we have run embedding techniques to cluster multidisciplinary papers from different contexts. A collection of papers of academicians from Cost Action CA18110 project is clustered by different clustering methods, Agglomerative, K-Means and DBSCAN according to text representations created using distributed text representation techniques. The best methods chosen based on the experiments on the mentioned dataset are run on one small and one big text collection which contain scientific papers as well and the results are observed. While doing that, the hyper parameters of different embedding techniques were optimized to get better clustering results by applying several trials. Also, the parameters of the clustering methods are tried to be optimized to give better clustering result according to silhouette score. With a visualisation and experiment tool, lots of wise trials are performed, the results are evaluated with different clustering scores and visualised with dimensionality reduction techniques.

Benzer Tezler

  1. Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği

    Text mining using big data analysis methods and tools

    EVREN PALA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu Komutanlığı

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜRAY YILMAZ

  2. Türkçe belgelerin anlam tabanlı yöntemlerle madenciliği

    Mining Turkish documents by meaning based techniques

    AHMET GÜVEN

    Doktora

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OYA KALIPSIZ

  3. Efficiency and effectiveness of xml keyword search using full element index

    Tam eleman indeksi kullanarak xml anahtar sözcük aramanın verimlilik ve etkililiği

    DUYGU ATILGAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgi ve Belge Yönetimiİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR ULUSOY

  4. Text document querying via hierarchical clustering of documents in vector spaces

    Vektör uzayında dökümanların sıradüzensel olarak gruplandırılmasıyla metin veri tabanlarında sorgulama

    SERKAN KAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Sistem ve Kontrol Mühendisliği Ana Bilim Dalı

    PROF. DR. FİKRET GÜRGEN

    YRD. DOÇ. DR. ULUĞ BAYAZIT

  5. Metin madenciliği için iyileştirilmiş bir kümeleme yapısının tasarımı ve uygulaması

    Design and application of an improved clustering algorithm for text mining

    VOLKAN TUNALI

    Doktora

    Türkçe

    Türkçe

    2011

    Bilgi ve Belge YönetimiMarmara Üniversitesi

    Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı

    PROF. DR. A. YILMAZ ÇAMURCU

    YRD. DOÇ. DR. T. TUGAY BİLGİN