Comparison the performance of text clustering methods in different languages
Başlık çevirisi mevcut değil.
- Tez No: 796336
- Danışmanlar: DR. ÖĞR. ÜYESİ OĞUZ KARAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Altınbaş Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilişim Teknolojileri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 74
Özet
Son zamanlarda, internette okunması çok zaman alan çeşitli metin verileri mevcuttur. Kümeleme teknikleri, birçok yapılandırılmamış metin verisini analiz etmek ve veri konularını bulmak için yaygın olarak kullanılmıştır. Birçok yol, metinlerde hangi konuların ele alındığını saptamak için küme metinlerine yardımcı olur. Kümeleme algoritmaları, bir metnin belirli bir grup veya kategoriye nasıl sığdığını ifade eder. Yabancı diller dil açısından zengin ve karmaşıktır, bu da geleneksel analizi zorlaştırır. Yararlı bilgiler bulunmadan önce bu metin verileri uygun şekilde düzenlenmelidir. Bu çalışma İngilizce, Arapça ve Türkçe Twitter metin dillerinde Latent Dirichlet Allocation (LDA), Latent Semantic Analysis (LSA) ve Non-Negative Matrix Factorization (NMF) kümeleme yöntemlerini karşılaştırmayı amaçlamaktadır. Bu çalışma İngilizce, Arapça ve Türkçe Twitter metin dillerinde kümeleme yöntemlerini incelemektedir. Bununla birlikte, farklı dillerin metin ön işleme ve özellik gösteriminin kümeleme yöntemlerinin performansı üzerindeki etkisini karşılaştırmayı amaçlıyoruz. Standart istatistiksel tutarlılık metrikleri üzerinde kurulan kümeleme yaklaşımlarının uygulanmasını değerlendirmek için üç Twitter veri seti toplandı. Sonuçlar, LDA'nın diğer kümeleme yöntemlerinden daha iyi performans gösterdiğini ve LDA yaklaşımından elde edilen en yüksek sonuçların üç veri setindeki tutarlılık değerlerinin ( 0.5017, 0.555 ve 0.5465) olduğunu göstermektedir. Ayrıca, sonuçlar, üç kümeleme yönteminin çoğu deneyinde, kök çıkarma işleminin yapılmamasına kıyasla, kök çıkarma kelimelerinin tutarlılık değerini etkilediğini ve düşürdüğünü göstermektedir. Sonuçlar, Terim Frekansı - Ters Belge Frekansı (TF-IDF) özellik temsilinin, Kelime Çantası (Bow) ile karşılaştırıldığında üç küme yönteminin çoğu deneyinde tutarlılık değerini etkilediğini ve artırdığını göstermektedir.
Özet (Çeviri)
Recently, Several text data have been available on the internet, which takes a lot of time to read. Clustering techniques were widely used to analyze many unstructured text data and find the subjects of data. Many ways help cluster texts to detect which topics are discussed in texts. Clustering algorithms refer to how a text fits into a specific group or category. Foreign languages are rich and complicated linguistically, making conventional analysis difficult. These text data must first be appropriately arranged before finding helpful information. This work aims to compare Latent Dirichlet Allocation (LDA), Latent Semantic Analysis (LSA), and Non-Negative Matrix Factorization (NMF) clustering methods in Twitter text languages of English, Arabic, and Turkish. This study examines clustering methods in English, Arabic, and Turkish Twitter text languages. Although, we aim to compare the influence of text preprocessing and feature representation of different languages on the performance of clustering methods. Three Twitter datasets were collected to assess the implementation of clustering approaches established on the standard statistical coherence metrics. The results show that LDA outperformed other clustering methods, and the highest results acquired from the LDA approach were ( 0.5017, 0.555, and 0.5465) of coherence values in three datasets. Also, the results indicate that stemming words affect and lower the coherence value in most experiments of the three cluster methods compared to without the stemming process. The results indicate that Term Frequency - Inverse Document Frequency (TF-IDF) feature representation affects and increases the coherence value in most experiments of the three cluster methods compared to Bag of word (Bow)
Benzer Tezler
- Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım
A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization
MELTEM AKSOY
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEDA YANIK ÖZBAY
PROF. DR. MEHMET FATİH AMASYALI
- Arama sorguları üzerinde görev tabanlı kümeleme
Task-based clustering on search queries
ALMILA SELCEN AKGÜN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
- Local context based linear text segmentation
Yerel içerik tabanlı konusal metin bölümlendirme
HAYRETTİN ERDEM
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FAZLI CAN
- Efficiency and effectiveness of xml keyword search using full element index
Tam eleman indeksi kullanarak xml anahtar sözcük aramanın verimlilik ve etkililiği
DUYGU ATILGAN
Yüksek Lisans
İngilizce
2010
Bilgi ve Belge Yönetimiİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR ULUSOY
- Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama
Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders
KEZİBAN SEÇKİN
Yüksek Lisans
Türkçe
2011
Siyasal BilimlerSakarya Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. ERMAN COŞKUN