Geri Dön

Comparison the performance of text clustering methods in different languages

Başlık çevirisi mevcut değil.

  1. Tez No: 796336
  2. Yazar: ZAINAB MOHAMMED KHAZAAL AL-ABBASI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ OĞUZ KARAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Altınbaş Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 74

Özet

Son zamanlarda, internette okunması çok zaman alan çeşitli metin verileri mevcuttur. Kümeleme teknikleri, birçok yapılandırılmamış metin verisini analiz etmek ve veri konularını bulmak için yaygın olarak kullanılmıştır. Birçok yol, metinlerde hangi konuların ele alındığını saptamak için küme metinlerine yardımcı olur. Kümeleme algoritmaları, bir metnin belirli bir grup veya kategoriye nasıl sığdığını ifade eder. Yabancı diller dil açısından zengin ve karmaşıktır, bu da geleneksel analizi zorlaştırır. Yararlı bilgiler bulunmadan önce bu metin verileri uygun şekilde düzenlenmelidir. Bu çalışma İngilizce, Arapça ve Türkçe Twitter metin dillerinde Latent Dirichlet Allocation (LDA), Latent Semantic Analysis (LSA) ve Non-Negative Matrix Factorization (NMF) kümeleme yöntemlerini karşılaştırmayı amaçlamaktadır. Bu çalışma İngilizce, Arapça ve Türkçe Twitter metin dillerinde kümeleme yöntemlerini incelemektedir. Bununla birlikte, farklı dillerin metin ön işleme ve özellik gösteriminin kümeleme yöntemlerinin performansı üzerindeki etkisini karşılaştırmayı amaçlıyoruz. Standart istatistiksel tutarlılık metrikleri üzerinde kurulan kümeleme yaklaşımlarının uygulanmasını değerlendirmek için üç Twitter veri seti toplandı. Sonuçlar, LDA'nın diğer kümeleme yöntemlerinden daha iyi performans gösterdiğini ve LDA yaklaşımından elde edilen en yüksek sonuçların üç veri setindeki tutarlılık değerlerinin ( 0.5017, 0.555 ve 0.5465) olduğunu göstermektedir. Ayrıca, sonuçlar, üç kümeleme yönteminin çoğu deneyinde, kök çıkarma işleminin yapılmamasına kıyasla, kök çıkarma kelimelerinin tutarlılık değerini etkilediğini ve düşürdüğünü göstermektedir. Sonuçlar, Terim Frekansı - Ters Belge Frekansı (TF-IDF) özellik temsilinin, Kelime Çantası (Bow) ile karşılaştırıldığında üç küme yönteminin çoğu deneyinde tutarlılık değerini etkilediğini ve artırdığını göstermektedir.

Özet (Çeviri)

Recently, Several text data have been available on the internet, which takes a lot of time to read. Clustering techniques were widely used to analyze many unstructured text data and find the subjects of data. Many ways help cluster texts to detect which topics are discussed in texts. Clustering algorithms refer to how a text fits into a specific group or category. Foreign languages are rich and complicated linguistically, making conventional analysis difficult. These text data must first be appropriately arranged before finding helpful information. This work aims to compare Latent Dirichlet Allocation (LDA), Latent Semantic Analysis (LSA), and Non-Negative Matrix Factorization (NMF) clustering methods in Twitter text languages of English, Arabic, and Turkish. This study examines clustering methods in English, Arabic, and Turkish Twitter text languages. Although, we aim to compare the influence of text preprocessing and feature representation of different languages on the performance of clustering methods. Three Twitter datasets were collected to assess the implementation of clustering approaches established on the standard statistical coherence metrics. The results show that LDA outperformed other clustering methods, and the highest results acquired from the LDA approach were ( 0.5017, 0.555, and 0.5465) of coherence values in three datasets. Also, the results indicate that stemming words affect and lower the coherence value in most experiments of the three cluster methods compared to without the stemming process. The results indicate that Term Frequency - Inverse Document Frequency (TF-IDF) feature representation affects and increases the coherence value in most experiments of the three cluster methods compared to Bag of word (Bow)

Benzer Tezler

  1. Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım

    A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization

    MELTEM AKSOY

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEDA YANIK ÖZBAY

    PROF. DR. MEHMET FATİH AMASYALI

  2. Arama sorguları üzerinde görev tabanlı kümeleme

    Task-based clustering on search queries

    ALMILA SELCEN AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  3. Local context based linear text segmentation

    Yerel içerik tabanlı konusal metin bölümlendirme

    HAYRETTİN ERDEM

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  4. Efficiency and effectiveness of xml keyword search using full element index

    Tam eleman indeksi kullanarak xml anahtar sözcük aramanın verimlilik ve etkililiği

    DUYGU ATILGAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgi ve Belge Yönetimiİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR ULUSOY

  5. Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama

    Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders

    KEZİBAN SEÇKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Siyasal BilimlerSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ERMAN COŞKUN