Geri Dön

Kısa metin sınıflandırma için öznitelik seçimi

Feature selection for short text classification

  1. Tez No: 637420
  2. Yazar: RASIM ÇEKİK
  3. Danışmanlar: DOÇ. DR. ALPER KÜRŞAT UYSAL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Eskişehir Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Donanım Bilim Dalı
  13. Sayfa Sayısı: 102

Özet

Kısa metin sınıflandırmada yüksek boyutluluk problemi sınıflandırıcıların işlem maliyetini ve performansını etkilediği için önemli bir yer tutmaktadır. Ayrıca kısa metinlerin seyrek, eksik ve tutarsız yapıda olmaları yüksek boyutluluk yanında uğraşılması gereken başka bir konudur. Tüm öznitelik uzayını en iyi temsil edecek alt öznitelik uzayını seçmek, yüksek boyutluluk problemine sunulan en etkili çözüm yollarından biridir. Bu yüzden bu alanda seyreklik probleminden en az etkilenecek ve etkili öznitelik seçecek yaklaşımlara ihtiyaç vardır. Bu amaç doğrultusunda kısa metin alanında etkili çalışacak iki öznitelik seçme yaklaşımı bu çalışmada sunulmuştur. Bu yaklaşımlardan ilki Orantılı Öznitelik Seçme (Proportional Rough Feature Selector-PRFS) adı verilen kaba kümeler tabanlı yaklaşımdır. PRFS yaklaşımı kaba kümeler yardımı ile terimlerin/özniteliklerin değer kümesine göre dokümanları belirli bölgelere ayırır. Bu bölgesel ayırma ile bir dokümanın bir sınıfa kesin ait olması veya ait olma olasılığında olduğu belirlenebilir. Ayrıca bir sınıfa ait olma olasılığında olma durumundaki dokümanlara bir ceza uygulamak için α adında bir katsayı ve terim vektör uzayındaki seyrekliğin etkisi hesaplanmıştır. Daha sonra PRFS metodu en iyi ve en çok bilinen öznitelik seçim yaklaşımlarından Gini katsayısı, bilgi kazanımı, ayırt edici öznitelik seçici ve son zamanlarda önerilmiş yöntemlerden max-min oranı ve normalleştirilmiş fark ölçüsü ile dört kısa metin veri kümesi üzerinde farklı öznitelik boyutlarında Makro-F1 sonuçlarının kıyaslanması yapılarak test edilmiştir. Deneysel sonuçlar, PRFS'nin Makro-F1 açısından diğer öznitelik seçim yöntemlerine göre daha iyi veya rekabetçi performans sunduğunu göstermiştir. Bu çalışma, kaba küme teorisi kullanılarak kısa metin sınıflandırması için yeni bir filtre öznitelik seçme yöntemi önerdiğinden, bu araştırma alanında öncü bir çalışma olabilir. İkinci yaklaşım XY metot olarak tanıtılan yaklaşımdır. Bu yaklaşım, tüm ikili sınıf kombinasyonları için terimleri dokuman frekansına göre ikili koordinat düzleminde düşünür. Daha sonra terimin XY doğrusuna olan uzaklığı hesaplanır. Ayrıca λ gibi bir değer hesaplanır ve bu değere göre terimler pozitif, negatif ve üçüncü bölge diye farklı bölgelere ayrılır. XY metodunun amacı olabildiğince negatif bölgeden az terim seçmektir. Bu metot da çok iyi bilinen ki-kare, bilgi kazanımı, Poisson dağılımından sapma yaklaşımları ve son zamanlarda önerilmiş max-min oranı ve ayırt edici öznitelik seçici yaklaşımları ile dört farklı kısa metin verisi üzerinde farklı öznitelik boyutları için Makro-F1 sonuçları test edilmiştir. Deneysel sonuçlar, XY metodunun Makro-F1 açısından diğer öznitelik seçim yöntemlerine göre daha iyi veya rekabetçi performans sunduğunu göstermiştir.

Özet (Çeviri)

High dimensionality problem is an important concern for short text classification due to its effect on computational cost and accuracy of classifiers. Also, short text data, besides being high dimensional, has an incomplete, inconsistent and sparse structure. Selection of important features that provides a better representation is a solution for high dimensionality problem. However, it is a fact that in feature selection process, short texts need feature selection approaches that will be least affected by the sparse problem. In this study, two feature selection approaches that will work effectively in the short text field are presented for this purpose. Firstly, we developed a novel filter feature selection method called Proportional Rough Feature Selector (PRFS) which uses the rough set for a regional distinction according to the value set of term to identify documents that to be exact belong to a class and have a possibility for belonging to a class. Documents which are possible to belong to a class are penalized by multiplying with a coefficient named α. Additionally, the effect of sparsity in the term vector space is calculated with the help of rough set. The PRFS is compared with state-of-the-art filter feature selection methods such as Gini index, information gain, distinguishing feature selector, recently proposed max-min ratio and normalized difference measure methods. The comparison is carried out using various feature sizes on four different short text datasets with Macro-F1 success measure. Experimental results demonstrated that the PRFS offers either better or competitive performance with respect to other feature selection methods in term of Macro-F1. This study may be a pioneering study in this research field as it proposes a novel feature selection method for short text classification using rough set theory. Secondly, this study presents a new filter feature selection method called XY method which represents the features on XY line and calculates the distance of a feature to the XY line. Also, a value like λ is calculated. According to this value, the terms are divided into different regions such as negative, positive, and third. The XY method aims to select as few terms as possible in the negative region. The XY method is compared with well-known filter feature selection methods such as chi-square, information gain, deviation from Poisson distribution, recently proposed max-min ratio, and distinguishing feature selector methods. The comparison is carried out using various feature sizes in order to make a fair evaluation on four different short text datasets with Macro-F1 success measure. Experimental results demonstrate that the XY method offers either better or competitive performance with respect to other feature selection methods in term of Macro-F1.

Benzer Tezler

  1. Text categorization using syllables and recurrent neural networks

    Tekrarlamalı sinir ağları ve heceleri kullanarak metin sınıflandırma

    ERSİN YAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SÜLEYMAN SERDAR KOZAT

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. New approaches to enhancing the performance of text classification

    Metin sınıflandırma başarımını iyileştirmek için yeni yaklaşımlar

    ALPER KÜRŞAT UYSAL

    Doktora

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnadolu Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SERKAN GÜNAL

  4. Metasezgisel algoritmalara dayalı öznitelik seçimi yöntemleriyle arapça metinlerin sınıflandırılması

    Development of metaheuristic algorithms and classification method of arabic texts

    SHAMIL JASIM HAMMADI AL-MOHAMMEDI

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FEHİM KÖYLÜ

  5. Derin öğrenmede öznitelik seçim yaklaşımları kullanılarak metin verilerinden covıd-19 aşı karşıtlığı tespiti

    Covid-19 anti-vaccination detection from text data using feature selection approaches in deep learning

    SERDAR ERTEM

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERDAL ÖZBAY