Kısa metin sınıflandırma için öznitelik seçimi

Feature selection for short text classification

PDF İndir

Tez No: 637420
Yazar: RASIM ÇEKİK
Danışmanlar: DOÇ. DR. ALPER KÜRŞAT UYSAL
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: Türkçe
Üniversite: Eskişehir Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Donanım Bilim Dalı
Sayfa Sayısı: 102

Özet

Kısa metin sınıflandırmada yüksek boyutluluk problemi sınıflandırıcıların işlem maliyetini ve performansını etkilediği için önemli bir yer tutmaktadır. Ayrıca kısa metinlerin seyrek, eksik ve tutarsız yapıda olmaları yüksek boyutluluk yanında uğraşılması gereken başka bir konudur. Tüm öznitelik uzayını en iyi temsil edecek alt öznitelik uzayını seçmek, yüksek boyutluluk problemine sunulan en etkili çözüm yollarından biridir. Bu yüzden bu alanda seyreklik probleminden en az etkilenecek ve etkili öznitelik seçecek yaklaşımlara ihtiyaç vardır. Bu amaç doğrultusunda kısa metin alanında etkili çalışacak iki öznitelik seçme yaklaşımı bu çalışmada sunulmuştur. Bu yaklaşımlardan ilki Orantılı Öznitelik Seçme (Proportional Rough Feature Selector-PRFS) adı verilen kaba kümeler tabanlı yaklaşımdır. PRFS yaklaşımı kaba kümeler yardımı ile terimlerin/özniteliklerin değer kümesine göre dokümanları belirli bölgelere ayırır. Bu bölgesel ayırma ile bir dokümanın bir sınıfa kesin ait olması veya ait olma olasılığında olduğu belirlenebilir. Ayrıca bir sınıfa ait olma olasılığında olma durumundaki dokümanlara bir ceza uygulamak için α adında bir katsayı ve terim vektör uzayındaki seyrekliğin etkisi hesaplanmıştır. Daha sonra PRFS metodu en iyi ve en çok bilinen öznitelik seçim yaklaşımlarından Gini katsayısı, bilgi kazanımı, ayırt edici öznitelik seçici ve son zamanlarda önerilmiş yöntemlerden max-min oranı ve normalleştirilmiş fark ölçüsü ile dört kısa metin veri kümesi üzerinde farklı öznitelik boyutlarında Makro-F1 sonuçlarının kıyaslanması yapılarak test edilmiştir. Deneysel sonuçlar, PRFS'nin Makro-F1 açısından diğer öznitelik seçim yöntemlerine göre daha iyi veya rekabetçi performans sunduğunu göstermiştir. Bu çalışma, kaba küme teorisi kullanılarak kısa metin sınıflandırması için yeni bir filtre öznitelik seçme yöntemi önerdiğinden, bu araştırma alanında öncü bir çalışma olabilir. İkinci yaklaşım XY metot olarak tanıtılan yaklaşımdır. Bu yaklaşım, tüm ikili sınıf kombinasyonları için terimleri dokuman frekansına göre ikili koordinat düzleminde düşünür. Daha sonra terimin XY doğrusuna olan uzaklığı hesaplanır. Ayrıca λ gibi bir değer hesaplanır ve bu değere göre terimler pozitif, negatif ve üçüncü bölge diye farklı bölgelere ayrılır. XY metodunun amacı olabildiğince negatif bölgeden az terim seçmektir. Bu metot da çok iyi bilinen ki-kare, bilgi kazanımı, Poisson dağılımından sapma yaklaşımları ve son zamanlarda önerilmiş max-min oranı ve ayırt edici öznitelik seçici yaklaşımları ile dört farklı kısa metin verisi üzerinde farklı öznitelik boyutları için Makro-F1 sonuçları test edilmiştir. Deneysel sonuçlar, XY metodunun Makro-F1 açısından diğer öznitelik seçim yöntemlerine göre daha iyi veya rekabetçi performans sunduğunu göstermiştir.

Özet (Çeviri)

High dimensionality problem is an important concern for short text classification due to its effect on computational cost and accuracy of classifiers. Also, short text data, besides being high dimensional, has an incomplete, inconsistent and sparse structure. Selection of important features that provides a better representation is a solution for high dimensionality problem. However, it is a fact that in feature selection process, short texts need feature selection approaches that will be least affected by the sparse problem. In this study, two feature selection approaches that will work effectively in the short text field are presented for this purpose. Firstly, we developed a novel filter feature selection method called Proportional Rough Feature Selector (PRFS) which uses the rough set for a regional distinction according to the value set of term to identify documents that to be exact belong to a class and have a possibility for belonging to a class. Documents which are possible to belong to a class are penalized by multiplying with a coefficient named α. Additionally, the effect of sparsity in the term vector space is calculated with the help of rough set. The PRFS is compared with state-of-the-art filter feature selection methods such as Gini index, information gain, distinguishing feature selector, recently proposed max-min ratio and normalized difference measure methods. The comparison is carried out using various feature sizes on four different short text datasets with Macro-F1 success measure. Experimental results demonstrated that the PRFS offers either better or competitive performance with respect to other feature selection methods in term of Macro-F1. This study may be a pioneering study in this research field as it proposes a novel feature selection method for short text classification using rough set theory. Secondly, this study presents a new filter feature selection method called XY method which represents the features on XY line and calculates the distance of a feature to the XY line. Also, a value like λ is calculated. According to this value, the terms are divided into different regions such as negative, positive, and third. The XY method aims to select as few terms as possible in the negative region. The XY method is compared with well-known filter feature selection methods such as chi-square, information gain, deviation from Poisson distribution, recently proposed max-min ratio, and distinguishing feature selector methods. The comparison is carried out using various feature sizes in order to make a fair evaluation on four different short text datasets with Macro-F1 success measure. Experimental results demonstrate that the XY method offers either better or competitive performance with respect to other feature selection methods in term of Macro-F1.

Benzer Tezler

Tez No
467631
Text categorization using syllables and recurrent neural networks
Tekrarlamalı sinir ağları ve heceleri kullanarak metin sınıflandırma
ERSİN YAR
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik Mühendisliği İhsan Doğramacı Bilkent Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SÜLEYMAN SERDAR KOZAT
Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
Tez No
334851
New approaches to enhancing the performance of text classification
Metin sınıflandırma başarımını iyileştirmek için yeni yaklaşımlar
ALPER KÜRŞAT UYSAL
Doktora
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Anadolu Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SERKAN GÜNAL
Tez No
557054
Metasezgisel algoritmalara dayalı öznitelik seçimi yöntemleriyle arapça metinlerin sınıflandırılması
Development of metaheuristic algorithms and classification method of arabic texts
SHAMIL JASIM HAMMADI AL-MOHAMMEDI
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Erciyes Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FEHİM KÖYLÜ
Tez No
861458
Derin öğrenmede öznitelik seçim yaklaşımları kullanılarak metin verilerinden covıd-19 aşı karşıtlığı tespiti
Covid-19 anti-vaccination detection from text data using feature selection approaches in deep learning
SERDAR ERTEM
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERDAL ÖZBAY

Geri Dön