Dengesiz metin sınıflandırma için yeni yaklaşımlar
New approaches to imbalanced text classification
- Tez No: 834956
- Danışmanlar: DOÇ. DR. ALPER KÜRŞAT UYSAL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Eskişehir Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 91
Özet
Metin verilerinin sınıflar arasında genellikle dengesiz bir dağılımı vardır. Bu durum, sınıflandırıcıların dengesiz veri kümelerinde küçük kategoriler üzerinde kötü performansa sahip sınıflandırma eğilimi göstermelerine neden olmaktadır. Bunun sonucu olarak, metin sınıflandırma dengesiz sınıf probleminden oldukça etkilenen bir süreçtir. Literatürde, dengesiz metin sınıflandırma üzerine birçok çalışma yapılmıştır ve bu konu halen popüler bir araştırma alanıdır. Metin sınıflandırma sürecinin önemli aşamalarından biri olan öznitelik seçimi aşaması, dengesiz metin sınıflandırma problemi için de önemlidir. Bu tez çalışmasında, metin sınıflandırma için öznitelik seçme problemleri ile popüler öznitelik seçme yöntemlerinin sundukları çözümler geniş kapsamlı olarak analiz edilmiş ve öznitelik seçme aşamasına yönelik olarak çeşitli çözümler önerilmiştir. Bu amaçla, ilk olarak öznitelik seçme yöntemlerinin dengesiz metinlerin sınıflandırılması üzerindeki etkisi ayrıntılı olarak incelenmiştir. Bu doğrultuda, iki farklı veri setinde üç farklı sınıflandırıcı ve dokuz farklı öznitelik seçme yöntemi ile birçok deney gerçekleştirilmiştir. Ayrıca, farklı öznitelik sayıları kullanılarak öznitelik seçme yöntemlerinin başarısı gözlemlenmiştir. Aynı zamanda dengesiz metin sınıflandırma için iki yeni öznitelik seçme yöntemi (EFS_IMP1 ve EFS_IMP2) önerilmiştir. Bu yöntemler, Kapsamlı Öznitelik Seçici (EFS) adlı yeni bir öznitelik seçme yönteminden türetilmiştir. EFS_IMP1 ve EFS_IMP2 yöntemlerinin performanslarının karşılaştırması, filtre tabanlı altı öznitelik seçme yöntemli ile gerçekleştirilmiştir. Üç referans dengesiz metin veri seti, Destek Vektör Makineleri (SVM), Karar Ağacı (DT), Rastgele Orman (RF) ve K-En Yakın Komşular (kNN) sınıflandırıcıları ile kullanılmıştır. Deneysel sonuçlar, EFS_IMP1 ve EFS_IMP2'nin dengesiz metin sınıflandırma için Makro-F1'e göre diğer öznitelik seçme yöntemleri ile karşılaştırıldığında üstün veya karşılaştırabilir performans sunduğunu göstermiştir.
Özet (Çeviri)
The distribution of text data across classes is often imbalanced. This condition leads to classifiers tending to perform poorly on smaller categories within imbalanced data sets. As a result, text classification is a process significantly affected by the imbalanced class problem. The feature selection stage, one of the crucial stages of the text classification process, is also important for the imbalanced text classification problem. In this thesis, the problems of feature selection for text classification and the solutions offered by popular feature selection methods are extensively analyzed, and various solutions are proposed for the feature selection stage. To this end, firstly, the effect of feature selection methods on the classification of imbalanced texts is thoroughly examined. In this direction, many experiments were carried out with three different classifiers and nine different feature selection methods on two different data sets. Additionally, the success of feature selection methods has been observed using different numbers of features. Also, two new feature selection methods (EFS_IMP1 and EFS_IMP2) were proposed for imbalanced text classification. These methods are derived from a recent feature selection method called Extensive Feature Selector (EFS). The performance comparison of EFS_IMP1 and EFS_IMP2 methods was carried out with six filter-based feature selection methods. Three benchmark imbalanced text data sets were employed with Support Vector Machines (SVM), Decision Tree (DT), Random Forest (RF), and K-Nearest Neighbors (kNN) classifiers. Experimental results showed that EFS_IMP1 and EFS_IMP2 offer superior or comparative performance compared with other feature selection methods based on Macro-F1 for imbalanced text classification.
Benzer Tezler
- A new framework for decentralized social networks: Harnessing blockchain, deep learning, and natural language processing
Merkezsiz sosyal ağlar için yeni bir çerçeve: Blok zinciri, derin öğrenme ve doğal dil işlemeyi kullanmak
AMIR AL KADAH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DENİZ BALTA
- A similarity based oversampling method for multi-label imbalanced text data
Çok etiketli dengesiz metin veri kümeleri için benzerliğe dayalı bir aşkın örnekleme yöntemi
İSMAİL HAKKI KARAMAN
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. GÜLSER KÖKSAL
DOÇ. DR. LEVENT ERİŞKİN
- Exploiting clustering patterns in training sets to improve classification performance of fully connected layers
Tam bağlantılı katmanların sınıflandırma performansını iyileştirmek için eğitim setlerindeki kümeleme örüntülerinden faydalanma
TOLGA AHMET KALAYCI
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. UMUT ASAN
- Borsa İstanbul (BİST) 100 endeksi yönünün ekonomi haberleri ile tahmin edilmesi
Prediction of Borsa Istanbul 100 index direction using financial news articles
HAKAN GÜNDÜZ
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE
- Investigation of imbalance problem effects on text categorization
Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması
BEHZAD NADERALVOJOUD
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EBRU AKÇAPINAR SEZER