Geri Dön

Dengesiz metin sınıflandırma için yeni yaklaşımlar

New approaches to imbalanced text classification

  1. Tez No: 834956
  2. Yazar: HANDE TİRYAKİ
  3. Danışmanlar: DOÇ. DR. ALPER KÜRŞAT UYSAL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Eskişehir Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 91

Özet

Metin verilerinin sınıflar arasında genellikle dengesiz bir dağılımı vardır. Bu durum, sınıflandırıcıların dengesiz veri kümelerinde küçük kategoriler üzerinde kötü performansa sahip sınıflandırma eğilimi göstermelerine neden olmaktadır. Bunun sonucu olarak, metin sınıflandırma dengesiz sınıf probleminden oldukça etkilenen bir süreçtir. Literatürde, dengesiz metin sınıflandırma üzerine birçok çalışma yapılmıştır ve bu konu halen popüler bir araştırma alanıdır. Metin sınıflandırma sürecinin önemli aşamalarından biri olan öznitelik seçimi aşaması, dengesiz metin sınıflandırma problemi için de önemlidir. Bu tez çalışmasında, metin sınıflandırma için öznitelik seçme problemleri ile popüler öznitelik seçme yöntemlerinin sundukları çözümler geniş kapsamlı olarak analiz edilmiş ve öznitelik seçme aşamasına yönelik olarak çeşitli çözümler önerilmiştir. Bu amaçla, ilk olarak öznitelik seçme yöntemlerinin dengesiz metinlerin sınıflandırılması üzerindeki etkisi ayrıntılı olarak incelenmiştir. Bu doğrultuda, iki farklı veri setinde üç farklı sınıflandırıcı ve dokuz farklı öznitelik seçme yöntemi ile birçok deney gerçekleştirilmiştir. Ayrıca, farklı öznitelik sayıları kullanılarak öznitelik seçme yöntemlerinin başarısı gözlemlenmiştir. Aynı zamanda dengesiz metin sınıflandırma için iki yeni öznitelik seçme yöntemi (EFS_IMP1 ve EFS_IMP2) önerilmiştir. Bu yöntemler, Kapsamlı Öznitelik Seçici (EFS) adlı yeni bir öznitelik seçme yönteminden türetilmiştir. EFS_IMP1 ve EFS_IMP2 yöntemlerinin performanslarının karşılaştırması, filtre tabanlı altı öznitelik seçme yöntemli ile gerçekleştirilmiştir. Üç referans dengesiz metin veri seti, Destek Vektör Makineleri (SVM), Karar Ağacı (DT), Rastgele Orman (RF) ve K-En Yakın Komşular (kNN) sınıflandırıcıları ile kullanılmıştır. Deneysel sonuçlar, EFS_IMP1 ve EFS_IMP2'nin dengesiz metin sınıflandırma için Makro-F1'e göre diğer öznitelik seçme yöntemleri ile karşılaştırıldığında üstün veya karşılaştırabilir performans sunduğunu göstermiştir.

Özet (Çeviri)

The distribution of text data across classes is often imbalanced. This condition leads to classifiers tending to perform poorly on smaller categories within imbalanced data sets. As a result, text classification is a process significantly affected by the imbalanced class problem. The feature selection stage, one of the crucial stages of the text classification process, is also important for the imbalanced text classification problem. In this thesis, the problems of feature selection for text classification and the solutions offered by popular feature selection methods are extensively analyzed, and various solutions are proposed for the feature selection stage. To this end, firstly, the effect of feature selection methods on the classification of imbalanced texts is thoroughly examined. In this direction, many experiments were carried out with three different classifiers and nine different feature selection methods on two different data sets. Additionally, the success of feature selection methods has been observed using different numbers of features. Also, two new feature selection methods (EFS_IMP1 and EFS_IMP2) were proposed for imbalanced text classification. These methods are derived from a recent feature selection method called Extensive Feature Selector (EFS). The performance comparison of EFS_IMP1 and EFS_IMP2 methods was carried out with six filter-based feature selection methods. Three benchmark imbalanced text data sets were employed with Support Vector Machines (SVM), Decision Tree (DT), Random Forest (RF), and K-Nearest Neighbors (kNN) classifiers. Experimental results showed that EFS_IMP1 and EFS_IMP2 offer superior or comparative performance compared with other feature selection methods based on Macro-F1 for imbalanced text classification.

Benzer Tezler

  1. A new framework for decentralized social networks: Harnessing blockchain, deep learning, and natural language processing

    Merkezsiz sosyal ağlar için yeni bir çerçeve: Blok zinciri, derin öğrenme ve doğal dil işlemeyi kullanmak

    AMIR AL KADAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DENİZ BALTA

  2. A similarity based oversampling method for multi-label imbalanced text data

    Çok etiketli dengesiz metin veri kümeleri için benzerliğe dayalı bir aşkın örnekleme yöntemi

    İSMAİL HAKKI KARAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. GÜLSER KÖKSAL

    DOÇ. DR. LEVENT ERİŞKİN

  3. Exploiting clustering patterns in training sets to improve classification performance of fully connected layers

    Tam bağlantılı katmanların sınıflandırma performansını iyileştirmek için eğitim setlerindeki kümeleme örüntülerinden faydalanma

    TOLGA AHMET KALAYCI

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. UMUT ASAN

  4. Borsa İstanbul (BİST) 100 endeksi yönünün ekonomi haberleri ile tahmin edilmesi

    Prediction of Borsa Istanbul 100 index direction using financial news articles

    HAKAN GÜNDÜZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEHRA ÇATALTEPE

  5. Investigation of imbalance problem effects on text categorization

    Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması

    BEHZAD NADERALVOJOUD

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EBRU AKÇAPINAR SEZER