Geri Dön

Investigation of imbalance problem effects on text categorization

Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması

  1. Tez No: 379646
  2. Yazar: BEHZAD NADERALVOJOUD
  3. Danışmanlar: DOÇ. DR. EBRU AKÇAPINAR SEZER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 105

Özet

Metin sınıflandırma, dökümanı önceden tanımlanmış bir veya daha fazla kategori içerisinden birine atama işlemidir. Genel olarak, makine öğrenmesi algoritmaları veri kümelerinin neredeyse homojen olduğunu varsaymaktadır. Bununla birlikte, öğrenme yöntemleri dengesiz veri kümelerini kullanarak küçük kategoriler üzerinde kötü performansa sahip sınıflandırma eğilimi gösterebilmektedir. Çoklu sınıflandırmada, ana kategoriler çok sayıda dökümanı içeren sınıflara karşılık gelirken, küçük kategoriler ise dökümanı sayısı küçük olan sınıflara karşılık gelmektedir. Bunun sonucu olarak, metin sınıflandırma dengesiz sınıf probleminden oldukça etkilenen bir süreçtir. Bu çalışma içerisinde, makine öğrenmesi algoritmaları ve uyarlanabilir çerçeveyle birlikte kategori tabanlı vadeli ağırlıklandırma yaklaşımı kullanılarak bu sorun ele alınmaktadır. İlk olarak bu çalışmada, farklı karmaşıklık ve dengesizlik oranları olan senaryolar içerisinde tffs olarak adlandırılan özellik seçim metriklerinin iki farklı türü incelenmektedir. Geleneksel terim ağırlıklandırma olarak tfidf, tffs terim ağırlıklandırma yaklaşımının etkilerini değerlendirmek için kullanılır. Aslında amaç farklı dengesizlik durumlarında makine öğrenmesi algoritmaları için uygun olan ağırlık şemalarının belirlenmesidir. Bu nedenden dolayı, deneylerde SVM, kNN, MultiNB ve C4.5 gibi popüler olan sınıflandırma algoritmaları kullanılmıştır. Tfidf dikkate alınmadan, elde edilen sonuçlara göre; tek taraflı özellik seçim ölçümlerine dayalı terim ağırlıklandırma yöntemleri SVM ve kNN algoritmaları için daha uygun yaklaşımlar iken dengesiz metinler üzerinde iki taraflı terim ağırlıklandırma şemaları için ise MultiNB ve C4.5 algoritmaları en iyi seçimdir. Bununla birlikte, tfidf ağırlıklandırma yöntemi kNN algoritması için dengesiz metin sınıflandırma üzerinde daha fazla önerilebilir. Çalışma içerisinde ayrıca PNF ve PNF2 olarak adlandırılan fonksiyon tabanlı iki kategori, terim ağırlık şemasının global bileşeni olarak önerilmektedir. Mevcut yöntemlerle birlikte önerilen yaklaşımların değerlendirilmesi için, uyarlanabilir öğrenme süreci önerilmektedir. Aslında bu algoritma terim ağırlık şemalarına bağlı bir model öğrenir ve dengesiz metinlerin sınıflandırmasında farklı ağırlıklandırma yöntemlerinin performansını açıkça göstermektedir. Reuters-21578 ve WebKB üzerinde yapılan deneylere göre, önerilen yöntemler iyi sonuçlar vermektedir.

Özet (Çeviri)

Text classification is a task of assigning a document into one or more predefined categories based on an inductive model. In general, machine learning algorithms assume that datasets consist of almost homogeneous class distribution. However, learning methods can be tended to the classification which has poorly performance over the minor categories while using imbalanced datasets. In multiclass classification, major categories correspond to the classes with the most number of documents and also minor ones correspond to the classes with the lowest number of documents. As a result, text classification is the process which can be highly affected from the class imbalance problem. In this study, we tackle this problem using category based term weighting approach in combination with an adaptive framework and machine learning algorithms. This study first investigates two different types of feature selection metrics (one-sided and two-sided) as a global component of term weighting scheme (called as tffs) in scenarios where different complexities and imbalance ratios are available. tfidf as a traditional term weighting scheme is employed to evaluate the effects of tffs term weighting approach. In fact, the goal is to determine which kind of weighting schemes are appropriate for which machine learning algorithms on different imbalanced cases. Hence, four popular classification algorithms (SVM, kNN, MultiNB and C4.5) are used in the experiments. According to our achieved results, regardless of tfidf, term weighting methods based on one-sided feature selection metrics are more suitable approaches for SVM and kNN algorithms while two-sided based term weighting schemes are the best choice for MultiNB and C4.5 algorithms on the imbalanced texts. Moreover, tfidf weighting method can be more recommended for kNN algorithm in imbalanced text classification. Furthermore, Two category based functions named as PNF and PNF2 are proposed as a global component of term weighting scheme. To better evaluate the proposed approaches with the existing methods, an adaptive learning process is proposed. In fact, this algorithm learns a model which intensively depends on the term weighting schemes and can obviously show the performance of different weighting methods in classification of imbalanced texts. According to the experiments which were carried out on the two benchmarks (Reuters-21578 and WebKB), the proposed methods yield the best results.

Benzer Tezler

  1. Sustainability problem of the Euphrates - Tigris basin water resources under a changing climate

    Değı̇şen ı̇klı̇m şartları altında Fırat - Dı̇cle havzasında su kaynaklarının sürdürülebı̇lı̇rlı̇ğı̇ sorunu

    MAHSA ZEYNALZADEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Deniz Bilimleriİstanbul Teknik Üniversitesi

    İklim ve Deniz Bilimleri Ana Bilim Dalı

    PROF. DR. ÖMER LÜTFİ ŞEN

  2. Obez hastalarda bariatrik cerrahinin fibrosis-4(FIB-4) indeksine etkilerinin araştırılması

    Investigation of the effects of bariatric surgery on fibrosis-4 (FİB-4) index in obese patients

    YUSUF SALİM ŞAHİN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    İç HastalıklarıSağlık Bilimleri Üniversitesi

    İç Hastalıkları Ana Bilim Dalı

    PROF. DR. EMRE TUTAL

  3. Küreselleşmenin Türkiye işgücü piyasası üzerine etkileri: Beyin göçü (2000-2015)

    The impacts of globalization on Turkey labor market: Brain drain (2000-2015)

    SELİN DÜLGER

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    EkonomiCelal Bayar Üniversitesi

    İktisat Ana Bilim Dalı

    YRD. DOÇ. DR. MUSTAFA HAKAN YALÇINKAYA

  4. Uçaklar için statik elektrik yükü çökelme durumunun incelenmesi ve yıldırım çarpma durumu analizleri

    Investigation of precipitation static condition and lightning strike condition analysis for aircraft

    FURKAN AKBULUT

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZCAN KALENDERLİ

  5. Obez hastaların antrum dokusunda sleeve gastrektomi uygulama öncesi ve sonrasında GKN1 ve TP53 genlerinin ekspresyon düzeylerinin araştırılması

    Investigation of expression levels of gkn1 and TP53 genes before and after sleeve gastrectomy in antrum tissue of obese patients

    MEHMET SARI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    GenetikMersin Üniversitesi

    Tıbbi Biyoloji Ana Bilim Dalı

    PROF. DR. NURCAN ARAS