Investigation of imbalance problem effects on text categorization
Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması
- Tez No: 379646
- Danışmanlar: DOÇ. DR. EBRU AKÇAPINAR SEZER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 105
Özet
Metin sınıflandırma, dökümanı önceden tanımlanmış bir veya daha fazla kategori içerisinden birine atama işlemidir. Genel olarak, makine öğrenmesi algoritmaları veri kümelerinin neredeyse homojen olduğunu varsaymaktadır. Bununla birlikte, öğrenme yöntemleri dengesiz veri kümelerini kullanarak küçük kategoriler üzerinde kötü performansa sahip sınıflandırma eğilimi gösterebilmektedir. Çoklu sınıflandırmada, ana kategoriler çok sayıda dökümanı içeren sınıflara karşılık gelirken, küçük kategoriler ise dökümanı sayısı küçük olan sınıflara karşılık gelmektedir. Bunun sonucu olarak, metin sınıflandırma dengesiz sınıf probleminden oldukça etkilenen bir süreçtir. Bu çalışma içerisinde, makine öğrenmesi algoritmaları ve uyarlanabilir çerçeveyle birlikte kategori tabanlı vadeli ağırlıklandırma yaklaşımı kullanılarak bu sorun ele alınmaktadır. İlk olarak bu çalışmada, farklı karmaşıklık ve dengesizlik oranları olan senaryolar içerisinde tffs olarak adlandırılan özellik seçim metriklerinin iki farklı türü incelenmektedir. Geleneksel terim ağırlıklandırma olarak tfidf, tffs terim ağırlıklandırma yaklaşımının etkilerini değerlendirmek için kullanılır. Aslında amaç farklı dengesizlik durumlarında makine öğrenmesi algoritmaları için uygun olan ağırlık şemalarının belirlenmesidir. Bu nedenden dolayı, deneylerde SVM, kNN, MultiNB ve C4.5 gibi popüler olan sınıflandırma algoritmaları kullanılmıştır. Tfidf dikkate alınmadan, elde edilen sonuçlara göre; tek taraflı özellik seçim ölçümlerine dayalı terim ağırlıklandırma yöntemleri SVM ve kNN algoritmaları için daha uygun yaklaşımlar iken dengesiz metinler üzerinde iki taraflı terim ağırlıklandırma şemaları için ise MultiNB ve C4.5 algoritmaları en iyi seçimdir. Bununla birlikte, tfidf ağırlıklandırma yöntemi kNN algoritması için dengesiz metin sınıflandırma üzerinde daha fazla önerilebilir. Çalışma içerisinde ayrıca PNF ve PNF2 olarak adlandırılan fonksiyon tabanlı iki kategori, terim ağırlık şemasının global bileşeni olarak önerilmektedir. Mevcut yöntemlerle birlikte önerilen yaklaşımların değerlendirilmesi için, uyarlanabilir öğrenme süreci önerilmektedir. Aslında bu algoritma terim ağırlık şemalarına bağlı bir model öğrenir ve dengesiz metinlerin sınıflandırmasında farklı ağırlıklandırma yöntemlerinin performansını açıkça göstermektedir. Reuters-21578 ve WebKB üzerinde yapılan deneylere göre, önerilen yöntemler iyi sonuçlar vermektedir.
Özet (Çeviri)
Text classification is a task of assigning a document into one or more predefined categories based on an inductive model. In general, machine learning algorithms assume that datasets consist of almost homogeneous class distribution. However, learning methods can be tended to the classification which has poorly performance over the minor categories while using imbalanced datasets. In multiclass classification, major categories correspond to the classes with the most number of documents and also minor ones correspond to the classes with the lowest number of documents. As a result, text classification is the process which can be highly affected from the class imbalance problem. In this study, we tackle this problem using category based term weighting approach in combination with an adaptive framework and machine learning algorithms. This study first investigates two different types of feature selection metrics (one-sided and two-sided) as a global component of term weighting scheme (called as tffs) in scenarios where different complexities and imbalance ratios are available. tfidf as a traditional term weighting scheme is employed to evaluate the effects of tffs term weighting approach. In fact, the goal is to determine which kind of weighting schemes are appropriate for which machine learning algorithms on different imbalanced cases. Hence, four popular classification algorithms (SVM, kNN, MultiNB and C4.5) are used in the experiments. According to our achieved results, regardless of tfidf, term weighting methods based on one-sided feature selection metrics are more suitable approaches for SVM and kNN algorithms while two-sided based term weighting schemes are the best choice for MultiNB and C4.5 algorithms on the imbalanced texts. Moreover, tfidf weighting method can be more recommended for kNN algorithm in imbalanced text classification. Furthermore, Two category based functions named as PNF and PNF2 are proposed as a global component of term weighting scheme. To better evaluate the proposed approaches with the existing methods, an adaptive learning process is proposed. In fact, this algorithm learns a model which intensively depends on the term weighting schemes and can obviously show the performance of different weighting methods in classification of imbalanced texts. According to the experiments which were carried out on the two benchmarks (Reuters-21578 and WebKB), the proposed methods yield the best results.
Benzer Tezler
- Sustainability problem of the Euphrates - Tigris basin water resources under a changing climate
Değı̇şen ı̇klı̇m şartları altında Fırat - Dı̇cle havzasında su kaynaklarının sürdürülebı̇lı̇rlı̇ğı̇ sorunu
MAHSA ZEYNALZADEH
Yüksek Lisans
İngilizce
2019
Deniz Bilimleriİstanbul Teknik Üniversitesiİklim ve Deniz Bilimleri Ana Bilim Dalı
PROF. DR. ÖMER LÜTFİ ŞEN
- Obez hastalarda bariatrik cerrahinin fibrosis-4(FIB-4) indeksine etkilerinin araştırılması
Investigation of the effects of bariatric surgery on fibrosis-4 (FİB-4) index in obese patients
YUSUF SALİM ŞAHİN
Tıpta Uzmanlık
Türkçe
2024
İç HastalıklarıSağlık Bilimleri Üniversitesiİç Hastalıkları Ana Bilim Dalı
PROF. DR. EMRE TUTAL
- Küreselleşmenin Türkiye işgücü piyasası üzerine etkileri: Beyin göçü (2000-2015)
The impacts of globalization on Turkey labor market: Brain drain (2000-2015)
SELİN DÜLGER
Yüksek Lisans
Türkçe
2017
EkonomiCelal Bayar Üniversitesiİktisat Ana Bilim Dalı
YRD. DOÇ. DR. MUSTAFA HAKAN YALÇINKAYA
- Uçaklar için statik elektrik yükü çökelme durumunun incelenmesi ve yıldırım çarpma durumu analizleri
Investigation of precipitation static condition and lightning strike condition analysis for aircraft
FURKAN AKBULUT
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZCAN KALENDERLİ
- Obez hastaların antrum dokusunda sleeve gastrektomi uygulama öncesi ve sonrasında GKN1 ve TP53 genlerinin ekspresyon düzeylerinin araştırılması
Investigation of expression levels of gkn1 and TP53 genes before and after sleeve gastrectomy in antrum tissue of obese patients
MEHMET SARI