An evaluation of existing and new feature selection metrics in automatic text categorization

Metin sınıflandırmada kullanılan eski ve yeni öznitelik seçme metriklerinin değerlendirmesi

PDF İndir

Tez No: 232628
Yazar: ŞERAFETTİN TAŞCI
Danışmanlar: DOÇ. TUNGA GÜNGÖR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2008
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 86

Özet

Son yıllarda elektronik ortamda bulunan elektronik kitap, dijital kütüphane ve e-posta mesajları gibi dökümanların miktarı hızla arttı. Bu nedenle, bu kaynakları düzenleme ve idare etme işi daha çok önem kazanmakla birlikte daha da zorlaştı. Metin sınıflandırma, elektronik ortamdaki bu dökümanların düzenlenmesi ve idaresi için geniş ölçüde kullanılmaktadır. Bununla birlikte, metin sınıflandırmada kullanılan veri çok boyutlu olduğu için öznitelik seçme işlemin daha verimli ve kusursuz yapılmasında çok önemlidir.Bu çalışmada, metin sınıflandırmadaki öznitelik seçme metriklerinin yerel ve genel politika kullanarak kapsamlı bir değerlendirmesini yapıyoruz. Yaptığımız deneyler için; boyutları, karmaşıklıkları ve çarpıklıkları farklılık gösteren yedi adet veri kümesi kullandık. Terim ağırlıklandırması için tf-idf metodu, sınıflandırıcı olarak da SVM (Destek Vektör Makinası) kullandık. Hemen hemen tüm veri kümeleri ve metriklerde, az sayıda anahtar sözcük için yerel politikanın, anahtar sözcük sayısı arttırıldığındaysa genel politikanın daha başarılı olduğunu gözlemledik.Mevcut öznitelik seçme metriklerinin değerlendirilmesine ek olarak, özellikle az sayıda anahtar sözcük kullanıldığında yüksek başarım sergileyen yeni metrikler tasarladık. Ayrıca, Uyarlamalı Anahtar Sözcük Seçimi (AKS) adını verdiğimiz bir anahtar sözcük seçme sistemi tasarladık. Bu yöntem, farklı sınıflar için farklı sayıda anahtar sözcük seçimine dayanıyor ve özellikle çarpık veri kümelerindeki başarımı farkedilir derecede geliştirdi.

Özet (Çeviri)

In recent years, the amount of available documents in the electronic medium such as electronic books, digital libraries and email messages increased rapidly. Therefore, the task of organizing and manipulating these resources has gained more importance and has become more difficult. Automatic text categorization is widely used for organizing and manipulating these documents in the electronic medium. However, since the data in text categorization is very high-dimensional, feature selection is crucial to make the task more efficient and precise.In this study, we make an extensive evaluation of the feature selection metrics used in text categorization by using local and global policies. For the experiments, we use seven datasets which vary in size, complexity and skewness. We use SVM as the classifier and tf-idf weighting for term weighting. We observed that almost in all metrics and datasets, the local policy outperforms others when the number of keywords is low and global policy outperforms others as the number of keywords increases.In addition to the evaluation of the existing feature selection metrics, we propose new metrics which have shown high success rates especially with low number of keywords. Moreover, we propose a keyword selection framework called Adaptive Keyword Selection (AKS). It is based on selecting different number of keywords for different classes and it improved the performance significantly in skew datasets.

Benzer Tezler

Tez No
879686
Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
Tez No
895348
Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators
Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi
MAHMUT SAMİ SİVRİ
Doktora
İngilizce
2023
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
Tez No
924501
Esnek üstyapılarda makine öğrenmesi yöntemleri ile pürüzlülük tahmini
Roughness estimation in flexible pavements using machine learning methods
HÜSEYİN ÇUHA
Yüksek Lisans
Türkçe
2025
İnşaat Mühendisliği İstanbul Teknik Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULLAH HİLMİ LAV
Tez No
774552
Betonarme perdelerin çevrimsel sönümlenen enerji kapasitesinin makine öğrenmesi yöntemleri ile incelenmesi
Investigation of energy dissipation capacity of RCc shear walls with machine learning methods
BERKAY TOPALOĞLU
Yüksek Lisans
Türkçe
2022
Deprem Mühendisliği İstanbul Teknik Üniversitesi
Deprem Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEYNEP DEĞER
Tez No
744335
Kentsel mikro iklimin iyileştirilmesine yönelik kent dokularında ısı adası etki değerlendirme ve azaltım stratejileri geliştirme modeli: İstanbul örneği
The model of urban heat island impact assessment and mitigation strategies in urban fabric to improve urban microclimate: The case of İstanbul
DENİZ ERDEM OKUMUŞ
Doktora
Türkçe
2022
Şehircilik ve Bölge Planlama İstanbul Teknik Üniversitesi
Şehir ve Bölge Planlama Ana Bilim Dalı
PROF. DR. FATİH TERZİ

Geri Dön