Geri Dön

An evaluation of existing and new feature selection metrics in automatic text categorization

Metin sınıflandırmada kullanılan eski ve yeni öznitelik seçme metriklerinin değerlendirmesi

  1. Tez No: 232628
  2. Yazar: ŞERAFETTİN TAŞCI
  3. Danışmanlar: DOÇ. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2008
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 86

Özet

Son yıllarda elektronik ortamda bulunan elektronik kitap, dijital kütüphane ve e-posta mesajları gibi dökümanların miktarı hızla arttı. Bu nedenle, bu kaynakları düzenleme ve idare etme işi daha çok önem kazanmakla birlikte daha da zorlaştı. Metin sınıflandırma, elektronik ortamdaki bu dökümanların düzenlenmesi ve idaresi için geniş ölçüde kullanılmaktadır. Bununla birlikte, metin sınıflandırmada kullanılan veri çok boyutlu olduğu için öznitelik seçme işlemin daha verimli ve kusursuz yapılmasında çok önemlidir.Bu çalışmada, metin sınıflandırmadaki öznitelik seçme metriklerinin yerel ve genel politika kullanarak kapsamlı bir değerlendirmesini yapıyoruz. Yaptığımız deneyler için; boyutları, karmaşıklıkları ve çarpıklıkları farklılık gösteren yedi adet veri kümesi kullandık. Terim ağırlıklandırması için tf-idf metodu, sınıflandırıcı olarak da SVM (Destek Vektör Makinası) kullandık. Hemen hemen tüm veri kümeleri ve metriklerde, az sayıda anahtar sözcük için yerel politikanın, anahtar sözcük sayısı arttırıldığındaysa genel politikanın daha başarılı olduğunu gözlemledik.Mevcut öznitelik seçme metriklerinin değerlendirilmesine ek olarak, özellikle az sayıda anahtar sözcük kullanıldığında yüksek başarım sergileyen yeni metrikler tasarladık. Ayrıca, Uyarlamalı Anahtar Sözcük Seçimi (AKS) adını verdiğimiz bir anahtar sözcük seçme sistemi tasarladık. Bu yöntem, farklı sınıflar için farklı sayıda anahtar sözcük seçimine dayanıyor ve özellikle çarpık veri kümelerindeki başarımı farkedilir derecede geliştirdi.

Özet (Çeviri)

In recent years, the amount of available documents in the electronic medium such as electronic books, digital libraries and email messages increased rapidly. Therefore, the task of organizing and manipulating these resources has gained more importance and has become more difficult. Automatic text categorization is widely used for organizing and manipulating these documents in the electronic medium. However, since the data in text categorization is very high-dimensional, feature selection is crucial to make the task more efficient and precise.In this study, we make an extensive evaluation of the feature selection metrics used in text categorization by using local and global policies. For the experiments, we use seven datasets which vary in size, complexity and skewness. We use SVM as the classifier and tf-idf weighting for term weighting. We observed that almost in all metrics and datasets, the local policy outperforms others when the number of keywords is low and global policy outperforms others as the number of keywords increases.In addition to the evaluation of the existing feature selection metrics, we propose new metrics which have shown high success rates especially with low number of keywords. Moreover, we propose a keyword selection framework called Adaptive Keyword Selection (AKS). It is based on selecting different number of keywords for different classes and it improved the performance significantly in skew datasets.

Benzer Tezler

  1. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  2. Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators

    Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi

    MAHMUT SAMİ SİVRİ

    Doktora

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP ÜSTÜNDAĞ

  3. Betonarme perdelerin çevrimsel sönümlenen enerji kapasitesinin makine öğrenmesi yöntemleri ile incelenmesi

    Investigation of energy dissipation capacity of RCc shear walls with machine learning methods

    BERKAY TOPALOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Deprem Mühendisliğiİstanbul Teknik Üniversitesi

    Deprem Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEYNEP DEĞER

  4. Kentsel mikro iklimin iyileştirilmesine yönelik kent dokularında ısı adası etki değerlendirme ve azaltım stratejileri geliştirme modeli: İstanbul örneği

    The model of urban heat island impact assessment and mitigation strategies in urban fabric to improve urban microclimate: The case of İstanbul

    DENİZ ERDEM OKUMUŞ

    Doktora

    Türkçe

    Türkçe

    2022

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. FATİH TERZİ

  5. Cross-domain one-shot object detection by online fine-tuning

    Çevrimiçi ince-ayar ile tek-örnekli çapraz-alan nesne tespiti

    İREM BEYZA ONUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL