Geri Dön

The effectiveness of feature selection metrics on the text categorization performance

Özellik belirleme matriksinin metin siniflandirma sisteminin performansi üzerindeki etkisi

  1. Tez No: 386099
  2. Yazar: ASMSAA AL-GARTANEE
  3. Danışmanlar: YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilim ve Teknoloji, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Çankaya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik ve Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgi Teknolojileri Bilim Dalı
  13. Sayfa Sayısı: 88

Özet

Metin Sınıflandırma (TC) önemli bir istihbarat bilgi işlem teknolojisidir. Bu teknoloji, bilgi alma, E-devlet, bilgi filtreleme, metin veritabanları, dijital kütüphaneler ve benzeri konularda çok yüksek bir değere sahiptir. Ancak, özellik belirleme konusu, metin sınıflamasından çok daha önemlidir. Bu tezde, biz standart Reuters-21578 veri kümesi ile deneyler yaptık ve veri toplamadan veri organize etmeye varıncaya kadar birçok konuyu irdeledik ve sonunda organize edilmiş verileri kullanarak, özellik belirleme matriksi esasına göre etkin deneyler yaptık. Özellik belirleme matriksinin genel fikri; bilgi içeren sözcükleri muhafaza ederek, bilgi içermeyen sözcükleri ise dışarı atarak işlem yapan bazı ölçütler kullanarak kelimelerin önemini belirlemektir. Böylece metin sınıflama motoruna bir dokumanı (D dokumanı), bir başka dokumana (C dokumanı) dönüştürüp sınıflandırma noktasında yardımcı olunmaktadır. Bu tezde ele alınacak özellik seçimi ölçütleri şunlardır: Dönem Frekans -Ters Belge Frekans (TF-IDF), Belge Frekans (DF), Karşılıklı Bilgi-Açıklama (MI), Ki-kare İstatistikleri (CHI), GSS (Galavotti -Sebastiani-Simi) Katsayısı - Açıklama. Bu mükemmel bir şekilde metinleri hazırlamak için Dönem frekans ters belge frekans (TF-IDF) ve Belgeler Frekans (DF) ölçümleri bir araya getirecektir. Bundan sonra, bu metinler en iyi makine algoritmasını ve en iyi sistem performansını elde etmek için, Doğruluk, Hata Oranı, Hatırlama, Hassasiyet ve F-ölçüsü gibi hesaplama performans ölçütlerini temin etmek için Weka'da sınıflandırma işleminde kullanılacaktır. Bu çalışmada, metin sınıflandırması için popüler aktif öğrenme algoritmalarının tekrar kullanılabilirliklerini karşılaştırdık ve metin sınıflaması için aktif öğrenmede kullanılabilecek en iyi sınıflandırıcıları belirledik. Sözü edilen bütün bu ölçütler hesap edildi ve grafiklerde gösterildi.

Özet (Çeviri)

Text Categorization (TC) is an important intelligence information processing technology. This technology has high value in information retrieval, Electronic Governments, information filtering, text databases, digital libraries, and other aspects, but the problem of feature selection is equally or more important than text-categorization. In this thesis, we did our experiments with the help of standard Reuters-21578 dataset, and we discussed many important topics ranging from collecting data, to organizing data and ultimately using the organized data to efficiently conduct tests using the feature selection metrics.The general idea of any feature selection metric is to determine importance of words using some measure that can keep informative words, and remove non-informative words, which can then help the text-categorization engine categorize a document, D, into some category, C. The feature selection metrics that will be discussed in this thesis are: Term frequency-Inverse Document Frequency (TF-IDF), Document Frequency (DF), Mutual Information- Explanation (MI), Chi-square Statistics (CHI), GSS (Galavotti-Sebastiani-Simi) Coefficient – Explanation. It will combine Term frequency-inverse document frequency (TF-IDF) and Documents Frequency (DF) metrics to prepare the texts in a perfect way. After that, those texts will be used by classification process in Weka to get the best learning machines algorithms and the best performance of system, by computing performance measures such as (accuracy, error rate, recall, precision and F-measure). We compare the reusability of popular active learning algorithms for text classification and identify the best classifiers to use in active learning for text classification. All these mentioned measures were computed and plotted.

Benzer Tezler

  1. Improving text categorization performance by combining feature selection methods

    Öznitelik seçme metotlarını birleştirerek metin sınıflandırma performansının iyileştirilmesi

    ECE ÖZBİLEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUNGA GÜNGÖR

  2. Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım

    A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization

    MELTEM AKSOY

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEDA YANIK ÖZBAY

    PROF. DR. MEHMET FATİH AMASYALI

  3. Simülasyon yazılımlarında kod klonları

    Code clones in simulation software systems

    MERVE ASTEKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHİTTİN GÖKMEN

  4. Çoklu ürün ekosistemlerinde kullanıcı deneyimi: Akıllı banyo baskülleri üzerinden bir inceleme

    User experience in multi-device ecosystems: An evaluation on connected smart scales

    CEYDA BAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Endüstri Ürünleri Tasarımıİstanbul Teknik Üniversitesi

    Endüstri Ürünleri Tasarımı Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EKREM CEM ALPPAY

  5. Makine öğrenmesi yöntemleri ile kara askeri araçların tespit ve sınıflandırılması

    Detection and classification of land military vehicles with machine learning methods

    ANIL AKBALIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiDüzce Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FERZAN KATIRCIOĞLU