Geri Dön

Improving text categorization performance by combining feature selection methods

Öznitelik seçme metotlarını birleştirerek metin sınıflandırma performansının iyileştirilmesi

  1. Tez No: 297867
  2. Yazar: ECE ÖZBİLEN
  3. Danışmanlar: DOÇ. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 211

Özet

Makine öğrenmesi yöntemlerinin metin sınıflandırmada kullanılmaya başlanması, sınıflandırma performansını arttıran önemli bir faktör olmasına rağmen yüksek boyutluluk sınıflandırma başarısı için hala önemli bir problem. Sınıflandırmada doküman vektörlerinin boyutunu azaltmak için birçok yöntem önerilmektedir. Öznitelik seçme yöntemi de boyut azaltmada kullanılan en yaygın ve etkili yöntemlerden biridir. Öznitelik seçme metodlarının sınıflandırmadaki performansını arttırmak için birçok araştırma yapılmış ve yapılıyor olmasına rağmen, incelenen öznitelik seçme metodlarının bir arada kullanılması ile ilgili araştırmalar dokuman sınıflandırma alanında çok kısıtlı.Farklı yöntemleri birleştirerek bilgi erişim alanında başarılı sonuçlar elde edilmesi, bizi bu çalışmada öznitelik seçme metodlarını birleştirerek metinleri sınıflandırmaya yöneltti. Bu amaçla, bu çalışmada özellik seçme yöntemlerinin ve bu yöntemlerin çeşitli ikili birleşimlerinin karşılaştırılmasına yönelik kapsamlı bir araştırma sunuyoruz. Beş farklı öznitelik seçme metodu ve birleşimlerini farklı özellikteki beş veri kümesi üzerinde yerel ve genel politika kapsamında SVM sınıflandırıcısı ile analiz edildi. Analiz sonucunda, birleştirilen öznitelik seçme metodlarının metodların tek kullanılmasına göre daha başarılı sonuçlar elde ettiğini gördük. Özellikle yöntemlerin skor değerlerini birleştirmek yerel politikada belirgin şekilde başarılıyı arttırırken, sıra değerlerini birleştirmek genel politikada daha başarılı sonuçlar elde edilmesini sağladı.Bu tezde amacımız öznitelik seçme metodlarını birleştirmenin metin sınıflandırma performansındaki başarısını incelemek ve karşılaştırmaktır. Bu kapsamda skor ve sıra birleştirme yöntemlerinin yanında yeni birleştirme yöntemleri de tezde önerildi ve incelendi. Çalışma sonucunda önerilen bazı yöntemlerin skor ve sıra birleştirme yöntemlerinin başarısını da geliştirdiği gözlemlendi.

Özet (Çeviri)

Even though the arrival of the machine learning methods in text categorization is one of the essential factors that improves the effectiveness of text categorization, high dimensionality is still a challenge for classification performance. There are several ways to reduce the dimension of input vector in classification and feature selection is one of the most popular and effective methods of reducing dimension. Various researches have been done to improve the performance of feature selection methods on text categorization but they mostly deal with how to advance the performance of the individual feature selection methods whereas we know that combining the outputs of multiple algorithms/classifiers is one of the promising strategies that has been studied extensively in information retrieval.With this motivation, we present a comprehensive analysis of the comparison between the feature selection methods and their varied binary combinations for text categorization with a comparative discussion. We analyze the performances of five common feature selection methods with their combinations on five standard datasets with varied skewness in both global and local policies by using SVM. Comparing the performance of the individual methods with the performance of the combination methods shows that combining two feature selection methods significantly improves the performance of the individual methods. In addition, rank combination achieves better performance in the case of global policy on the other hand score combination significantly achieves better performance in the case of local policy.In this thesis, the main concern is to investigate the effectiveness of combining the individual metrics on the performances of text categorization. Thus, we also propose new combination methods that some of them clearly outperform the success of the score and rank combinations.

Benzer Tezler

  1. Metasezgisel algoritmalara dayalı öznitelik seçimi yöntemleriyle arapça metinlerin sınıflandırılması

    Development of metaheuristic algorithms and classification method of arabic texts

    SHAMIL JASIM HAMMADI AL-MOHAMMEDI

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FEHİM KÖYLÜ

  2. Sparse coding based ensemble classifiers combined with active learning framework for data classification

    Veri sınıflandırma için aktif öğrenme çerçevesi ile birleştirilmiş ayrık kodlama tabanlı sınıflandırıcı toplulukları

    GÖKSU TÜYSÜZOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF YASLAN

  3. The evaluation of heuristic optimization techniques on text categorization with conventional machine learning algorithms and deep learning methodologies

    Metin kategorizasyonunda geleneksel makine öğrenimi algoritmaları ve derin öğrenme yöntemleri ile sezgisel optimizasyon tekniklerinin değerlendirilmesi

    CEM KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MİTAT UYSAL

    DOÇ. DR. ZEYNEP HİLAL KİLİMCİ

  4. Sales management analysis with text mining methods

    Metin madencilik yöntemleri ile satış yönetimi analizi

    TUĞBA SOYER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    İstatistikTED Üniversitesi

    Uygulamalı Veri Bilimi Bilim Dalı

    DOÇ. DR. SEMİH TÜMEN

  5. Improving diversity of search results for the National Library of Turkey

    Millî Kütüphane arama sonuçlarında konu çeşitlendirme iyileştirmesi

    CEYDA OKUYAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTED Üniversitesi

    İnteraktif Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TAYFUN KÜÇÜKYILMAZ