Geri Dön

Metin sınıflandırma için terim ağırlıklandırma

Term weighting for text classification

  1. Tez No: 599431
  2. Yazar: TURGUT DOĞAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ALPER KÜRŞAT UYSAL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Eskişehir Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 105

Özet

Metin sınıflandırma, metin dokümanlarının etiketleri önceden belirlenmiş sınıflara atanması işlevidir. İnternetin ve teknolojinin gelişimine paralel olarak elektronik ortama aktarılan metin dokümanlarının dramatik bir biçimde artması, söz konusu dokümanların hızlıca erişimi, organize edilmesi ve sınıflandırılması gibi işlevler metin sınıflandırmanın önemini daha da arttırmıştır. Metin sınıflandırmada efektif öznitelik vektör gösterimleri sınıflandırma performanslarını doğrudan etkileyebildiği için, metin içeriklerinden elde edilen özniteliklere (terimlere) uygun ağırlık değerlerinin atanması, önemli araştırma problemlerinden biridir. Literatürde bu araştırma problemine çözüm geliştirmeyi hedefleyen birçok terim ağırlıklandırma şeması önerilmiştir. Bu tez çalışmasında, metin sınıflandırma için terim ağırlıklandırma problemleri ile popüler terim ağırlıklandırma şemalarının sundukları çözümler geniş kapsamlı olarak analiz edilmiş ve ağırlıklandırma problemlerine yönelik olarak çeşitli yeni çözümler önerilmiştir. Bu amaçla, ilk olarak yüksek terim frekansı değerlerinin ve çeşitli terim frekans faktörleri ile bu değerleri indirgemenin mevcut gözetimli terim ağırlıklandırma şemalarının performanslarına etkileri incelenmiştir. Bunun dışında, literatürde son yıllarda önerilmiş olan ters yer çekimi momentine bağlı olarak terim ağırlıklandırma şemasının bazı ekstrem senaryolara sahip terimlerin ayırt edicilik güçlerini daha makul bir biçimde yansıtabilen gelişmiş bir versiyonu önerilmiştir. Son olarak, metin sınıflandırma için, terimlerin geçmedikleri dokümanlardaki dağılım bilgilerini, ayırt ediciliklerini hesaplarken daha efektif bir biçimde kullanabilen; TF-MONO ve SRTF-MONO adında iki yeni ağırlıklandırma şeması önerilmiştir. Üç farklı popüler veri setinde iki farklı sınıflandırıcı kullanılarak, toplamda yedi farklı terim ağırlıklandırma şemasının kıyaslandığı deneylerden elde edilen sonuçlar; özellikle SRTF-MONO terim ağırlıklandırma şemasının diğerlerine nazaran daha başarılı olduğunu göstermiştir.

Özet (Çeviri)

Text classification is the process of assigning text documents to predefined categories. In parallel with rapid development of the Internet and technology, the volume of text documents which are transferred to electronic media has increased dramatically. Hence the importance of organization and classification of text documents and quick accessing to text documents have increased. Since effective vector representations can directly affect the classification performances in text classification, assigning appropriate weight values to the features extracted from text contents is one of the important research problems. Therefore, many term weighting schemes have been proposed in the literature aiming to develop solutions to this research problem. In this thesis, general term weighting problems for text classification and proposed solutions with popular term weighting schemes are extensively analysed and various new solutions are proposed for weighting problems. For this aim, firstly, the effects of reducing high term frequency values with various term frequency factors on the performance of existing supervised term weighting schemes are investigated. In addition, an improved version of recently proposed term weighting approach based on inverse gravity moment has proposed for text classification. Proposed approach presents more reasonable representations for reflecting the discrimination power of terms on some extreme scenarios. Finally, two new term weighting schemes, namely TF-MONO and SRTF-MONO, are proposed for text classification. Proposed schemes can effectively use the distribution information of documents in which terms do not occur. The classification performances of proposed schemes are compared with five popular term weighting schemes by using two classifiers on the three benchmark datasets. Experiment results showed that SRTF-MONO has more successful classification results than other schemes.

Benzer Tezler

  1. Metin sınıflandırmada öznitelik seçimi üzerine bir çalışma

    On the feature selection for text classification

    DURMUŞ ÖZKAN ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOndokuz Mayıs Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERDAL KILIÇ

  2. Kısa metinlerden sosyal duygu sınıflandırma için makine öğrenmesi tabanlı yöntemlerin geliştirilmesi

    Development of machine learning based methods for social sentiment classification from brief texts

    FATMA BAŞKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İLHAN AYDIN

  3. An evaluation of existing and new feature selection metrics in automatic text categorization

    Metin sınıflandırmada kullanılan eski ve yeni öznitelik seçme metriklerinin değerlendirmesi

    ŞERAFETTİN TAŞCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. TUNGA GÜNGÖR

  4. Öznitelik seçme teknikleri ve genetik algoritma kullanılarak etkin arapça metin sınıflandırması

    Efficient arabic text classification using feature selection techniques and genetic algorithm

    AHMED HASHIM KAREEM AL-DULAIMI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT OKKALIOĞLU

  5. TF-IDF ve Doc2Vec tabanlı metin sınıflandırma sisteminin başarımdeğerinin ardışık kelime gurubu tespiti ile arttırılması

    Enhancing the performance of TF-IDF and Doc2Vec based turkish text categorization system with phrase modeling

    DOĞANCAN KINIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYSUN GÜRAN