Metin sınıflandırma için terim ağırlıklandırma

Term weighting for text classification

PDF İndir

Tez No: 599431
Yazar: TURGUT DOĞAN
Danışmanlar: DR. ÖĞR. ÜYESİ ALPER KÜRŞAT UYSAL
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: Eskişehir Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 105

Özet

Metin sınıflandırma, metin dokümanlarının etiketleri önceden belirlenmiş sınıflara atanması işlevidir. İnternetin ve teknolojinin gelişimine paralel olarak elektronik ortama aktarılan metin dokümanlarının dramatik bir biçimde artması, söz konusu dokümanların hızlıca erişimi, organize edilmesi ve sınıflandırılması gibi işlevler metin sınıflandırmanın önemini daha da arttırmıştır. Metin sınıflandırmada efektif öznitelik vektör gösterimleri sınıflandırma performanslarını doğrudan etkileyebildiği için, metin içeriklerinden elde edilen özniteliklere (terimlere) uygun ağırlık değerlerinin atanması, önemli araştırma problemlerinden biridir. Literatürde bu araştırma problemine çözüm geliştirmeyi hedefleyen birçok terim ağırlıklandırma şeması önerilmiştir. Bu tez çalışmasında, metin sınıflandırma için terim ağırlıklandırma problemleri ile popüler terim ağırlıklandırma şemalarının sundukları çözümler geniş kapsamlı olarak analiz edilmiş ve ağırlıklandırma problemlerine yönelik olarak çeşitli yeni çözümler önerilmiştir. Bu amaçla, ilk olarak yüksek terim frekansı değerlerinin ve çeşitli terim frekans faktörleri ile bu değerleri indirgemenin mevcut gözetimli terim ağırlıklandırma şemalarının performanslarına etkileri incelenmiştir. Bunun dışında, literatürde son yıllarda önerilmiş olan ters yer çekimi momentine bağlı olarak terim ağırlıklandırma şemasının bazı ekstrem senaryolara sahip terimlerin ayırt edicilik güçlerini daha makul bir biçimde yansıtabilen gelişmiş bir versiyonu önerilmiştir. Son olarak, metin sınıflandırma için, terimlerin geçmedikleri dokümanlardaki dağılım bilgilerini, ayırt ediciliklerini hesaplarken daha efektif bir biçimde kullanabilen; TF-MONO ve SRTF-MONO adında iki yeni ağırlıklandırma şeması önerilmiştir. Üç farklı popüler veri setinde iki farklı sınıflandırıcı kullanılarak, toplamda yedi farklı terim ağırlıklandırma şemasının kıyaslandığı deneylerden elde edilen sonuçlar; özellikle SRTF-MONO terim ağırlıklandırma şemasının diğerlerine nazaran daha başarılı olduğunu göstermiştir.

Özet (Çeviri)

Text classification is the process of assigning text documents to predefined categories. In parallel with rapid development of the Internet and technology, the volume of text documents which are transferred to electronic media has increased dramatically. Hence the importance of organization and classification of text documents and quick accessing to text documents have increased. Since effective vector representations can directly affect the classification performances in text classification, assigning appropriate weight values to the features extracted from text contents is one of the important research problems. Therefore, many term weighting schemes have been proposed in the literature aiming to develop solutions to this research problem. In this thesis, general term weighting problems for text classification and proposed solutions with popular term weighting schemes are extensively analysed and various new solutions are proposed for weighting problems. For this aim, firstly, the effects of reducing high term frequency values with various term frequency factors on the performance of existing supervised term weighting schemes are investigated. In addition, an improved version of recently proposed term weighting approach based on inverse gravity moment has proposed for text classification. Proposed approach presents more reasonable representations for reflecting the discrimination power of terms on some extreme scenarios. Finally, two new term weighting schemes, namely TF-MONO and SRTF-MONO, are proposed for text classification. Proposed schemes can effectively use the distribution information of documents in which terms do not occur. The classification performances of proposed schemes are compared with five popular term weighting schemes by using two classifiers on the three benchmark datasets. Experiment results showed that SRTF-MONO has more successful classification results than other schemes.

Benzer Tezler

Tez No
437970
Metin sınıflandırmada öznitelik seçimi üzerine bir çalışma
On the feature selection for text classification
DURMUŞ ÖZKAN ŞAHİN
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ondokuz Mayıs Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERDAL KILIÇ
Tez No
477907
Kısa metinlerden sosyal duygu sınıflandırma için makine öğrenmesi tabanlı yöntemlerin geliştirilmesi
Development of machine learning based methods for social sentiment classification from brief texts
FATMA BAŞKAYA
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İLHAN AYDIN
Tez No
232628
An evaluation of existing and new feature selection metrics in automatic text categorization
Metin sınıflandırmada kullanılan eski ve yeni öznitelik seçme metriklerinin değerlendirmesi
ŞERAFETTİN TAŞCI
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. TUNGA GÜNGÖR
Tez No
788496
Öznitelik seçme teknikleri ve genetik algoritma kullanılarak etkin arapça metin sınıflandırması
Efficient arabic text classification using feature selection techniques and genetic algorithm
AHMED HASHIM KAREEM AL-DULAIMI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yalova Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT OKKALIOĞLU
Tez No
630587
TF-IDF ve Doc2Vec tabanlı metin sınıflandırma sisteminin başarımdeğerinin ardışık kelime gurubu tespiti ile arttırılması
Enhancing the performance of TF-IDF and Doc2Vec based turkish text categorization system with phrase modeling
DOĞANCAN KINIK
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Doğuş Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYSUN GÜRAN

Geri Dön