Effects of feature extraction techniques on classification of turkish texts
Nitelik çıkarımı yöntemlerinin türkçe metinlerin sınıflandırılmasına etkisi
- Tez No: 528855
- Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Çukurova Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 100
Özet
Bu tezin amacı farklı türlerdeki Türkçe belgelerin sınıflandırılması için en etkin nitelik çıkarımı yöntemlerinin belirlenmesi ve etkili bir nitelik seçme yönteminin önerilmesidir. Çalışmada 1150 Haber, 3000 Tweet, Türkçe Email ve 25 Yazar veri kümeleri üzerinde deneyler yapılmıştır. En iyi terim ağırlıklandırma yöntemini belirlemek için 5 farklı yöntem (tf, tp, logtf, normtf, tf*idf) denenmiş ve bunların içerisinden en başarılı sonuçları veren tf ve tf*idf yöntemlerinin en başarılı olduğu belirlenmiştir. Sınıflandırma sonuçlarına olumlu bir etkisi olduğu için tüm metinlere durdurma kelimelerininin elenmesi önişlemi uygulanmıştır. Ağırlıklandırma yöntemini belirleme ve durdurma kelimelerinin etkisini ölçme deneyleri metinler içerisindeki terimlerin ham halleri kullanılarak yapılmıştır. Kelime kökü bulma algoritmalarının da sınıflandırılmaya etkisini araştırmak için metinlere Zemberek, Affix Stripping ve Fixed Prefix 3, 5, 7 olmak üzere 5 farklı kök bulma algoritması uygulanmıştır. Kelime kökü alınarak ve kelimelerin ham halleri ile yapılan sınıflandırma sonuçları karşılaştırılmış, kelimelerin ham halleri ile yapılan sınıflandırmanın daha başarılı sonuçlar verdiği gözlenmiştir. Nitelik çıkarımı yapmak için kelime n-gramı, nitelik seçimi için standart sapma tabanlı bir yöntem ile bilgi kazancı (information gain) ve ki kare algoritmaları uygulanmıştır. Terimlerin ham halleri kullanılarak kelime n-gram nitelik çıkarımı ve standart sapma nitelik seçimi en iyi sonucu vermiştir.
Özet (Çeviri)
The purpose of this thesis is to determine the most effective method for extracting features and to develop an effective method of selecting features for the classification of Turkish documents in different types. We analyze the effects of preprocessing methods, weighting schemes, and feature selection on the performance of Turkish document classification. In the study, 5 different term weighting methods that are tf, tp, logtf, normtf, tf*idf are compared and it is found that“tf”and“tf*idf”give the best results. After that effects of stopwords removal are investigated, and it is observed that stopwords removal improves classification performance. Then we compare 5 different stemming algorithms that are Zemberek, Affix Stripping, Fixed Prefix 3, 5, and 7 to find out the effects of stemming algorithms on the classification. The results of classification obtained from applying stemming and using the raw form of terms are compared, and the raw form of terms gives more accurate classification results. The effects of n-gram based feature extraction, and feature selection methods that are our proposed standard deviation based method, well-known information gain, and chi-square algorithms are compared. The experimental results indicate that the n-gram feature extraction and standard deviation-based feature selection algorithms give the best results and these methods improve the classification accuracy positively.
Benzer Tezler
- Doküman kategorizasyonu ve imza bölge analizi
Document categorization and signature region analysis
İLKHAN CÜCELOĞLU
Yüksek Lisans
Türkçe
2014
BankacılıkBaşkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN OĞUL
- İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi
Variant analysis in human gene networks using surrogate modelling and machine learning
FURKAN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Metin sınıflandırma için öznitelik seçimi ve globalleştirmenin etkisi
Feature selection for text classification and the effect of globalisation
BEKİR PARLAK
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPER KÜRŞAT UYSAL
- Sosyal ağlardaki siber zorbalığın yapay zeka algoritmaları ile tespiti ve sınıflandırılması
Cyberbullying detection and classification with artificial intelligence algorithms in social network
EREN ÇÜRÜK
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMersin ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ÇİĞDEM ACI