Geri Dön

Effects of feature extraction techniques on classification of turkish texts

Nitelik çıkarımı yöntemlerinin türkçe metinlerin sınıflandırılmasına etkisi

  1. Tez No: 528855
  2. Yazar: ÖZGE AKDOĞAN
  3. Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Çukurova Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 100

Özet

Bu tezin amacı farklı türlerdeki Türkçe belgelerin sınıflandırılması için en etkin nitelik çıkarımı yöntemlerinin belirlenmesi ve etkili bir nitelik seçme yönteminin önerilmesidir. Çalışmada 1150 Haber, 3000 Tweet, Türkçe Email ve 25 Yazar veri kümeleri üzerinde deneyler yapılmıştır. En iyi terim ağırlıklandırma yöntemini belirlemek için 5 farklı yöntem (tf, tp, logtf, normtf, tf*idf) denenmiş ve bunların içerisinden en başarılı sonuçları veren tf ve tf*idf yöntemlerinin en başarılı olduğu belirlenmiştir. Sınıflandırma sonuçlarına olumlu bir etkisi olduğu için tüm metinlere durdurma kelimelerininin elenmesi önişlemi uygulanmıştır. Ağırlıklandırma yöntemini belirleme ve durdurma kelimelerinin etkisini ölçme deneyleri metinler içerisindeki terimlerin ham halleri kullanılarak yapılmıştır. Kelime kökü bulma algoritmalarının da sınıflandırılmaya etkisini araştırmak için metinlere Zemberek, Affix Stripping ve Fixed Prefix 3, 5, 7 olmak üzere 5 farklı kök bulma algoritması uygulanmıştır. Kelime kökü alınarak ve kelimelerin ham halleri ile yapılan sınıflandırma sonuçları karşılaştırılmış, kelimelerin ham halleri ile yapılan sınıflandırmanın daha başarılı sonuçlar verdiği gözlenmiştir. Nitelik çıkarımı yapmak için kelime n-gramı, nitelik seçimi için standart sapma tabanlı bir yöntem ile bilgi kazancı (information gain) ve ki kare algoritmaları uygulanmıştır. Terimlerin ham halleri kullanılarak kelime n-gram nitelik çıkarımı ve standart sapma nitelik seçimi en iyi sonucu vermiştir.

Özet (Çeviri)

The purpose of this thesis is to determine the most effective method for extracting features and to develop an effective method of selecting features for the classification of Turkish documents in different types. We analyze the effects of preprocessing methods, weighting schemes, and feature selection on the performance of Turkish document classification. In the study, 5 different term weighting methods that are tf, tp, logtf, normtf, tf*idf are compared and it is found that“tf”and“tf*idf”give the best results. After that effects of stopwords removal are investigated, and it is observed that stopwords removal improves classification performance. Then we compare 5 different stemming algorithms that are Zemberek, Affix Stripping, Fixed Prefix 3, 5, and 7 to find out the effects of stemming algorithms on the classification. The results of classification obtained from applying stemming and using the raw form of terms are compared, and the raw form of terms gives more accurate classification results. The effects of n-gram based feature extraction, and feature selection methods that are our proposed standard deviation based method, well-known information gain, and chi-square algorithms are compared. The experimental results indicate that the n-gram feature extraction and standard deviation-based feature selection algorithms give the best results and these methods improve the classification accuracy positively.

Benzer Tezler

  1. Doküman kategorizasyonu ve imza bölge analizi

    Document categorization and signature region analysis

    İLKHAN CÜCELOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    BankacılıkBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN OĞUL

  2. İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

    Variant analysis in human gene networks using surrogate modelling and machine learning

    FURKAN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  3. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Metin sınıflandırma için öznitelik seçimi ve globalleştirmenin etkisi

    Feature selection for text classification and the effect of globalisation

    BEKİR PARLAK

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER KÜRŞAT UYSAL

  5. Sosyal ağlardaki siber zorbalığın yapay zeka algoritmaları ile tespiti ve sınıflandırılması

    Cyberbullying detection and classification with artificial intelligence algorithms in social network

    EREN ÇÜRÜK

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMersin Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ÇİĞDEM ACI