Geri Dön

Comparison of document classification approaches for Turkish texts

Türkçe metinler için doküman sınıflandırma yaklaşımlarının karşılaştırılması

  1. Tez No: 405191
  2. Yazar: ÖZLEM ECE ÇOBANOĞLU
  3. Danışmanlar: ÖĞR. GÖR. BURAK GALİP ASLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: İzmir Yüksek Teknoloji Enstitüsü
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 83

Özet

Gün geçtikçe yaygınlaşan internet kullanımıyla beraber elektronik belgelerde hızlı bir artış yaşanmaktadır. Belgelerin çoğu herhangi bir mantıksal yapıda olmadığı için insan gücü ile bu belge yığınlarının içinden istenilen bilgiye ulaşmak karmaşık ve zaman alıcı bir iştir; bu nedenle belgeleri hızlı bir şekilde düzenlemek, yönetmek ve işlemek için belge sınıflandırma önemli bir işlemdir. Bu tezde, Türkçe belgelerde farklı algoritmaların kullanılması ile birden fazla sınıflandırma yaklaşımının performansları değerlendirilmektedir. Tezin başlıca hedefi belge önişleme adımları ve sınıflandırma algoritmaları arasındaki en iyi kombinasyonun belirlenmesidir. Belgeleri temsil eden özelliklerin oluşturulmasında belgede geçen kelimelerin doğrudan kendileri, kökleri, bi-gram ve tri-gram formları kullanılmıştır. Bu özellik setlerine farklı ağırlıklandırma, seçim ve sınıflandırma algoritmalarının uygulanmasıyla 216 deneysel sonuç elde edilmiştir. Elde edilen deneysel sonuçlara göre, C4.5 (C4.5 Decision Tree) sınıflandırma algoritması sonuçların %95'inde en yüksek doğruluk değerine sahiptir. SVM (Support Vector Machine) algoritması C4.5'e en yakın sonuçları üretmektedir; ve bu sonuçların %5'inde en yüksek doğruluk değerini vermektedir. NB (Naive Bayes) algoritması ise bu 3 farklı sınıflandırma algoritması içinde her zaman en düşük doğruluk oranına sahip olduğu gözlemlenmiştir.

Özet (Çeviri)

Internet usage is exponentially growing day by day. This rapid growth in Internet usage leads to an explosion in the number of electronic documents being produced daily. The huge bulk of documents make it difficult accessing the necessary and relevant information. Due to lack of logical organization, retrieval and processing of the desired information from huge number of documents becomes a complex and time consuming task with human effort. Therefore, document classification is significant task to manage and process the documents. In this thesis, the performance of different classification approaches produced from several algorithms is thoroughly evaluated. The main goal of the thesis is to determine the best combination of document preprocessing steps and classification algorithms. Different feature weighting, construction and selection methods are experimented on Turkish documents. Stemmed and original words and their bi-gram and tri-gram forms are used to construct the features which represent the documents. The effects of several weighting algorithms and the combination of feature selection and weighting algorithms on 3 different classification approaches are interpreted. The performance of 216 different classification process combinations are analyzed. Experimental results show that C4.5 (C4.5 Decision Tree) classification algorithm has the highest accuracy results in 95% of the results. SVM (Support Vector Machine) algorithm produces the closest results to C4.5 and it provides the highest accuracy in 5% of the experimental results. NB (Naive Bayes) algorithm has always the lowest accuracy rate in these 3 different classification algorithm results.

Benzer Tezler

  1. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım

    A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization

    MELTEM AKSOY

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEDA YANIK ÖZBAY

    PROF. DR. MEHMET FATİH AMASYALI

  3. Konut tasarımında bir kalite unsuru olarak esneklik temelli yaklaşımların değerlendirilmesi

    Evaluation of flexibility-based approaches as a quality element in housing design

    ESİN HASGÜL

    Doktora

    Türkçe

    Türkçe

    2018

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. FATMA AHSEN ÖZSOY

  4. Kelime gömme vektörlerinin graf dönüşümü yoluyla metin sınıflandırmada kullanımı

    Use of word embedding vectors in text classification through graph conversion

    ELİF DORUKBAŞI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. İLKER TÜRKER

  5. Kısa metin sınıflandırma için öznitelik seçimi

    Feature selection for short text classification

    RASIM ÇEKİK

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER KÜRŞAT UYSAL