Geri Dön

Metin sınıflandırmada boyut azaltmanın etkisi ve özellik seçimi

Effetcts of dimensionality reduction and feature selection in text categorization

  1. Tez No: 312793
  2. Yazar: OSMAN DURMAZ
  3. Danışmanlar: YRD. DOÇ. DR. HASAN ŞAKİR BİLGE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 98

Özet

Metinlerin veya genel olarak verilerin sınıflandırılmasındaki amaç bilgiye erişim zamanının azaltılmasıdır. Verilerin sürekli artması sınıflandırma işlemini elle yapmayı olanaksız kılmaktadır. Bu durumda devreye otomatik metin sınıflandırma sistemleri girmektedir. Metin sınıflandırma sistemlerinde veri uzayının büyük boyutta olması önemli bir problemdir. Bu sistemlerde boyut azaltma teknikleri ve özellik seçim yöntemleri kullanılarak az bir veri ile doğru sınıflandırma yapmak mümkün olmaktadır. Bu çalışmada metinlerin tümü terim frekansı ? ters doküman frekansı (TF?IDF) vektörleri ile temsil edilmiştir. Çalışmada uygulanan Ayrık Kosinüs Dönüşüm (AKD) yöntemi ve Varyans Oranı ile özellik seçim yöntemi metin vektörlerinden oluşturulan TF?IDF vektör uzayının boyutunun azaltılarak sınıflandırma için daha etkili sonuçların elde edilebilmesi amacıyla kullanılmıştır. Her iki yöntem de TF?IDF vektörleri üzerinde uygulanmıştır. Boyutları azaltılmış vektörlerle başarılı sonuçlar elde edilmiştir. Bunun yanında, boyut azaldığı için sistemin çalışma zamanı da azalmıştır. Veri kümesi olarak kendi hazırladığımız Milliyet, literatürde kullanılan R8 ve WebKB?4 veri kümeleri kullanılmıştır. Milliyet veri kümesi beş sınıf içermektedir. R8 veri kümesi Reuters?21578 içinde bulunmakta ve sekiz sınıf içermektedir. WebKB?4 veri kümesi çeşitli üniversitelerin bilgisayar bilimleri bölümlerinden toplanan web sayfaları kullanılarak oluşturulmuş ve dört sınıf içermektedir. Her üç veri kümesi için de metinler eğitim ve sınama metinleri olarak gruplanmış, eğitim metinleri kullanılarak sistem eğitilmiş ve sınama metinlerinin ait olduğu sınıf kullanılan yönteme göre tespit edilmiştir. Seçilen yönteme göre boyutu azaltılmış vektörlerle sınıflandırma başarısı %92'lere kadar çıkmıştır. Önerilen yöntemler Microsoft .Net ortamında C# dili kullanılarak uygulanmıştır.

Özet (Çeviri)

The goal of classifying text or generally data is to decrease the time of access to the information. Continuously increasing of documents makes the classification process impossible to do manually. In this case, the automatic text classification systems are activated. In text classification systems, large data space is an important problem. By using dimensionality reduction techniques and feature selection in text classification systems, it is possible to do right classification with reduced size of data. In this study, all of the texts have been represented by term frequency ? inverse document frequency (TF?IDF) vectors. Discrete Cosine Transform (DCT) method and the feature selection with Proportion of Variance method are used to get more effective results for classification by reducing dimensionality of TF?IDF vector space which is generated by text vectors. Successful results have been obtained with reduced dimension. In addition, these results are obtained in a short time. Milliyet, R8 and WebKB?4 datasets are used. Milliyet dataset contains 5 classes and is prepared by us. R8 dataset is in Reuters?21578, contains eight classes and is used in literature. WebKB?4 dataset is collected from web sites of computer science departments of various universities, contains four classes and is used in literature. For all three datasets, texts are grouped in training and test texts. Classification system is trained by training test and classes of test texts are determined by using our system. According to chosen method, classification success increases 92% with reduced dimension of vector.Proposed methods are applied with using Microsoft .Net framework and C# language.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. A review and evaluation of development in exploration, production, reserves estimation, and research efforts for shale gas and oil

    Şeyl gazı ve petrolü için arama, üretim, rezerv kestirimive araştırma çalışmalarının incelenmesi ve değerlendirilmesi

    OSMAN MOHAMMED

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik Üniversitesi

    Petrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İBRAHİM METİN MIHÇAKAN

  3. Improving text categorization performance by combining feature selection methods

    Öznitelik seçme metotlarını birleştirerek metin sınıflandırma performansının iyileştirilmesi

    ECE ÖZBİLEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUNGA GÜNGÖR

  4. Evaluating the performance of different continous vector representation methods for turkish words

    Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi

    GÖKHAN GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. Text categorization using syllables and recurrent neural networks

    Tekrarlamalı sinir ağları ve heceleri kullanarak metin sınıflandırma

    ERSİN YAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SÜLEYMAN SERDAR KOZAT