Metin sınıflandırmada boyut azaltmanın etkisi ve özellik seçimi
Effetcts of dimensionality reduction and feature selection in text categorization
- Tez No: 312793
- Danışmanlar: YRD. DOÇ. DR. HASAN ŞAKİR BİLGE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 98
Özet
Metinlerin veya genel olarak verilerin sınıflandırılmasındaki amaç bilgiye erişim zamanının azaltılmasıdır. Verilerin sürekli artması sınıflandırma işlemini elle yapmayı olanaksız kılmaktadır. Bu durumda devreye otomatik metin sınıflandırma sistemleri girmektedir. Metin sınıflandırma sistemlerinde veri uzayının büyük boyutta olması önemli bir problemdir. Bu sistemlerde boyut azaltma teknikleri ve özellik seçim yöntemleri kullanılarak az bir veri ile doğru sınıflandırma yapmak mümkün olmaktadır. Bu çalışmada metinlerin tümü terim frekansı ? ters doküman frekansı (TF?IDF) vektörleri ile temsil edilmiştir. Çalışmada uygulanan Ayrık Kosinüs Dönüşüm (AKD) yöntemi ve Varyans Oranı ile özellik seçim yöntemi metin vektörlerinden oluşturulan TF?IDF vektör uzayının boyutunun azaltılarak sınıflandırma için daha etkili sonuçların elde edilebilmesi amacıyla kullanılmıştır. Her iki yöntem de TF?IDF vektörleri üzerinde uygulanmıştır. Boyutları azaltılmış vektörlerle başarılı sonuçlar elde edilmiştir. Bunun yanında, boyut azaldığı için sistemin çalışma zamanı da azalmıştır. Veri kümesi olarak kendi hazırladığımız Milliyet, literatürde kullanılan R8 ve WebKB?4 veri kümeleri kullanılmıştır. Milliyet veri kümesi beş sınıf içermektedir. R8 veri kümesi Reuters?21578 içinde bulunmakta ve sekiz sınıf içermektedir. WebKB?4 veri kümesi çeşitli üniversitelerin bilgisayar bilimleri bölümlerinden toplanan web sayfaları kullanılarak oluşturulmuş ve dört sınıf içermektedir. Her üç veri kümesi için de metinler eğitim ve sınama metinleri olarak gruplanmış, eğitim metinleri kullanılarak sistem eğitilmiş ve sınama metinlerinin ait olduğu sınıf kullanılan yönteme göre tespit edilmiştir. Seçilen yönteme göre boyutu azaltılmış vektörlerle sınıflandırma başarısı %92'lere kadar çıkmıştır. Önerilen yöntemler Microsoft .Net ortamında C# dili kullanılarak uygulanmıştır.
Özet (Çeviri)
The goal of classifying text or generally data is to decrease the time of access to the information. Continuously increasing of documents makes the classification process impossible to do manually. In this case, the automatic text classification systems are activated. In text classification systems, large data space is an important problem. By using dimensionality reduction techniques and feature selection in text classification systems, it is possible to do right classification with reduced size of data. In this study, all of the texts have been represented by term frequency ? inverse document frequency (TF?IDF) vectors. Discrete Cosine Transform (DCT) method and the feature selection with Proportion of Variance method are used to get more effective results for classification by reducing dimensionality of TF?IDF vector space which is generated by text vectors. Successful results have been obtained with reduced dimension. In addition, these results are obtained in a short time. Milliyet, R8 and WebKB?4 datasets are used. Milliyet dataset contains 5 classes and is prepared by us. R8 dataset is in Reuters?21578, contains eight classes and is used in literature. WebKB?4 dataset is collected from web sites of computer science departments of various universities, contains four classes and is used in literature. For all three datasets, texts are grouped in training and test texts. Classification system is trained by training test and classes of test texts are determined by using our system. According to chosen method, classification success increases 92% with reduced dimension of vector.Proposed methods are applied with using Microsoft .Net framework and C# language.
Benzer Tezler
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- A review and evaluation of development in exploration, production, reserves estimation, and research efforts for shale gas and oil
Şeyl gazı ve petrolü için arama, üretim, rezerv kestirimive araştırma çalışmalarının incelenmesi ve değerlendirilmesi
OSMAN MOHAMMED
Yüksek Lisans
İngilizce
2015
Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik ÜniversitesiPetrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İBRAHİM METİN MIHÇAKAN
- Improving text categorization performance by combining feature selection methods
Öznitelik seçme metotlarını birleştirerek metin sınıflandırma performansının iyileştirilmesi
ECE ÖZBİLEN
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUNGA GÜNGÖR
- Evaluating the performance of different continous vector representation methods for turkish words
Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi
GÖKHAN GÜLER
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Text categorization using syllables and recurrent neural networks
Tekrarlamalı sinir ağları ve heceleri kullanarak metin sınıflandırma
ERSİN YAR
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SÜLEYMAN SERDAR KOZAT