Metin sınıflandırmada öznitelik seçimi üzerine bir çalışma
On the feature selection for text classification
- Tez No: 437970
- Danışmanlar: DOÇ. DR. ERDAL KILIÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Ondokuz Mayıs Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 71
Özet
Son yıllarda internetin gelişimi ile üretilen ve kaydedilen verinin boyutu hızla artmıştır. Bu verilerden anlamlı bilginin elde edilmesi temel problem olduğundan veri madenciliği teknikleri önem kazanmaktadır. Metin sınıflandırma veri madenciliğinin yaygın çalışılan alanlarından biridir. Metin sınıflandırma ile ilgili önemli problemlerden biri veri boyutu arttıkça çalışma zamanının artması ve sınıflandırma başarımının düşmesidir. Bu problemin çözülmesinde kullanılan temel yöntemlerden biri öznitelik seçimidir. Bu çalışmada metin sınıflandırma için doğru özniteliklerin seçimi amaçlanmaktadır. Öznitelik seçiminde sıkça kullanılan Ki Kare (CHI), Bilgi Kazancı (IG) metrikleri değişik veri setleri üzerinde uygulanarak başarımları ölçülmüştür. Bunun yanında var olan yöntemlere alternatif iki farklı öznitelik seçme yöntemi önerilmektedir. Önerilen yöntemlerden biri metin sınıflandırmada terim ağırlıklandırma için kullanılan Relevance Frequency (RF) yöntemine yeni parametreler eklenmesi ile öznitelik seçimi yapılmasıdır. İkinci yöntem ise Acc2 metriğinin parametrelerinin değiştirilerek kullanılmasıdır. Çalışma sonucunda önerilen metriklerin mevcut metrikler kadar başarılı olduğu gözlenmiştir.
Özet (Çeviri)
Size of data had been being increased with develop of internet in recent years. Data mining techniques had been being important because of it is the basic problem that obtain significant information. Text classification is one of the commonly studying subfields of data mining. One of the important problems related with text mining is increasing run time and decreasing accuracy of classification by increasing dimension of data. Feature selection is one of the basic methods to solve this problem. In this study it is aimed to selection of correct features for text classification. Chi Square (CHI) and Information Gain (IG) metrics which is widely used are applied on different data sets and their performance are measured. Besides of that two different feature selection methods are proposed as alternative to current methods. One of the proposed methods is selecting features by adding new parameter to Relevance Frequency (RF) method that is used to term weighting. Second method is using Acc2 metric by changing parameters. As result of this study it is observed that performance of proposed methods are as successful as current methods.
Benzer Tezler
- Kısa metin sınıflandırma için öznitelik seçimi
Feature selection for short text classification
RASIM ÇEKİK
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPER KÜRŞAT UYSAL
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Dengesiz metin sınıflandırma için yeni yaklaşımlar
New approaches to imbalanced text classification
HANDE TİRYAKİ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPER KÜRŞAT UYSAL
- Sosyal medya paylaşımlarında duygu analı̇zı̇ : Makı̇ne öğrenı̇mı̇ yaklaşımı üzerı̇ne bı̇r araştırma
Sentiment analysis in social media sharing : A research on machine learning approach
ÜMİT TOPAÇAN
Doktora
Türkçe
2016
İletişim BilimleriMarmara ÜniversitesiGazetecilik Ana Bilim Dalı
YRD. DOÇ. DR. LEVENT ELDENİZ
- Derin öğrenmede öznitelik seçim yaklaşımları kullanılarak metin verilerinden covıd-19 aşı karşıtlığı tespiti
Covid-19 anti-vaccination detection from text data using feature selection approaches in deep learning
SERDAR ERTEM
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERDAL ÖZBAY