Geri Dön

Metin sınıflandırmada öznitelik seçimi üzerine bir çalışma

On the feature selection for text classification

  1. Tez No: 437970
  2. Yazar: DURMUŞ ÖZKAN ŞAHİN
  3. Danışmanlar: DOÇ. DR. ERDAL KILIÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Ondokuz Mayıs Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 71

Özet

Son yıllarda internetin gelişimi ile üretilen ve kaydedilen verinin boyutu hızla artmıştır. Bu verilerden anlamlı bilginin elde edilmesi temel problem olduğundan veri madenciliği teknikleri önem kazanmaktadır. Metin sınıflandırma veri madenciliğinin yaygın çalışılan alanlarından biridir. Metin sınıflandırma ile ilgili önemli problemlerden biri veri boyutu arttıkça çalışma zamanının artması ve sınıflandırma başarımının düşmesidir. Bu problemin çözülmesinde kullanılan temel yöntemlerden biri öznitelik seçimidir. Bu çalışmada metin sınıflandırma için doğru özniteliklerin seçimi amaçlanmaktadır. Öznitelik seçiminde sıkça kullanılan Ki Kare (CHI), Bilgi Kazancı (IG) metrikleri değişik veri setleri üzerinde uygulanarak başarımları ölçülmüştür. Bunun yanında var olan yöntemlere alternatif iki farklı öznitelik seçme yöntemi önerilmektedir. Önerilen yöntemlerden biri metin sınıflandırmada terim ağırlıklandırma için kullanılan Relevance Frequency (RF) yöntemine yeni parametreler eklenmesi ile öznitelik seçimi yapılmasıdır. İkinci yöntem ise Acc2 metriğinin parametrelerinin değiştirilerek kullanılmasıdır. Çalışma sonucunda önerilen metriklerin mevcut metrikler kadar başarılı olduğu gözlenmiştir.

Özet (Çeviri)

Size of data had been being increased with develop of internet in recent years. Data mining techniques had been being important because of it is the basic problem that obtain significant information. Text classification is one of the commonly studying subfields of data mining. One of the important problems related with text mining is increasing run time and decreasing accuracy of classification by increasing dimension of data. Feature selection is one of the basic methods to solve this problem. In this study it is aimed to selection of correct features for text classification. Chi Square (CHI) and Information Gain (IG) metrics which is widely used are applied on different data sets and their performance are measured. Besides of that two different feature selection methods are proposed as alternative to current methods. One of the proposed methods is selecting features by adding new parameter to Relevance Frequency (RF) method that is used to term weighting. Second method is using Acc2 metric by changing parameters. As result of this study it is observed that performance of proposed methods are as successful as current methods.

Benzer Tezler

  1. Kısa metin sınıflandırma için öznitelik seçimi

    Feature selection for short text classification

    RASIM ÇEKİK

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER KÜRŞAT UYSAL

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. Dengesiz metin sınıflandırma için yeni yaklaşımlar

    New approaches to imbalanced text classification

    HANDE TİRYAKİ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER KÜRŞAT UYSAL

  4. Sosyal medya paylaşımlarında duygu analı̇zı̇ : Makı̇ne öğrenı̇mı̇ yaklaşımı üzerı̇ne bı̇r araştırma

    Sentiment analysis in social media sharing : A research on machine learning approach

    ÜMİT TOPAÇAN

    Doktora

    Türkçe

    Türkçe

    2016

    İletişim BilimleriMarmara Üniversitesi

    Gazetecilik Ana Bilim Dalı

    YRD. DOÇ. DR. LEVENT ELDENİZ

  5. Derin öğrenmede öznitelik seçim yaklaşımları kullanılarak metin verilerinden covıd-19 aşı karşıtlığı tespiti

    Covid-19 anti-vaccination detection from text data using feature selection approaches in deep learning

    SERDAR ERTEM

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERDAL ÖZBAY