Geri Dön

Türkçe metinlerin sınıflandırılmasında kullanılmak için geliştirilen melez bir öz nitelik seçim yöntemi

A hybrid feature selection method developed for use in the classification of turkish texts

  1. Tez No: 691593
  2. Yazar: YEŞİM KAYGUSUZ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ EMİN BORANDAĞ, Assoc. Prof. Dr. AKIN ÖZÇİFT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Manisa Celal Bayar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 69

Özet

Teknolojinin her alanda yaygınlaşması, kullanılması ve internete erişimin kolaylaşması ile içerikler üretilmesi, paylaşılması ve depolanması kolaylaşmıştır. Bu interaktif eylemler sonucunda ise geçmişten günümüze depolanan veri miktarlarında büyük oranlarda artışlar gözlemlenmiştir. Depolanan verilerin ise oldukça büyük bir kısmı ise metinlerden oluşmaktadır. Veri miktarlarının artmasıyla birlikte depolama maliyetlerinde de artışlar olmuştur. Veri boyutlarının, ciddi oranda ve irrasyonel şekilde artması sonucunda verilerin iyi bir şekilde yönetilmesi gerektiği gözler önüne serilmiştir. Üstelik, veriler kullanılarak yapılan çalışmalardaki, öznitelik sayısının fazla olması da maliyeti yükselten ve başarımı düşüren etmenlerdendir. Ayrıca, iyi bir analiz bu verilerden sektör bağımsız kazanımlar elde etmek de mümkündür. Metinlerin, yüksek boyutlu olması sebebi ile ortaya çıkan maliyet ve başarım sorunlarından kurtulmak ve tahmin başarım oranlarını artırmak için öznitelikler arasında seçim yapılması gerekmektedir. Bu noktada ise öznitelik seçim yöntemleri devreye girmelidir. Bu çalışmada, Türkçe metinleri sınıflandırmak amacı ile melez bir öznitelik seçim yöntemi üzerine çalışılmıştır. Çalışmada kullanılan yöntemin amacı bilgi kazancı, simetrik belirsizlik, korelasyona dayalı öznitelik seçimi gibi zayıf filtreleri birleştirmek için çoğunluk oyu ve sıralama tahsisi ile tüm öznitelikler arasında özniteliklerin kalitesini ölçen melez bir öznitelik seçim yöntemi oluşturmaktır. Elde edilen öznitelikler ise Saf Bayes, J48, DVM, Rastgele Orman gibi algoritmalara ile test edilmiş ve sonuçlar gözlemlenmiştir. Elde edilen sonuçlara göre, diğer filtreleme yöntemlerine göre daha olumlu sonuçlar elde edilmiştir.

Özet (Çeviri)

With the spread and use of technology in every field and the ease of access to the internet, it has become easier to produce, share and store content. As a result of these interactive actions, large increases have been observed in the amount of data stored from past to present. Most of the stored data consists of texts. With the increase in the amount of data, there has been an increase in storage costs. As a result of the significant and irrational increase in data sizes, it has emerged that data should be managed well. In addition, the high number of features in studies using data is one of the factors that increase the cost and decrease the performance. With a good analysis, it is also possible to obtain sector-independent gains from these data. In order to get rid of the cost and performance problems caused by the high dimensionality of the texts and to increase the prediction success rates, it is necessary to choose among the features. At this point, feature selection methods should come into play. In this study, a hybrid feature selection method has been studied for the classification of Turkish texts. The aim of the method used in the study is to create a hybrid feature selection method that measures the quality of the features with the majority of votes and rank allocation among all features in order to combine weak filters such as information gain, symmetric uncertainty and correlation based. Attribute Selection. Obtained features were tested with algorithms such as Naive Bayes, J48, Support Vector Machine, Random Forest and the results were observed. According to the results obtained, more positive results were obtained compared to other filtering methods.

Benzer Tezler

  1. Evaluating the performance of different continous vector representation methods for turkish words

    Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi

    GÖKHAN GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Lazer ile oluşturulan plazma spektroskopi sisteminin tasarımı, endüstriyel ve biyolojik uygulamaları

    Design of the laser-induced breakdown spectroscopy system, industrial and biological applications

    BELGİN GENÇ ÖZTOPRAK

    Doktora

    Türkçe

    Türkçe

    2012

    Fizik ve Fizik MühendisliğiKocaeli Üniversitesi

    Fizik Ana Bilim Dalı

    PROF. DR. ARİF DEMİR

  3. Multi-view short-text classification using knowledge bases

    Bilgi tabanı kullanarak çok görüntülü kısa metin sınıflandırma

    MERT ÇALIŞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CEMAL OKAN ŞAKAR

  4. «дивану лугат-ит-түрк» сөздүгү кыргыз тилинин тарыхый өнүгүшүн изилдөө булагы(фонологиялык жана морфонологиялык изилдөө)

    Kırgız dilinin tarihi gelişiminin araştırılmasında bir kaynak olarak Divanü Lugati't-Türk (Fonolojik ve morfonolojik inceleme)

    NEGİZBEK ŞABDANALİYEV

    Doktora

    Kırgızca

    Kırgızca

    2015

    Türk Dili ve EdebiyatıKırgızistan-Türkiye Manas Üniversitesi

    Türkoloji Ana Bilim Dalı

    PROF. DR. KADIRALI KONKOBAYEV

  5. Özel yetenekli öğrencilerin oluşturdukları hikâye edici metinlerin bağdaşıklık ve tutarlılık bağlamında incelenmesi

    Investigation of narrative texts created by specially talented and normally developing students in the context of cohesion and coherence

    TUGAY ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Türk Dili ve EdebiyatıAlanya Alaaddin Keykubat Üniversitesi

    Türkçe ve Sosyal Bilimler Ana Bilim Dalı

    DOÇ. DR. BORA BAYRAM