Geri Dön

New approaches to enhancing the performance of text classification

Metin sınıflandırma başarımını iyileştirmek için yeni yaklaşımlar

  1. Tez No: 334851
  2. Yazar: ALPER KÜRŞAT UYSAL
  3. Danışmanlar: YRD. DOÇ. DR. SERKAN GÜNAL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Metin Sınıflandırma, Öznitelik Çıkarımı, Öznitelik Seçimi, Öznitelik Dönüşümü, Text Classification, Feature Extraction, Feature Selection, Feature Transformation
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: Anadolu Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Metinlerin kategorize edilmesi olarak da bilinen metin sınıflandırmanın amacı metinleri uygun sınıflara atamaktır. İnternet teknolojilerinin hızlı bir şekilde gelişmesine bağlı olarak dünya genelindeki elektronik belge miktarında yüksek miktarda bir artış görülmüştür. Dolayısıyla metin sınıflandırma, bu belgelerin organizasyonunda büyük bir önem kazanmıştır. Metin sınıflandırmadaki önemli sorunlar öznitelik uzayının yüksek boyutluluğu ve bundan kaynaklı hatalı sınıflandırmalardır. Bu tez çalışmasında, metin sınıflandırmadaki bu iki sorunun üstesinden gelebilmek için çeşitli çözümler önerilmiştir. Özel olarak, ayırt edici öznitelik seçici adında yeni bir filtre tabanlı öznitelik seçim yöntemi ortaya çıkarılmıştır. Bunun yanı sıra, öznitelik seçim ve öznitelik dönüşüm işlemlerinden oluşan genetik algoritma yönelimli gizli anlamsal öznitelikler önerilmiştir. Ayrıca, çeşitli öznitelik çıkarım ve öznitelik seçim yöntemlerinin metin sınıflandırmanın bir türü olan istenmeyen kısa mesaj filtreleme problemi üzerindeki etkisi iki farklı dil için detaylı bir şekilde araştırılmıştır. Son olarak, ön işleme yöntemlerinin metin sınıflandırma üzerinde etkisi farklı konu başlıkları ve farklı diller için incelenmiştir. Kıyaslama veri kümeleri üzerinde yapılan kapsamlı deneyler, önerilen tüm çözümlerin daha iyi boyut indirgeme ve/veya sınıflandırma başarımı sağladığını ortaya koymuştur.

Özet (Çeviri)

The aim of text classification, also known as text categorization, is to classify texts of interest into appropriate classes. Due to the rapid advance of Internet technologies, the amount of electronic documents has drastically increased worldwide. Consequently, text classification has gained importance in organization of these documents. Important issues in text classification are the high dimensionality of feature space and misclassification concerns regarding the feature space. In this dissertation, various solutions are proposed to overcome both of these concerns of the text classification problems. Specifically, a novel filter-based feature selection method, namely distinguishing feature selector, is introduced. Besides, genetic algorithm oriented latent semantic features, which are originated from feature selection and transformation operations, are proposed. Moreover, the impact of several feature extraction and selection approaches on SMS spam filtering problem, a special case of text classification, is extensively investigated for two different languages. Finally, the impact of preprocessing methods on text classification is examined for different domains and different languages as well. Extensive experiments conducted on benchmark datasets revealed that all the proposed solutions offer better dimensionality reduction and/or classification performance depending on their contributions.

Benzer Tezler

  1. A new volterra neural network layer lıbrary usıng tensorflow

    Başlık çevirisi yok

    ZAKARIA FAYEZ ABD ALYAFAWI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Enformatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DEVRİM AKGÜN

  2. Cyber tools as foreign policy instruments in trilateral relations: Analysing cyber-attacks targeting the United Kingdom

    Üçlü ilişkilerde dış politika aracı olarak siber araçlar: Birleşik Krallık'ı hedef alan siber saldırıların analizi

    ATAKAN YILMAZ

    Doktora

    İngilizce

    İngilizce

    2024

    Siyasal BilimlerGalatasaray Üniversitesi

    Uluslararası İlişkiler Ana Bilim Dalı

    DOÇ. DR. MENENT SAVAŞ CAZALA

  3. Enhancing named entity recognition in Turkish by ıntegrating external knowledge and extra layers into transformer-based models

    Adlandırılmış varlık tanımasını Türkçe'de dönüştürücü tabanlı modellere harici bilgi ve ekstra katmanları entegre ederek geliştirme

    BUSE ÇARIK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. REYYAN YENİTERZİ

  4. Genişbandlı şebekelerde hizmet adaptasyon protokolleri

    Başlık çevirisi yok

    RECEP EVREN PALANDUZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. GÜNSEL DURUSOY

  5. Türk müziğinde perde/çeşni dönüşümlerini keşfetmek: 15. yüzyıldan 20. yüzyıla örnek çalışmalar

    Exploring perde/çeşni transformations in Turkish music: Case studies from 15th to 20th century

    MUHAMMED ZÜLFÜ YALÇIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Müzikİstanbul Teknik Üniversitesi

    Müzikoloji ve Müzik Teorisi Ana Bilim Dalı

    PROF. DR. OZAN BAYSAL