Geri Dön

Text categorization and ensemble pruning in turkish news portals

Türkçe haber portallarında metin sınıflandırma ve topluluk budama

  1. Tez No: 286320
  2. Yazar: ÇAĞRI TORAMAN
  3. Danışmanlar: PROF. DR. FAZLI CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 71

Özet

Haber portalları vb. sistemlerde haberlerin otomatik olarak sınıflandırılmasıgerekmektedir. Ancak birok haberin kategori bilgisi bulunmamakta, yanlışatanmş olmakta ya da kapsamlı olmaktadır. Bu durum otomatik haber kategorizasyonunugerekli kılmaktadır. Otomatik yazı sınıflandırma (OYS) parametreayarlama, terim ağırlıklandırma, kelime kökü bulma, ortak kelimeleri yoketme, ve özellik se¸cme gibi kararları içeren çok yönl¨u bir işlemdir. OYS'deyüksek doğruluk sonuçları sağlayan bir kategorizasyon ayarlaması yapmak T¨urkçehaber portalları için önemlidir. Bilkent Haber Portalı kullanılarak farklı karakterleresahip iki Türkçe veri kümesi yaratılmıştır. Deneyler dört kategorizasyonyöntemiyle yapılmıştır: C4.5, KNN, Naive Bayes, ve SVM (polynomial ve rbfçekirdekleri kullanılarak). Sonuçlar Türkçe haber portalları için bir yazı kategorizasyonuşablonu önermektedir. Tavsiye edilen yazı kategorizasyonu şablonugöz önünde bulundurarak etkililiği arttırmak için topluluk öğrenme yöntemlerikullanılmaktadır. Ancak bu yöntemler çok fazla hesaplama iş yükü gerektirdiğinden topluluk budama stratejileri geliştirilmiştir. Veri ayırma topluluklarıoluşturulmuş ve sıralamaya dayalı topluluk budama çeşitli otomatik öğrenmekategorizasyon algoritmalarıyla uygulanmıştır. Amaç şu soruları yanıtlamaktır:(1) Yazı kategorizasyon alanında veri ayırma kullanılarak ne kadar veriyi budayabiliriz?(2) Hangi veri ayırma ve kategorizasyon yöntemleri veri budamaiçin daha uygundur? (3) ? Ingilizce ve Türkçe dillerde topluluk budama ne kadarfark etmektedir? (4) Yazı kategorizasyonu alanında topluluk budama ile etkililiğiarttırmak mümkün müdür? Deneyler iki veri kmesinde yapılmıştır: Reuters-21578 ve BilCat-TRT. 90% oranında topluluk üyesi hassasiyette hemen hemenhiç eksilme olmadan elenmektedir.

Özet (Çeviri)

In news portals, text category information is needed for news presentation. However,for many news stories the category information is unavailable, incorrectlyassigned or too generic. This makes the text categorization a necessary toolfor news portals. Automated text categorization (ATC) is a multifaceted difficultprocess that involves decisions regarding tuning of several parameters, termweighting, word stemming, word stopping, and feature selection. It is importantto find a categorization setup that will provide highly accurate results in ATC forTurkish news portals. Two Turkish test collections with different characteristicsare created using Bilkent News Portal. Experiments are conducted with four classificationmethods: C4.5, KNN, Naive Bayes, and SVM (using polynomial andrbf kernels). Results recommend a text categorization template for Turkish newsportals. Regarding recommended text categorization template, ensemble learningmethods are applied to increase effectiveness. Since they require many computationalworkload, ensemble pruning strategies are developed. Data partitioningensembles are constructed and ranked-based ensemble pruning is applied withseveral machine learning categorization algorithms. The aim is to answer the followingquestions: (1) How much data can we prune using data partitioning on thetext categorization domain? (2) Which partitioning and categorization methodsare more suitable for ensemble pruning? (3) How do English and Turkish differin ensemble pruning? (4) Can we increase effectiveness with ensemble pruningin the text categorization? Experiments are conducted on two text collections:Reuters-21578 and BilCat-TRT. 90% of ensemble members can be pruned withalmost no decreasing in accuracy.

Benzer Tezler

  1. TF-IDF ve Doc2Vec tabanlı metin sınıflandırma sisteminin başarımdeğerinin ardışık kelime gurubu tespiti ile arttırılması

    Enhancing the performance of TF-IDF and Doc2Vec based turkish text categorization system with phrase modeling

    DOĞANCAN KINIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYSUN GÜRAN

  2. Multilabel classification with neural network

    Yapay sinir ağları ile çok etiketli sınıflandırma

    SEZİN EKŞİOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilim ve TeknolojiÖzyeğin Üniversitesi

    Veri Bilimi Ana Bilim Dalı

    DOÇ. DR. OKAN ÖRSAN ÖZENER

  3. Sparse coding based ensemble classifiers combined with active learning framework for data classification

    Veri sınıflandırma için aktif öğrenme çerçevesi ile birleştirilmiş ayrık kodlama tabanlı sınıflandırıcı toplulukları

    GÖKSU TÜYSÜZOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF YASLAN

  4. Metin sınıflandırma için makine öğrenmesi tekniklerine dayalı bir yöntem geliştirme

    A method development based on machine learning techniques for text classification

    SÜMEYRA NUR ALTAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN BULUT

  5. Using twitter for situational awareness after an earthquake: The roles of text categorization and location information

    Deprem sonrası durumsal farkındalık için twıtter kullanımı: Metin kategorizasyonunun ve konum bilgisinin rolü

    NAZMİYE ELİGÜZEL

    Doktora

    İngilizce

    İngilizce

    2021

    Endüstri ve Endüstri MühendisliğiGaziantep Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CİHAN ÇETİNKAYA

    PROF. DR. TÜRKAY DERELİ