Text categorization and ensemble pruning in turkish news portals

Türkçe haber portallarında metin sınıflandırma ve topluluk budama

PDF İndir

Tez No: 286320
Yazar: ÇAĞRI TORAMAN
Danışmanlar: PROF. DR. FAZLI CAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2011
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 71

Özet

Haber portalları vb. sistemlerde haberlerin otomatik olarak sınıflandırılmasıgerekmektedir. Ancak birok haberin kategori bilgisi bulunmamakta, yanlışatanmş olmakta ya da kapsamlı olmaktadır. Bu durum otomatik haber kategorizasyonunugerekli kılmaktadır. Otomatik yazı sınıflandırma (OYS) parametreayarlama, terim ağırlıklandırma, kelime kökü bulma, ortak kelimeleri yoketme, ve özellik se¸cme gibi kararları içeren çok yönl¨u bir işlemdir. OYS'deyüksek doğruluk sonuçları sağlayan bir kategorizasyon ayarlaması yapmak T¨urkçehaber portalları için önemlidir. Bilkent Haber Portalı kullanılarak farklı karakterleresahip iki Türkçe veri kümesi yaratılmıştır. Deneyler dört kategorizasyonyöntemiyle yapılmıştır: C4.5, KNN, Naive Bayes, ve SVM (polynomial ve rbfçekirdekleri kullanılarak). Sonuçlar Türkçe haber portalları için bir yazı kategorizasyonuşablonu önermektedir. Tavsiye edilen yazı kategorizasyonu şablonugöz önünde bulundurarak etkililiği arttırmak için topluluk öğrenme yöntemlerikullanılmaktadır. Ancak bu yöntemler çok fazla hesaplama iş yükü gerektirdiğinden topluluk budama stratejileri geliştirilmiştir. Veri ayırma topluluklarıoluşturulmuş ve sıralamaya dayalı topluluk budama çeşitli otomatik öğrenmekategorizasyon algoritmalarıyla uygulanmıştır. Amaç şu soruları yanıtlamaktır:(1) Yazı kategorizasyon alanında veri ayırma kullanılarak ne kadar veriyi budayabiliriz?(2) Hangi veri ayırma ve kategorizasyon yöntemleri veri budamaiçin daha uygundur? (3) ? Ingilizce ve Türkçe dillerde topluluk budama ne kadarfark etmektedir? (4) Yazı kategorizasyonu alanında topluluk budama ile etkililiğiarttırmak mümkün müdür? Deneyler iki veri kmesinde yapılmıştır: Reuters-21578 ve BilCat-TRT. 90% oranında topluluk üyesi hassasiyette hemen hemenhiç eksilme olmadan elenmektedir.

Özet (Çeviri)

In news portals, text category information is needed for news presentation. However,for many news stories the category information is unavailable, incorrectlyassigned or too generic. This makes the text categorization a necessary toolfor news portals. Automated text categorization (ATC) is a multifaceted difficultprocess that involves decisions regarding tuning of several parameters, termweighting, word stemming, word stopping, and feature selection. It is importantto find a categorization setup that will provide highly accurate results in ATC forTurkish news portals. Two Turkish test collections with different characteristicsare created using Bilkent News Portal. Experiments are conducted with four classificationmethods: C4.5, KNN, Naive Bayes, and SVM (using polynomial andrbf kernels). Results recommend a text categorization template for Turkish newsportals. Regarding recommended text categorization template, ensemble learningmethods are applied to increase effectiveness. Since they require many computationalworkload, ensemble pruning strategies are developed. Data partitioningensembles are constructed and ranked-based ensemble pruning is applied withseveral machine learning categorization algorithms. The aim is to answer the followingquestions: (1) How much data can we prune using data partitioning on thetext categorization domain? (2) Which partitioning and categorization methodsare more suitable for ensemble pruning? (3) How do English and Turkish differin ensemble pruning? (4) Can we increase effectiveness with ensemble pruningin the text categorization? Experiments are conducted on two text collections:Reuters-21578 and BilCat-TRT. 90% of ensemble members can be pruned withalmost no decreasing in accuracy.

Benzer Tezler

Tez No
630587
TF-IDF ve Doc2Vec tabanlı metin sınıflandırma sisteminin başarımdeğerinin ardışık kelime gurubu tespiti ile arttırılması
Enhancing the performance of TF-IDF and Doc2Vec based turkish text categorization system with phrase modeling
DOĞANCAN KINIK
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Doğuş Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYSUN GÜRAN
Tez No
758704
Multilabel classification with neural network
Yapay sinir ağları ile çok etiketli sınıflandırma
SEZİN EKŞİOĞLU
Yüksek Lisans
İngilizce
2022
Bilim ve Teknoloji Özyeğin Üniversitesi
Veri Bilimi Ana Bilim Dalı
DOÇ. DR. OKAN ÖRSAN ÖZENER
Tez No
439718
Sparse coding based ensemble classifiers combined with active learning framework for data classification
Veri sınıflandırma için aktif öğrenme çerçevesi ile birleştirilmiş ayrık kodlama tabanlı sınıflandırıcı toplulukları
GÖKSU TÜYSÜZOĞLU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YUSUF YASLAN
Tez No
515169
Metin sınıflandırma için makine öğrenmesi tekniklerine dayalı bir yöntem geliştirme
A method development based on machine learning techniques for text classification
SÜMEYRA NUR ALTAN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN BULUT
Tez No
676580
Using twitter for situational awareness after an earthquake: The roles of text categorization and location information
Deprem sonrası durumsal farkındalık için twıtter kullanımı: Metin kategorizasyonunun ve konum bilgisinin rolü
NAZMİYE ELİGÜZEL
Doktora
İngilizce
2021
Endüstri ve Endüstri Mühendisliği Gaziantep Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. CİHAN ÇETİNKAYA
PROF. DR. TÜRKAY DERELİ

Geri Dön