Empirical comparison of naïve bayes event models and smoothing methods for text classification
Metin sınıflandırma için yumuşatma yöntemlerinin ve saf bayes olay modellerinin deneysel karşılaştırması
- Tez No: 641478
- Danışmanlar: YRD. DOÇ. DR. MURAT CAN GANİZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: İngilizce
- Üniversite: Doğuş Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 67
Özet
Naive bayes, kolay uygulanması ve düşük karmaşıklığı nedeniyle metin sınıflandırmada yaygın olarak kullanılan algoritmalardan biridir. Metin sınıflandırma için, Naïve bayes algoritmasının yaygın olarak kullanılan event modelleri vardır. Bunlar, Multivariate Bernoulli ve multinomial modelleridir. Çoğu çalışmada, hemen hemen her koşulda multivariate Bernoulli modele göre daha iyi performansa sahip olduğu varsayımına dayanarak model olarak multinomial model, smoothing method olarak ise Laplace seçilmiştir. Bu tez, deneysel olarak Naive Bayes event modelleri analiz etmeyi ve farklı bir bakış açısıyla yöntemleri düzgünleştirerek bu yaygın varsayıma ışık tutmayı amaçlıyor. Naive Bayes event modelleri arasındaki farkı netleştirmek için, bu modellerin metin sınıflandırma performansı İngilizce ve Türkçe olmak üzere iki farklı dildeki veri kümeleri üzerinde karşılaştırılmıştır. Kapsamlı deneyler sonucunda, multinomial modelin üstün performansının her zaman gözlenmediği görülmüştür. Multivariate Bernoulli model, farklı boyuttaki öğrenme kümelerinin olduğu koşullar altında uygun bir smoothing yöntemi ile kombine edildiğinde iyi performans gösterebilir.
Özet (Çeviri)
Naïve Bayes is one of the most commonly used algorithms in text classification due to its easy implementation and low complexity. There are two commonly referred event models in Naïve Bayes for text categorization; multivariate Bernoulli and multinomial models. A very large number of studies choose multinomial model and Laplace smoothing just based on the assumption that it performs better than multivariate model under almost any conditions. This thesis aims to shed some light into this widely adopted assumption by empirically analyzing Naïve Bayes event models and smoothing methods from a different perspective. In order to clarify the difference between these event models of Naïve Bayes, their classification performance are compared on different languages –English and Turkish-datasets. Results of our extensive experiments demonstrate that superior performance of multinomial model does not observed all the time. On the other hand, multivariate Bernoulli model can perform well when combined with an appropriate smoothing method under different training data size conditions at any training set size.
Benzer Tezler
- Comparison of various transition mechanisms from IPv4 to IPv6
IPv4'den IPv6'ya farklı geçiş mekanizmalarının karşılaştırması
FARIS AL-FAYYADH
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT KOYUNCU
- The English language needs of students at English medium universities from the perspectives of content teachers
İngilizce kullanım ortamında alan öğretim elemanlarının öğrencilerin dil yeterliliği ile ilgili beklentileri
DİDEM DERİNTUNA
Yüksek Lisans
İngilizce
2006
Eğitim ve ÖğretimMarmara ÜniversitesiYabancı Diller Ana Bilim Dalı
Y.DOÇ.DR. LEYLA ILGIN
- An investigation into the academic language needs of students at Yıldız Technical University and disciplinary teachers'attitudes towards English-medium instruction at the tertiary level
Yıldız Teknik Üniversitesi'ndeki lisans öğrencilerinin akademik dil gereksinimleri ve alan öğretmenlerinin yükseköğreniminde yabancı dille eğitime yönelik tutumları üzerine bir araştırma
CEMİLE GÜLER
Yüksek Lisans
İngilizce
2004
Eğitim ve Öğretimİhsan Doğramacı Bilkent ÜniversitesiYabancı Dil Olarak İngilizce Öğretimi Ana Bilim Dalı
DR. JULİE MATHEWS AYDINLI
DR. MARTİN ENDLEY
- Empirical comparison of portfolio risk diversification algorithms
Portföy risk çeşitlendirme algorıtmalarının ampırık karışılaştırması
ÇİĞDEM YERLİ
Yüksek Lisans
İngilizce
2018
MaliyeOrta Doğu Teknik ÜniversitesiFinansal Matematik Ana Bilim Dalı
PROF. DR. AYŞE SEVTAP KESTEL