Makine öğrenmesi algoritmalarının karmaşıklık ve doygunluk analizinin bir veri kümesi üzerinde gerçekleştirilmesi
Performing a complexity and saturation analysis of machine learning algorithms on a data cluster
- Tez No: 414126
- Danışmanlar: YRD. DOÇ. DR. ÖZLEM UÇAR
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: Türkçe
- Üniversite: Trakya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 153
Özet
Bu çalışmada makine öğrenmesi algoritmaları kullanılarak eğitim alanında bir veri kümesi üzerinde doygunluk ve karmaşıklık analizi gerçekleştirilmiştir. Toplanan veriler arasında anlamsız ve eksik bulunan veriler temizlenerek 570 örneğe sahip bir veri kümesi elde edilmiştir. Sontest özniteliğinde yapılan veri dönüştürme işlemi ile 21 sınıflı, 5 sınıflı ve 2 sınıflı veri kümeleri elde edilmiştir. Weka'nın sahip olduğu LWL, J48, JRIP, Part, LMT, Baggıng, Random Forest, IBK, MultiLayer Perceptron, Voted Perceptron, SMO, Naïve Bayes sınıflandırma algoritmaları veri kümeleri üzerinde çalıştırılmıştır. 21 ve 5 sınıflı sontest özniteliğine sahip veri kümelerinden elde edilen başarının rastlantısal olduğu ve veri kümelerinin dengesiz olduğu sonucuna ulaşılmıştır. 2 sınıflı sontest özniteliğine sahip veri kümesinde algoritmalar çalıştırılmış sadece Naïve Bayes ve Voted Perceptron algoritmalarında verinin örnekleme yoğunluğunun doygunluk seviyesine ulaştığı sonucu çıkarılmıştır. Veri kümelerinin karmaşıklığını belirlemek üzere IBK, SMO, Voted Perceptron, J48 ve Naïve Bayes algoritmaları 2 sınıflı sontest özniteliğine sahip veri kümesine uygulanmıştır. Karmaşıklık analizinde verinin lineer olduğu durumlarda başarılı sonuçlar veren bir algoritma olan Voted perceptron algoritması en iyi sonuçları vermiştir. Yapılan karmaşıklık deneylerinde farklı üs değerleri için algoritmanın lineerliği değiştirilmiş, üs değeri arttıkça doğru sınıflandırma oranının düşmesi kullanılan veri kümesinin lineer olduğunu göstermiştir. Sınıflandırma gücü yüksek IBK algoritması ve destek karar makineleri (SVM) ile yapılan deneylerde eğitim verisi ile aşırı uyum (overfitting) durumu ortaya çıkmıştır.
Özet (Çeviri)
In this study, a complexity and saturation analysis was performed on a data cluster with a training area, using machine learning algorithms. Among the data collected, null and missing data were cleaned and a data cluster of 570 instances was formed. By transforming the data in the 'Sontest' attribute, data clusters with 21, 5 and 2 classes were acquired. LWL, J48, JRIP, Part, LMT, Bagging, Random Forest, IBK, MultiLayer Perceptron, Voted Perceptron, SMO, Naïve Bayes classification algorithms of Weka were run on the data clusters. It was concluded that the success achieved with the data clusters which have a 'sontest' attribute with 21 and 5 classes was arbitrary and the clusters were imbalanced. The algorithms were run on the data cluster with 2 classes and the analyses revealed that data sampling density reached the point of saturation only in Naïve Bayes and Voted Perceptron algorithms. In order to determine the complexity level, IBK, SMO, Voted Perceptron, J48 and Naïve Bayes algorithms were run on the data cluster which has a 'sontest' attribute with 2 classes. In the complexity analysis, the best results were acquired with the Voted perceptron algorithm, which outputs successful results with linear data. The linearity of the algorithm was altered for different exponents in the complexity analyses and the decrease in the correct classification rate with the increase in the exponent value showed that the data cluster was linear. Overfitting to training data was observed in the tests that were run with Support Vector Machines and IBK, which has a high classification power.
Benzer Tezler
- Online nonlinear modeling for big data applications
Büyük veri uygulamaları için onlıne non lineer olmayan modelleme
FARHAN KHAN
Doktora
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. SÜLEYMAN SERDAR KOZAT
- Makine öğrenmesi tekniklerinin bütçe verimliliğine uygulanması üzerine bir çalışma
A study on the application of machine learning techniques to budget efficiency
GÖKSEL KIVANÇ DEMİREL
- Ağaç temelli makine öğrenmesi yöntemlerinin karşılaştırılması ve hastalık tanısı için uygulanması
Comparison of tree-based machine learning methods and its application to diagnosis
YUNUS EMRE CEYLAN
Yüksek Lisans
Türkçe
2021
İstatistikMuğla Sıtkı Koçman Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. ERALP DOĞU
- Makine öğrenmesi sınıflama algoritmalarıyla kalp yetersizliği mortalitesinin tahminlenmesi
Prediction of heart failure mortality by machine learning classification algorithms
USAME ÖMER OSMANOĞLU
Doktora
Türkçe
2021
BiyoistatistikEskişehir Osmangazi ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. FEZAN MUTLU
- Gödel makinelerinde öğrenme sorunu
Learning problem in Gödel machines
ABDULLAH HANZALE KORKMAZ
Yüksek Lisans
Türkçe
2024
Felsefeİstanbul ÜniversitesiSistematik Felsefe ve Mantık Ana Bilim Dalı
PROF. DR. ÖZGÜÇ GÜVEN