Geri Dön

Makine öğrenmesi algoritmalarının karmaşıklık ve doygunluk analizinin bir veri kümesi üzerinde gerçekleştirilmesi

Performing a complexity and saturation analysis of machine learning algorithms on a data cluster

  1. Tez No: 414126
  2. Yazar: TOLGA DEMİRHAN
  3. Danışmanlar: YRD. DOÇ. DR. ÖZLEM UÇAR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: Trakya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 153

Özet

Bu çalışmada makine öğrenmesi algoritmaları kullanılarak eğitim alanında bir veri kümesi üzerinde doygunluk ve karmaşıklık analizi gerçekleştirilmiştir. Toplanan veriler arasında anlamsız ve eksik bulunan veriler temizlenerek 570 örneğe sahip bir veri kümesi elde edilmiştir. Sontest özniteliğinde yapılan veri dönüştürme işlemi ile 21 sınıflı, 5 sınıflı ve 2 sınıflı veri kümeleri elde edilmiştir. Weka'nın sahip olduğu LWL, J48, JRIP, Part, LMT, Baggıng, Random Forest, IBK, MultiLayer Perceptron, Voted Perceptron, SMO, Naïve Bayes sınıflandırma algoritmaları veri kümeleri üzerinde çalıştırılmıştır. 21 ve 5 sınıflı sontest özniteliğine sahip veri kümelerinden elde edilen başarının rastlantısal olduğu ve veri kümelerinin dengesiz olduğu sonucuna ulaşılmıştır. 2 sınıflı sontest özniteliğine sahip veri kümesinde algoritmalar çalıştırılmış sadece Naïve Bayes ve Voted Perceptron algoritmalarında verinin örnekleme yoğunluğunun doygunluk seviyesine ulaştığı sonucu çıkarılmıştır. Veri kümelerinin karmaşıklığını belirlemek üzere IBK, SMO, Voted Perceptron, J48 ve Naïve Bayes algoritmaları 2 sınıflı sontest özniteliğine sahip veri kümesine uygulanmıştır. Karmaşıklık analizinde verinin lineer olduğu durumlarda başarılı sonuçlar veren bir algoritma olan Voted perceptron algoritması en iyi sonuçları vermiştir. Yapılan karmaşıklık deneylerinde farklı üs değerleri için algoritmanın lineerliği değiştirilmiş, üs değeri arttıkça doğru sınıflandırma oranının düşmesi kullanılan veri kümesinin lineer olduğunu göstermiştir. Sınıflandırma gücü yüksek IBK algoritması ve destek karar makineleri (SVM) ile yapılan deneylerde eğitim verisi ile aşırı uyum (overfitting) durumu ortaya çıkmıştır.

Özet (Çeviri)

In this study, a complexity and saturation analysis was performed on a data cluster with a training area, using machine learning algorithms. Among the data collected, null and missing data were cleaned and a data cluster of 570 instances was formed. By transforming the data in the 'Sontest' attribute, data clusters with 21, 5 and 2 classes were acquired. LWL, J48, JRIP, Part, LMT, Bagging, Random Forest, IBK, MultiLayer Perceptron, Voted Perceptron, SMO, Naïve Bayes classification algorithms of Weka were run on the data clusters. It was concluded that the success achieved with the data clusters which have a 'sontest' attribute with 21 and 5 classes was arbitrary and the clusters were imbalanced. The algorithms were run on the data cluster with 2 classes and the analyses revealed that data sampling density reached the point of saturation only in Naïve Bayes and Voted Perceptron algorithms. In order to determine the complexity level, IBK, SMO, Voted Perceptron, J48 and Naïve Bayes algorithms were run on the data cluster which has a 'sontest' attribute with 2 classes. In the complexity analysis, the best results were acquired with the Voted perceptron algorithm, which outputs successful results with linear data. The linearity of the algorithm was altered for different exponents in the complexity analyses and the decrease in the correct classification rate with the increase in the exponent value showed that the data cluster was linear. Overfitting to training data was observed in the tests that were run with Support Vector Machines and IBK, which has a high classification power.

Benzer Tezler

  1. Online nonlinear modeling for big data applications

    Büyük veri uygulamaları için onlıne non lineer olmayan modelleme

    FARHAN KHAN

    Doktora

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. SÜLEYMAN SERDAR KOZAT

  2. Makine öğrenmesi tekniklerinin bütçe verimliliğine uygulanması üzerine bir çalışma

    A study on the application of machine learning techniques to budget efficiency

    GÖKSEL KIVANÇ DEMİREL

    Doktora

    Türkçe

    Türkçe

    2022

    İşletmeİstanbul Kültür Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. ALİ ŞEN

  3. Ağaç temelli makine öğrenmesi yöntemlerinin karşılaştırılması ve hastalık tanısı için uygulanması

    Comparison of tree-based machine learning methods and its application to diagnosis

    YUNUS EMRE CEYLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    İstatistikMuğla Sıtkı Koçman Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. ERALP DOĞU

  4. Makine öğrenmesi sınıflama algoritmalarıyla kalp yetersizliği mortalitesinin tahminlenmesi

    Prediction of heart failure mortality by machine learning classification algorithms

    USAME ÖMER OSMANOĞLU

    Doktora

    Türkçe

    Türkçe

    2021

    BiyoistatistikEskişehir Osmangazi Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. FEZAN MUTLU

  5. Gödel makinelerinde öğrenme sorunu

    Learning problem in Gödel machines

    ABDULLAH HANZALE KORKMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Felsefeİstanbul Üniversitesi

    Sistematik Felsefe ve Mantık Ana Bilim Dalı

    PROF. DR. ÖZGÜÇ GÜVEN