Geri Dön

Cost sensitive learning algorithms

Maliyet duyarlılık öğrenme algoritmaları

  1. Tez No: 234133
  2. Yazar: GÜLAY KÖSE
  3. Danışmanlar: YRD. DOÇ. DR. OLCAY TANER YILDIZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2008
  8. Dil: İngilizce
  9. Üniversite: Işık Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 55

Özet

Bu tez, maliyet duyarlılık öğrenme algoritmalarını içermektedir. Algoritmalarkullanılarak sınıf öğrenme hataları ve yanlış tahmin edilen sınıfların maliyetleri hesaplanmaktadır. Veri madenciliğinde elimizde hangi sınıfta olduğunu bildiğimiz verileri kullanarak, hangi sınıfta olduğunu bilmediğimiz verinin hangi sınıftan olduğunu algoritmaları kullanarak tahmin edebiliriz. Sınıflandırmadaki amaç farklı sınıflardan oluşan bilgileri doğru sınıflandırmak için doğru modeller kurmak. Verinin dağılımına gore bir model bulunur. Bulunan model, başarımı belirlendikten sonra niteliğin gelecekteki ya da bilinmeyen değerini tahmin etmek için kullanılır. Bazı veri grupları için iyi sınıflandırma sağlayan algoritma başka veri grupları için iyi sınıf tahmin edemeyebilir. Hangi tip algoritma hangi tip verilerde sınıf tahmin etme hatası düşük onları elde ettik.Tezde değişik sayıda özellikleri, sınıfları ve veri grupları kullanıldı. Bu veri grupları 5 değişik algoritma kullanılarak eğitildi, doğrulandı ve test edildi. Sınıflandırma için kullanılan algoritmalar Logistic Discrimination, K-Nearest Neighbor, Multilayer Perceptron, C4.5 Decision Tree ve Nearest Mean algoritması. Bu methodlar çok büyük, orta derecede büyük sayıda ve küçük sayıda veri gruplarına uygulandı. Deneylerden pekçok sonuçlar elde edildi. Grafikler çizildi. Bu sonuçlar gösteriyorki her durumda en iyi sonucu veren algoritma yok. Degişik algoritmalar değişik veri gruplarının sınıflarını iyi tahmin edebiliyor. Algoritmalarda değişik yüzdelerde veri kullanıldı ve yüzdesine göre eşit sayıda sınıflar kullanıldı. Herbir veri grupları için hatalar ve maliyetler hesaplandı. Algoritmaların sınıflandırılma performansı hata oranlarına göre değerlendirildi. Pekçok uygulamada yanlış sınıflandırma aynı değerde değil. Bunun için çok sınıflı ağırlık maliyet algoritmaları kullanıldı. Maliyet modelleri maliyet matrikslerini oluşturmak için kullanıldı. Maliyet hesaplamak icin kullanılan maliyet algoritmaları Class Frequency, MaxCost ve AvgCost.

Özet (Çeviri)

This thesis studies the cost sensitive learning algorithms that calculate the class learning algorithms errors and costs. Data mining is the automated extraction of hidden predictive information from databases that can be applied to predict and diagnose many illnesses. Specifically, accurate classification of illnesses is a very important issue for the treatment of illnesses. The goal of classification is to build a set of models that can correctly predict the class of the different objects. Some algorithms produce better results than others. It is necessary to analyze systematically the performance of classifiers using a variety of datasets.In this thesis, many features were explored and 10 datasets were classified by using 5 classification algorithms. Logistic Discrimination Algorithm (LD), K-Nearest Neighbor Algorithm (KNN), Multilayer Perceptron Algorithm (MLP) and Nearest Mean algorithm and Decision Tree (C4.5) algorithms have been used for classification. These methods are applied to large and small datasets and then a large number of experiment results were obtained. The results show that there is no single algorithm that performs well in all domains. K-Nearest Neighbor Algorithm (KNN), Multilayer Perceptron (MLP), and Decision Tree (C4.5) algorithms had three steps: train, validate and test. Nearest Mean and Logistic Discrimination algorithms only had train and test steps. In these algorithms, each set had different percentage of data and had equal percentage of classes. The algorithms errors and costs were calculated for each dataset. The error rate is calculated based on the misclassified classes. The algorithms? classification performance is quantified by their error rate. In many applications, not all misclassifications have the same value. Within this thesis, multi-class weighting cost methods are also discussed. Cost models are used for composing cost matrix and experiments. Class Frequency, MaxCost and AvgCost methods were used to calculate costs.

Benzer Tezler

  1. Example-dependent cost-sensitive gradient boosting machines for credit scoring

    Kredi skorlama için örnek-bağımlı maliyet-duyarlı gradyan artırma makineleri

    İLKER KURTULUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN

  2. E-ticaret ve dijital pazarlama sektöründe makine öğrenmesi algoritmaları kullanılarak müşteri kaybı tahmini

    Customer churn prediction using machine learning algorithms in e-commerce and digital marketing industry

    YASİN SARIYILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    İstatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BARIŞ TEKİN TEZEL

  3. Classification of imbalanced credit data sets with borrower-specific cost-sensitive algorithms

    Dengesiz kredi veri setlerinin borçluya özgü maliyete duyarlı algoritmalarla sınıflandırılması

    YASEMİN YAMAN KANMAZ

    Doktora

    İngilizce

    İngilizce

    2023

    BankacılıkOrta Doğu Teknik Üniversitesi

    Finansal Matematik Ana Bilim Dalı

    PROF. DR. AYŞE SEVTAP KESTEL

    PROF. DR. ŞAHAP KASIRGA YILDIRAK

  4. Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders

    Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi

    AKRAM M.M. RADWAN

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  5. Hiperspektral görüntüleme ve makine öğrenmesi teknikleri ile küflü kuru incirlerin tahribatsız olarak tespiti

    Hyperspectral imaging and machine learning techniques for non-invasive detection of fungal contaminated dried figs

    ALİ GÜNEŞ

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUNCAY AYDOĞAN