Geri Dön

Example-dependent cost-sensitive gradient boosting machines for credit scoring

Kredi skorlama için örnek-bağımlı maliyet-duyarlı gradyan artırma makineleri

  1. Tez No: 761205
  2. Yazar: İLKER KURTULUŞ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, İstatistik, Computer Engineering and Computer Science and Control, Science and Technology, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 56

Özet

Birçok makine öğrenmesi algoritması maliyet duyarsız kayıpları azaltmaya çalışsa da, birçok gerçek dünya uygulaması yanlış sınıflandırmanın sınıflara bağlı olarak farklı maliyetler oluşturduğu, maliyet-duyarlı yöntemlerin kullanılmasını gerektirir. Yanlış sınıflandırma maliyetlerine ek olarak, veri setleri içindeki örnekler aynı olmayan maliyetlere sahip olabilir, bu da örnek-bağımlı maliyet duyarlı öğrenme problemidir. Örneğin kredi skorlamada, yanlışlıkla reddedilen iyi bir müşteri ile onaylanan finansal durumu kötü olan bir müşterinin yaratacağı maliyetler farklıdır. Buna ek olarak, farklı miktarlarda kredilerin başvuranlara sağlanması, kredi skorlamayı örnek-bağımlı hale getirir. Diğer bir deyişle, 100M$'lık bir kredi ile 1M$'lık bir kredinin yaratacağı maliyetler eşit değildir. Bu problemi çözmek için, tezde örnek-bağımlı maliyet-duyarlı bir kayıp fonksiyonu öneriliyor. Önerilen kayıp fonksiyonu ile maliyet duyarlılık öğrenme sürecinde çözülüyor. Bu çözüme, Gradyan Artırma Makineleri'nin geleneksel kayıp fonksiyonunu, önerilen kayıp fonksiyonu ile değiştirerek ulaşıyoruz. Bu değişim ile Gradyan Artırma Makineleri'ni örnek-bağımlı maliyet-duyarlı hale getiriyoruz. Öerdiğimiz algoritmayı kredi miktarlarını içeren iki gerçek dünya veri setinde ve sentetik veri setlerinde deniyoruz. Algoritmayı, maliyet-duyarsız algoritmalarla, daha önce önerilen maliyet duyarlılığı öğrenme sürecinde halletmeye çalışan örnek-bağımlı maliyet-duyarlı sınıflandırma algoritmalarıyla, maliyet duyarsız algoritmaları maliyet-duyarlı hale getiren Thresholding isimli ön-işleme ve Oversampling isimli son-işleme yöntemleri ile karşılaştıyoruz. Sonuçlar gösteriyor ki, finansal tasarruf açısından yöntemimiz bu dört yöntemden daha iyi çalışıyor.

Özet (Çeviri)

Although most of machine learning algorithms try to minimize cost-insensitive losses, many real world applications require cost-sensitive approaches where misclassification costs among classes differ from each other. In addition to misclassification costs, examples in data sets may have nonidentical costs which is a case of example-dependent cost-sensitive learning. For example in credit scoring, mistakenly rejecting a good borrower and approving a bad client with financial distress result in different costs. Additionally, providing variety of credit amounts to applicants makes the credit scoring example-dependent. In other words, falsely approving 100M$ and 1M$ loans produce unequal costs. To overcome this problem, this thesis proposes an example-dependent cost-sensitive loss function. With the introduced loss function, cost sensitivity is handled during the learning process. This is achieved by changing the traditional loss function of Gradient Boosting Machines with the proposed one to make it Example Dependent Cost-Sensitive Gradient Boosting Machines. The proposed algorithm is tested on two real world data sets that include credit amounts and synthetically generated data sets. The algorithm is compared with cost-insensitive learners, previously proposed example-dependent cost-sensitive classifiers that handles cost-sensitivity during learning, a post-processing method called Thresholding and a pre-processing method Oversampling to make cost-insensitive classifiers cost-sensitive. Results show that our method outperforms those four methods in terms of financial savings.

Benzer Tezler

  1. Veri madenciliği yöntemleri kullanarak hava kirliliği tahmini

    Prediction of air pollution using data mining methods

    KIYMET KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ

  2. A mixed-integer programming approach to example-dependent cost-sensitive learning

    Örneklere-bağlı maliyet-duyarlı öğrenmeye karışık tamsayı doğrusal programlama yaklaşımı

    TARKAN TEMİZÖZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Endüstri ve Endüstri MühendisliğiBoğaziçi Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN

  3. Yeni bir inşaat malzemesi olarak geotekstiller

    Geotextiles as a new construction material

    Y.OKAN CİNDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    Geoteknik Mühendisliği Ana Bilim Dalı

    PROF. DR. REMZİ ÜLKER

  4. Termaller ve cumuluslerde meteorolojik parametrelerin ölçülmesi, analizi ve konvektif yapının modellenmesi

    Measurements and analysis of the meteorological parameters in thermals and cumulus clouds and modelling of the conventive structure

    ZAFER ASLAN

    Doktora

    Türkçe

    Türkçe

    1987

    Meteorolojiİstanbul Teknik Üniversitesi

    DOÇ.DR. SÜREYYA ÖNEY

  5. Development of a dynamic maintenance algorithm with multiple scenarios: A case study for surface mining

    Çoklu senaryoya sahip bir dinamik bakım-onarım algoritması geliştirilmesi: Bir açık işletme uygulaması

    MERVE ÖLMEZ TURAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Maden Mühendisliği ve MadencilikOrta Doğu Teknik Üniversitesi

    Maden Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ONUR GÖLBAŞI