Example-dependent cost-sensitive gradient boosting machines for credit scoring
Kredi skorlama için örnek-bağımlı maliyet-duyarlı gradyan artırma makineleri
- Tez No: 761205
- Danışmanlar: DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, İstatistik, Computer Engineering and Computer Science and Control, Science and Technology, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 56
Özet
Birçok makine öğrenmesi algoritması maliyet duyarsız kayıpları azaltmaya çalışsa da, birçok gerçek dünya uygulaması yanlış sınıflandırmanın sınıflara bağlı olarak farklı maliyetler oluşturduğu, maliyet-duyarlı yöntemlerin kullanılmasını gerektirir. Yanlış sınıflandırma maliyetlerine ek olarak, veri setleri içindeki örnekler aynı olmayan maliyetlere sahip olabilir, bu da örnek-bağımlı maliyet duyarlı öğrenme problemidir. Örneğin kredi skorlamada, yanlışlıkla reddedilen iyi bir müşteri ile onaylanan finansal durumu kötü olan bir müşterinin yaratacağı maliyetler farklıdır. Buna ek olarak, farklı miktarlarda kredilerin başvuranlara sağlanması, kredi skorlamayı örnek-bağımlı hale getirir. Diğer bir deyişle, 100M$'lık bir kredi ile 1M$'lık bir kredinin yaratacağı maliyetler eşit değildir. Bu problemi çözmek için, tezde örnek-bağımlı maliyet-duyarlı bir kayıp fonksiyonu öneriliyor. Önerilen kayıp fonksiyonu ile maliyet duyarlılık öğrenme sürecinde çözülüyor. Bu çözüme, Gradyan Artırma Makineleri'nin geleneksel kayıp fonksiyonunu, önerilen kayıp fonksiyonu ile değiştirerek ulaşıyoruz. Bu değişim ile Gradyan Artırma Makineleri'ni örnek-bağımlı maliyet-duyarlı hale getiriyoruz. Öerdiğimiz algoritmayı kredi miktarlarını içeren iki gerçek dünya veri setinde ve sentetik veri setlerinde deniyoruz. Algoritmayı, maliyet-duyarsız algoritmalarla, daha önce önerilen maliyet duyarlılığı öğrenme sürecinde halletmeye çalışan örnek-bağımlı maliyet-duyarlı sınıflandırma algoritmalarıyla, maliyet duyarsız algoritmaları maliyet-duyarlı hale getiren Thresholding isimli ön-işleme ve Oversampling isimli son-işleme yöntemleri ile karşılaştıyoruz. Sonuçlar gösteriyor ki, finansal tasarruf açısından yöntemimiz bu dört yöntemden daha iyi çalışıyor.
Özet (Çeviri)
Although most of machine learning algorithms try to minimize cost-insensitive losses, many real world applications require cost-sensitive approaches where misclassification costs among classes differ from each other. In addition to misclassification costs, examples in data sets may have nonidentical costs which is a case of example-dependent cost-sensitive learning. For example in credit scoring, mistakenly rejecting a good borrower and approving a bad client with financial distress result in different costs. Additionally, providing variety of credit amounts to applicants makes the credit scoring example-dependent. In other words, falsely approving 100M$ and 1M$ loans produce unequal costs. To overcome this problem, this thesis proposes an example-dependent cost-sensitive loss function. With the introduced loss function, cost sensitivity is handled during the learning process. This is achieved by changing the traditional loss function of Gradient Boosting Machines with the proposed one to make it Example Dependent Cost-Sensitive Gradient Boosting Machines. The proposed algorithm is tested on two real world data sets that include credit amounts and synthetically generated data sets. The algorithm is compared with cost-insensitive learners, previously proposed example-dependent cost-sensitive classifiers that handles cost-sensitivity during learning, a post-processing method called Thresholding and a pre-processing method Oversampling to make cost-insensitive classifiers cost-sensitive. Results show that our method outperforms those four methods in terms of financial savings.
Benzer Tezler
- Veri madenciliği yöntemleri kullanarak hava kirliliği tahmini
Prediction of air pollution using data mining methods
KIYMET KAYA
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
- A mixed-integer programming approach to example-dependent cost-sensitive learning
Örneklere-bağlı maliyet-duyarlı öğrenmeye karışık tamsayı doğrusal programlama yaklaşımı
TARKAN TEMİZÖZ
Yüksek Lisans
İngilizce
2021
Endüstri ve Endüstri MühendisliğiBoğaziçi ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN
- Yeni bir inşaat malzemesi olarak geotekstiller
Geotextiles as a new construction material
Y.OKAN CİNDEMİR
Yüksek Lisans
Türkçe
1997
İnşaat Mühendisliğiİstanbul Teknik ÜniversitesiGeoteknik Mühendisliği Ana Bilim Dalı
PROF. DR. REMZİ ÜLKER
- Termaller ve cumuluslerde meteorolojik parametrelerin ölçülmesi, analizi ve konvektif yapının modellenmesi
Measurements and analysis of the meteorological parameters in thermals and cumulus clouds and modelling of the conventive structure
ZAFER ASLAN
- Development of a dynamic maintenance algorithm with multiple scenarios: A case study for surface mining
Çoklu senaryoya sahip bir dinamik bakım-onarım algoritması geliştirilmesi: Bir açık işletme uygulaması
MERVE ÖLMEZ TURAN
Yüksek Lisans
İngilizce
2019
Maden Mühendisliği ve MadencilikOrta Doğu Teknik ÜniversitesiMaden Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ONUR GÖLBAŞI