Geri Dön

Classification of imbalanced credit data sets with borrower-specific cost-sensitive algorithms

Dengesiz kredi veri setlerinin borçluya özgü maliyete duyarlı algoritmalarla sınıflandırılması

  1. Tez No: 806696
  2. Yazar: YASEMİN YAMAN KANMAZ
  3. Danışmanlar: PROF. DR. AYŞE SEVTAP KESTEL, PROF. DR. ŞAHAP KASIRGA YILDIRAK
  4. Tez Türü: Doktora
  5. Konular: Bankacılık, Maliye, Matematik, Banking, Finance, Mathematics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Uygulamalı Matematik Enstitüsü
  11. Ana Bilim Dalı: Finansal Matematik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 189

Özet

Dengesiz kredi veri setlerinde eşit olmayan sınıf dağılımları farklı maliyetlere yol açan iki tür yanlış tahmin hatası ile sonuçlanmaktadır. Bunlar, yanlış sınıflandırılan batık krediler için parasal kayıp ve yanlış sınıflandırılan kredisini ödeyecekler için kaçırılan fırsat maliyeti olarak faiz geliridir. Bu çalışma, belirtilen sorunları ele alarak kredi veri setlerinde maliyete duyarlı öğrenme ve dengesiz veri sınıflandırması asitmetrilerine yönelik borçluya özgü maliyet/risk parametrelerini çözebilen yeni bir yaklaşım önermektedir. Çalışmanın temel amacı, her kredi başvurucusunun verilerinde saklı olan bilgileri ortaya çıkararak risk seviyesini gösteren bir ağırlık oluşturmak ve kayıp fonksiyonlarını bu ağırlık ile güçlendirmek ve çoğunluk sınıfının baskınlığını kırmaktır. Kredi almak için başvuranların temerrüt olasılıkları, risk seviyeleri hakkında değerli bilgiler sağlar. Bu çalışmayla, sınıfların veri büyüklük oranları yerine temerrüt risk seviyelerine dayalı her bir borçluya özgü maliyet/risk parametreleri önerilmektedir. Kredi ödememe olasılıkları, örneklenmiş alt veri kümeleriyle tahmin edilmekte ve bu aşamadan önce, Simüle Edilerek Kuvvetlendirilmiş (Annealing) stokastik süreciyle örneklenmiş alt veri kümelerinin en uygun sınıf oranı belirlenmektedir. Krediye başvuranların borçlarını ödememe olasılıklarını tahmin etmek için, lojistik regresyonlar ve derin öğrenmeye dayalı Grafik Sinir Ağları ve Grafik Dikkat Ağları gibi doğrusal olmayan karmaşık modeller kullanılmaktadır. Üç adet maliyet/risk parametresi, sınıf bazındaki kayıpları yine sınıf bazında toplam risk seviyelerine dayalı eşitleme hedefiyle oluşturulmaktadır. AdaBoost, XGBoost ve ANN algoritmaları daha sonra bu yeni parametreleri içerecek şekilde değiştirilerek sekiz kredi veri seti üzerinde ampirik analiz gerçekleştirilmiştir. Bu algoritmaların başarısı, özellikle sınıf oranları giderek artan veri kümelerinin kategorizasyonunda daha belirgindir. Karşılaştımalı analizler, yeni maliyet duyarlı algoritmalarla parasal kayıplardaki azalmanın verilmiş Özgüllük değerlerinde % 33.7'ye ulaşabildiğini göstermektedir.

Özet (Çeviri)

The unequal class distributions result in two types of prediction errors that incur different costs in imbalanced credit data sets. These are monetary losses for the misclassified defaults and opportunity cost of interest income for the misclassified non-defaults. Addressing these issues, this study proposes a novel approach to cost-sensitive learning and imbalanced data classification in credit data sets, using new borrower (instance)-specific cost/risk parameters to solve these two types of asymmetries. The main objective of this study is to create a weight-signaling risk level for each instance by revealing instance-embedded information to strengthen ordinary algorithms with the generated weight and breaking the dominance of the majority class in the loss functions. The default probabilities of credit applicants provide valuable information about their risk level, and thus new instance-specific cost/risk parameters based on their default risk levels are proposed instead of class-specific ratios. Default probabilities are estimated with sampled sub-datasets, and before this step, analyses for the optimal class ratio of sub-datasets are conducted with the Simulated Annealing stochastic process. To estimate the default probabilities, non-linear complex models like logistic regressions, deep learning-based Graph Neural Networks, and Graph Attention Networks are employed. Three cost/risk parameters are generated with the target of equalizing the class losses based on their class-based default risk level aggregations. AdaBoost, XGBoost, and ANN algorithms are then modified to incorporate these new parameters and the empirical analyses are conducted using eight credit data sets. The success of the proposed algorithms is particularly evident in the classification of data sets where the class ratios increase. The comparison analyses indicate that given Specificity values, the decrease in the monetary loss by new cost-sensitive algorithms can reach 33.7 % in the data set with the highest class imbalance.

Benzer Tezler

  1. Ağaç tabanlı sınıflandırma tekniklerinin dengeli olmayan veri setlerinde incelenmesi: Kredi risk örneği

    Examination of tree-based techniques in imbalanced data sets: The example of credit risk

    ALİ ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    EkonometriDokuz Eylül Üniversitesi

    Ekonometri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERKAN ARAS

  2. Sınıf dengeleme yöntemlerinin makine öğrenmesi teknikleri üzerine etkisi: Kredi risk örneği

    The effect of class balancing methods on machine learning techniques: Example of credit risk

    MİGRAÇ ENES FURKAN MİLLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    BankacılıkDokuz Eylül Üniversitesi

    Ekonometri Ana Bilim Dalı

    PROF. DR. İPEK DEVECİ KOCAKOÇ

  3. Makro finansal programlama ve Türkiye deneyi

    Macro financial programming and the Turkish experience

    MEHMET KERİM GÖKAY

    Doktora

    Türkçe

    Türkçe

    1994

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    DOÇ.DR. İLBAN ONUR

  4. Dengesiz veri kümeleriyle sınıflandırma için kümelemeye dayalı yeni bir hibrit metodoloji

    A novel hybrid methodology based on clustering for classification with imbalance datasets

    ABDULLAH MARAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    DOÇ. DR. ÇİĞDEM EROL

  5. Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi

    Analyzing the performance of classification methods using generated and real datasets

    ÇİĞDEM KADAİFÇİ YANMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. EYLEM DENİZ HOWE