Geri Dön

Binary classification in an imbalanced dataset: An application on credit customers of a Turkish bank

Dengesiz bir veri kümesinde ikili sınıflama: Bir Türk bankası kredi müşterileri üzerinde bir uygulama

  1. Tez No: 810733
  2. Yazar: MEHMET EMRE ÖZENGEN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ TAMER UÇAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bankacılık, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Banking, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Yaşam Boyu Öğrenme Ana Bilim Dalı
  12. Bilim Dalı: Büyük Veri Analitiği ve Yönetimi Bilim Dalı
  13. Sayfa Sayısı: 58

Özet

Kredi riski değerlendirmesi, kredi kuruluşları için büyük önem taşımakta ve birçok akademik çalışma, temerrüde düşme eğilimindeki müşterileri tahmin etmeyi amaçlamaktadır. Çalışmamızda, uzun vadeye odaklanmak yerine bir ay içinde gecikme yaşama ihtimali yüksek olan müşterileri tahmin etmek için yaygın sınıflandırma algoritmaları ile ikili sınıflandırma modelleri geliştirdik. Veri kümemizin oldukça dengesiz yapısı nedeniyle, makine öğrenmesi algoritmalarından önce SMOTE aşırı örnekleme tekniğini kullandık. Modeller üç farklı yaklaşımda karşılaştırılmıştır. Hem aşırı örnekleme hem de çapraz doğrulama kullanan gelişmiş yaklaşımımızda, NB dışındaki tüm modeller, kıyaslama değeri olan %90'dan daha yüksek doğruluk elde etti. Ayrıca AUC değerleri de %84 ile %95 arasında değişiyordu. Aşırı örnekleme yapılmadığında, NB dışındaki modellerin etkisiz olduğu görüldü. Son yaklaşımda, çapraz doğrulamanın atlanmasının sonuçlarda dikkate değer farklılıklara sebep olduğu görülmüş, çapraz doğrulamanın önemi anlaşılmıştır.

Özet (Çeviri)

Credit risk assessment is of great importance for credit institutions, and many academic studies aim to predict default-prone customers. In our study, we developed binary classification models with common classification algorithms that predict customers likely to experience delays within a month rather than focusing on the long term. Due to the highly imbalanced structure of our dataset, the SMOTE oversampling technique is employed before the machine learning algorithms. We compared the models in three different approaches. In our advanced approach using both oversampling and cross-validation, all models except NB achieved accuracy higher than our benchmark value of 90%. In addition, their AUC values ranged from 84% to 95%. However, when no oversampling was performed, the results showed that the models except NB proved to be ineffective. In the other approach, omitting crossvalidation led to remarkable differences in the results, highlighting the importance of cross-validation.

Benzer Tezler

  1. Havayolu yolculuk deneyimini iyileştirmek için makine öğrenmesi yöntemleriyle uçuş gecikmesi tahmini

    Machine learning techniques for enhancing airline passenger experience through flight delay prediction

    ESMA ERGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  2. IoT ağları için yeni bir saldırı tespit sistemi tasarımı

    Design of a new intrusion detection system for IoT networks

    TUĞBA ULUSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. ÜNAL ÇAVUŞOĞLU

  3. Imbalanced learning techniques: Experiments on NCAA college basketball league player statistics dataset

    Dengesiz veride öğrenme: NCAA kolej basketbol ligi oyuncu istatistikleri veri seti üzerinde uygulamalar

    EMİR GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    İstatistikOrta Doğu Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. BARIŞ SÜRÜCÜ

  4. Exploiting clustering patterns in training sets to improve classification performance of fully connected layers

    Tam bağlantılı katmanların sınıflandırma performansını iyileştirmek için eğitim setlerindeki kümeleme örüntülerinden faydalanma

    TOLGA AHMET KALAYCI

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. UMUT ASAN

  5. Sağlık verileri üzerinde makine öğrenmesi ile hastalık sınıflandırması: RNA-SEQ, Tiroid ve cilt kanseri uygulamaları

    Disease classification on health data using machine learning: Applications on RNA-SEQ, Thyroid, and skin cancer

    FERDİ GÜLER

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    BiyoistatistikGiresun Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. MELİH AĞRAZ