An application of credit scoring based on logistic regression
Lojistik regresyon kullanılarak bir kredi skorlama uygulaması
- Tez No: 602647
- Danışmanlar: DOÇ. DR. WOLFGANG HÖRMANN
- Tez Türü: Yüksek Lisans
- Konular: Ekonometri, Endüstri ve Endüstri Mühendisliği, İstatistik, Econometrics, Industrial and Industrial Engineering, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 284
Özet
Verileri işleyerek katma değer üretmenin öneminin her geçen gün arttığı günümüzde, müşterileri hakkında çok farklı kaynaklardan verilere ulaşabilen finansal kurumlar da veriye dayalı karar alma kültürünü oluşturubilmek ve geliştirebilmek için artan miktarlarda kaynak ayırıyorlar. Büyük veri analitiği ekipleri kurulup, çalışanlar gerekli şekilde eğitiliyor, verilerin toplanıp islenebileceği sistemlere büyük paralar harcanıyor. Son yıllarda verilerin yoğun olarak kullanıldığı ve önemli fayda sağlanan alanlardan biri, kredi veren kurumlar için kredi skorlama modelleri olarak dikkat çekiyor. Geleneksel bankacılıkta her bir kredi başvurusu tek tek incelenip ona göre onay ya da red kararı alınıyorken, artık bankalar portföylerindeki müşterilerin kredi ödeme davranışlarıyla, çok farklı kaynaklardan elde edebildikleri verilerle oluşturdukları açıklayıcı degişkenler arasında çesitli makina öğrenmesi metodları kullanarak ilişkiyi tespit ediyorlar. Böylelikle hem süreci otomatize ediyorlar hem de daha objektif, güvenilir ve özellikle de düzenleyici kurumların talep ettikleri doğrultuda regülasyonlara uygun şekilde başvuru değerlendirme süreçlerini yönetiyorlar. Bu tezde de kredi skorlama sistemlerinde öteden beri en sık kullanılan öngörü tekniklerinden lojistik regresyon kullanılarak bir çalışma yürütüldü. Çalışma temel olarak üç ana yapısal bloktan oluşuyor. İlk olarak, üye olan finansal kurumların müşterilerinin kredi geçmişleri ve ödeme davranışlarıyla ilgili verileri paylaştıkları kredi kayıt bürosu kayıtlarından, model geliştirme periyodu olarak belirlenen süreçte kullandırılmış olan tüketici kredisi kayıtları çekilerek, herhangi bir kuruluşun müşterilerine ve kredi portföyüne ilişkin gizli bilgilerini açığa çıkarmayacak şekilde bir veri seti hazırlandı. İkinci olarak, hazırlanan veri setinin, tüm sektörü temsil edebilecek şekilde olduğunun tespiti sonrası alınan örneklemden, lisansları, kurulumları ve yönetilmeleri için büyük bütçeler ayrılan popüler veri analitiği ve istatistiksel programları kullanılmadan, bu tür bir çalışmanın, R kullanılarak, açık kaynak kodlu programlarla da yürütülebileceği gösterildi.Görsel ve sayısal analizlerle birlikte model geliştirme sürecinde ihtiyaç duyulabilecek algoritmalar ve fonksiyonlar kapsamlı biçimde ele alındı. Üçüncü olarak, kategorik hale getirilmiş degişkenler için sektör pratiğinde çok kullanılan kanıt ağırlığı (“Weight of Evidence”, WOE) yönteminin etkileşim terimleri için nasıl otomatik olarak hesaplanabileceği gösterildi ve geliştirme setinde görülmeyen kategorik değişken konfigürasyonları için, komşular yaklaşımı olarak isimlendirdiğimiz bir yöntemle nasıl kanıt ağırlığı hesaplanabileceğine ilişkin bir yöntem önerildi. Sonuç olarak, bu çalışmada, kurum bağımsız veriler kullanılarak uçtan uca bir kredi skorlama modelinin nasıl geliştirileceği ayrıntılarıyla ele alındı.
Özet (Çeviri)
As the importance of processing data to extract added value continuously grows, financial institutions, which are able to collect customer data from a variety of sources, invest more and more resources to move towards a data-based decision-making approach. Large data analytics teams are structured, employees are trained as required, and large amounts of money are spent on systems where data can be collected and processed. One of the areas where data have been used extensively in recent years and tremendous benefits are provided is credit scoring models for lending institutions, remarkably. In traditional banking, each loan application has been assessed exclusively, and approval or rejection decisions are made accordingly. Banks are now able to determine the relationship between credit payment behaviors of customers in their portfolios and explanatory variables they generate with data they can obtain from many different sources using various machine learning methods. Subsequently, they not only automate but also manage application evaluation processes in a way that is more objective, reliable and in accordance with the regulations required by the regulatory institutions. In this thesis, a study was conducted using logistic regression which is one of the most frequently used prediction techniques in credit scoring systems. The study mainly consists of three pillars. Firstly, a data set of consumer loan records was prepared for the specified model development period using the credit bureau data where member financial institutions share credit histories and payment behaviors of their customers. We paid utmost attention not to reveal any confidential information about customers and credit portfolio of any institution. Secondly, after determining that the prepared data set is capable of representing the whole sector, a random sample of records was selected, and it has been shown that such a study can be carried out with open source programs like R, without using popular data analytics and statistical programs, where large budgets are allocated for their licenses, installations and maintenance. In addition to visual and numerical analyses, algorithms and functions needed in the model development process were examined extensively. Thirdly, Weight of Evidence (WOE) method is widely used by practitioners for categorized variables. In this study, automatic calculation of WOE versions of interaction terms is discussed, and the so-called Neighbours' approach is proposed to calculate WOE values of covariate patterns that are not observed in the development data set. In short, we elaborated in this study on how to develop an end-to-end credit scoring model using data which can portray the whole credit sector in a given period.
Benzer Tezler
- Finansal zorluğa düşecek firmaların önceden tahmini ve ülkemizde bir uygulama
Predicting financial failure and an application in Turkey
MEHMET CEVDET ÇAĞLAR
- Tüketici kredisi taleplerinin yapay öğrenme modelleriyle değerlendirilmesi
Evaluation of consumer credit requests via machine learning models
NECATİ ALPEREN
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA KAYA
- Makine öğrenmesi yöntemleri ile kredi risk analizi
Credit risk analysis using machine learning algorithms
SACİDE KALAYCI
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA ERSEL KAMAŞAK
- Derecelendirme modelleri ve skor kart uygulaması için istatistiksel model önerisi
A statistical model proposal for rating models and score card application
TUĞBA TUNA
Yüksek Lisans
Türkçe
2019
BankacılıkYıldız Teknik Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. İBRAHİM DEMİR
- Doğrusal ve lojistik regresyon yöntemleri ile kredi skorlama sistemleri ve bir uygulama
Credit scorecards with linear and logistic regression and an aplication
MELİH EMRE TURAN
Yüksek Lisans
Türkçe
2019
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. SEMRA ERPOLAT TAŞABAT