Büyük veride çizge teorisiyle temerrüt tahmini ve makine öğrenmesi modellerinin yorumlanması

Default prediction with graph theory in big data and interpretation of machine learning models

PDF İndir

Tez No: 702921
Yazar: MUSTAFA YILDIRIM
Danışmanlar: PROF. DR. SUAT ÖZDEMİR
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 85

Özet

Son yıllarda, artan veri kaynağı sayısı, veri toplama, depolama ve işleme maliyetlerinin düşmesi ve veri analizi için yeni yöntemlerin geliştirilmesi büyük veri olarak adlandırılan yeni bir dönemin başlamasına sebep olmuştur. Büyük veri teknolojileriyle daha önce yönetilemeyecek ve işlenemeyecek boyuttaki veriler işlenerek veri içinde saklı olan kıymetli bilgiler keşfedilebilir hale gelmiştir. Bu çalışmada literatürde uzun yıllardır çalışılan ve önemi her geçen gün artan şirketlerin temerrüde düşme tahmini için büyük veri teknolojinden faydalanılmıştır. Bu kapsamda büyük veri platformu üzerinde Makine Öğrenmesi (Machine Learning / ML) ve çizge (graf) teorisinden faydalanarak iki farklı temerrüt tahmin modeli önerilmiştir. Çalışmada, Türkiye'de 2010 ve 2018 yılları arasında faaliyet gösteren 1 milyondan fazla reel sektör şirketinin kredi, bilanço ve fatura veri seti kullanılmıştır. İlk modelde istatistik ve ML algoritmaları kullanılarak kredi ve bilanço veri setleri için iki alt model oluşturulmuş ve bu alt modellerden elde edilen olasılık skorları nihai modelde birleştirilerek en iyi tahmine ulaşılmıştır. İkinci önerilen modelde ise çizge teorisinden faydalanılmıştır. Temerrüde düşmede şirketlerin iç dinamiklerinin yanı sıra ticari ilişki içinde oldukları tedarikçi ve müşterilerinin de önemli olduğu temel varsayımdan yola çıkılmıştır. Bu nedenle, şirketlerin fatura verisi üzerinden ticari ilişkiyi gösteren çizge oluşturulmuştur. Çizge üzerinden temerrüt tahminine fayda sağlayacak yeni değişkenler üretilmiştir. İkinci modelde bu değişkenler kullanılmıştır. Sonuçlara bakıldığında her iki modelin sırasıyla 0,81 ve 0,82 Eğri Altında Kalan Alan (Area Under Curve /AUC) skor elde ettiğini ortaya koymuştur. İkinci modelin daha yüksek tahmin başarısı sağlaması çizge üzerinden elde edilen yeni değişkenlerin temerrüt tahminine katkı sağladığını göstermiştir. Tez kapsamında son olarak temerrüt tahminde karmaşık ML algoritmalarının kullanılmasına getirilen en önemli eleştiri olan sonuçların açıklanabilir olmamasına Yorumlanabilir Makine Öğrenmesi (Interpretable Machine Learning / IML) algoritmalarıyla çözüm aranmıştır. Sonuçlar IML'nin karmaşık ML algoritmalarının açıklanmasında tutarlı ve güvenilir çıktılar verdiğini göstermektedir.

Özet (Çeviri)

In recent years, the increase in the number of data sources, the decrease in the data collection, storage and processing costs, and the development of new methods for data analysis have led to the beginning of a new era called big data. Big data technologies have enabled the process of the data that could not be managed and processed before and explore valuable information hidden in the data. In this study, big data technology is used for the default prediction of companies. Default prediction has been studied for many years in the literature and its importance is increasing day by day. Two different default prediction models are proposed using Machine Learning (ML) and graph theory on a big data platform. In the study, credit, balance sheet and invoice datasets of more than 1 million real sector companies operated in Turkey between 2010 and 2018 are used. In the first model, two sub-models are created for credit and balance sheet datasets by using statistics and ML algorithms, and the probability scores obtained from these sub-models are combined to reach the best estimate in the final model. In the second model, graph theory is employed. It is based on the basic assumption that the internal dynamics of the companies, as well as the suppliers and customers, with whom they have commercial relations, are also important in the default of the companies. Therefore, a graph showing the commercial relationship is created using the invoice data of the companies. New variables that help explore default prediction are generated on the graph. These variables are further used in the second model. The results showed that both models achieved 0.81 and 0.82 Area Under Curve (AUC) scores, respectively. The higher prediction success of the second model showed that the new variables obtained from the graph contributed to the default prediction. Within the scope of the thesis, finally, a solution has been sought with Interpretable Machine Learning (IML) algorithms for the interpretability of the results, which is the most important criticism regarding the use of complex ML algorithms in default prediction. The interpretability results also indicated that IML gives consistent and reliable outcomes in explaining complex ML models.

Benzer Tezler

Tez No
310564
Destek vektör regresyonu ile PID kontrolör tasarımı
Design of PID controller via support vector regression
KEMAL UÇAK
Yüksek Lisans
Türkçe
2012
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLAY ÖKE
Tez No
511343
Invitational leadership practices at a school of foreign languages from a gendered perspective: A case study
Bir yabancı diller yüksek okulundaki katılımcı liderlik uygulamalarının toplumsal cinsiyet çerçevesinde incelenmesi: Bir durum çalışması
ZÜBEYDE DURNA
Yüksek Lisans
İngilizce
2018
Eğitim ve Öğretim Orta Doğu Teknik Üniversitesi
Kadın Çalışmaları Ana Bilim Dalı
PROF. DR. GÖLGE SEFEROĞLU
Tez No
39285
Solving image procesing problems by using nonstandart regularization
Standart olmayan düzgünleştirme kullanarak görüntü işleme problemlerinin çözümü
TOLGA ACAR
Yüksek Lisans
İngilizce
1994
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
DOÇ.DR. MUHİTTİN GÖKMEN
Tez No
923153
Graphlet mining in big data
Büyük veride alt çizge madenciliği
BÜŞRA ÇALMAZ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İzmir Yüksek Teknoloji Enstitüsü
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BELGİN ERGENÇ BOSTANOĞLU
Tez No
517317
Distributed bipartite graph clustering
İki parçalı çizge demetleme
RESUL TUGAY
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ

Geri Dön