Geri Dön

Büyük veride çizge teorisiyle temerrüt tahmini ve makine öğrenmesi modellerinin yorumlanması

Default prediction with graph theory in big data and interpretation of machine learning models

  1. Tez No: 702921
  2. Yazar: MUSTAFA YILDIRIM
  3. Danışmanlar: PROF. DR. SUAT ÖZDEMİR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 85

Özet

Son yıllarda, artan veri kaynağı sayısı, veri toplama, depolama ve işleme maliyetlerinin düşmesi ve veri analizi için yeni yöntemlerin geliştirilmesi büyük veri olarak adlandırılan yeni bir dönemin başlamasına sebep olmuştur. Büyük veri teknolojileriyle daha önce yönetilemeyecek ve işlenemeyecek boyuttaki veriler işlenerek veri içinde saklı olan kıymetli bilgiler keşfedilebilir hale gelmiştir. Bu çalışmada literatürde uzun yıllardır çalışılan ve önemi her geçen gün artan şirketlerin temerrüde düşme tahmini için büyük veri teknolojinden faydalanılmıştır. Bu kapsamda büyük veri platformu üzerinde Makine Öğrenmesi (Machine Learning / ML) ve çizge (graf) teorisinden faydalanarak iki farklı temerrüt tahmin modeli önerilmiştir. Çalışmada, Türkiye'de 2010 ve 2018 yılları arasında faaliyet gösteren 1 milyondan fazla reel sektör şirketinin kredi, bilanço ve fatura veri seti kullanılmıştır. İlk modelde istatistik ve ML algoritmaları kullanılarak kredi ve bilanço veri setleri için iki alt model oluşturulmuş ve bu alt modellerden elde edilen olasılık skorları nihai modelde birleştirilerek en iyi tahmine ulaşılmıştır. İkinci önerilen modelde ise çizge teorisinden faydalanılmıştır. Temerrüde düşmede şirketlerin iç dinamiklerinin yanı sıra ticari ilişki içinde oldukları tedarikçi ve müşterilerinin de önemli olduğu temel varsayımdan yola çıkılmıştır. Bu nedenle, şirketlerin fatura verisi üzerinden ticari ilişkiyi gösteren çizge oluşturulmuştur. Çizge üzerinden temerrüt tahminine fayda sağlayacak yeni değişkenler üretilmiştir. İkinci modelde bu değişkenler kullanılmıştır. Sonuçlara bakıldığında her iki modelin sırasıyla 0,81 ve 0,82 Eğri Altında Kalan Alan (Area Under Curve /AUC) skor elde ettiğini ortaya koymuştur. İkinci modelin daha yüksek tahmin başarısı sağlaması çizge üzerinden elde edilen yeni değişkenlerin temerrüt tahminine katkı sağladığını göstermiştir. Tez kapsamında son olarak temerrüt tahminde karmaşık ML algoritmalarının kullanılmasına getirilen en önemli eleştiri olan sonuçların açıklanabilir olmamasına Yorumlanabilir Makine Öğrenmesi (Interpretable Machine Learning / IML) algoritmalarıyla çözüm aranmıştır. Sonuçlar IML'nin karmaşık ML algoritmalarının açıklanmasında tutarlı ve güvenilir çıktılar verdiğini göstermektedir.

Özet (Çeviri)

In recent years, the increase in the number of data sources, the decrease in the data collection, storage and processing costs, and the development of new methods for data analysis have led to the beginning of a new era called big data. Big data technologies have enabled the process of the data that could not be managed and processed before and explore valuable information hidden in the data. In this study, big data technology is used for the default prediction of companies. Default prediction has been studied for many years in the literature and its importance is increasing day by day. Two different default prediction models are proposed using Machine Learning (ML) and graph theory on a big data platform. In the study, credit, balance sheet and invoice datasets of more than 1 million real sector companies operated in Turkey between 2010 and 2018 are used. In the first model, two sub-models are created for credit and balance sheet datasets by using statistics and ML algorithms, and the probability scores obtained from these sub-models are combined to reach the best estimate in the final model. In the second model, graph theory is employed. It is based on the basic assumption that the internal dynamics of the companies, as well as the suppliers and customers, with whom they have commercial relations, are also important in the default of the companies. Therefore, a graph showing the commercial relationship is created using the invoice data of the companies. New variables that help explore default prediction are generated on the graph. These variables are further used in the second model. The results showed that both models achieved 0.81 and 0.82 Area Under Curve (AUC) scores, respectively. The higher prediction success of the second model showed that the new variables obtained from the graph contributed to the default prediction. Within the scope of the thesis, finally, a solution has been sought with Interpretable Machine Learning (IML) algorithms for the interpretability of the results, which is the most important criticism regarding the use of complex ML algorithms in default prediction. The interpretability results also indicated that IML gives consistent and reliable outcomes in explaining complex ML models.

Benzer Tezler

  1. Destek vektör regresyonu ile PID kontrolör tasarımı

    Design of PID controller via support vector regression

    KEMAL UÇAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLAY ÖKE

  2. Invitational leadership practices at a school of foreign languages from a gendered perspective: A case study

    Bir yabancı diller yüksek okulundaki katılımcı liderlik uygulamalarının toplumsal cinsiyet çerçevesinde incelenmesi: Bir durum çalışması

    ZÜBEYDE DURNA

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Eğitim ve ÖğretimOrta Doğu Teknik Üniversitesi

    Kadın Çalışmaları Ana Bilim Dalı

    PROF. DR. GÖLGE SEFEROĞLU

  3. Solving image procesing problems by using nonstandart regularization

    Standart olmayan düzgünleştirme kullanarak görüntü işleme problemlerinin çözümü

    TOLGA ACAR

  4. Distributed bipartite graph clustering

    İki parçalı çizge demetleme

    RESUL TUGAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ

  5. User modeling on microblogging web sites

    Mikro-blog web sitelerinde kullanıcı modelleme

    ZEYNEP ZENGİN ALP

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ