Anomaly detection using machine learning techniques: A comparative study on first payment default prediction in retail loans
Yapay öğrenme yöntemleriyle anomali saptanması: Bireysel kredilerde ilk ödemede batma tahmini üzerine karşılaştırmalı bir çalışma
- Tez No: 767841
- Danışmanlar: PROF. DR. ALP ÜSTÜNDAĞ
- Tez Türü: Yüksek Lisans
- Konular: Bankacılık, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Banking, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
- Sayfa Sayısı: 113
Özet
Bankacılık sektörü, teknolojik gelişmelerin sağladığı çağdaş yöntemlere hızlı ve etkin bir şekilde uyum sağlayan ve son derece esnek olan sektörlerden biridir. Bankacılık sektörünün benimsediği teknolojik yöntem ve ürünler, atm güvenliğini artıran şifreleme teknolojilerinden, online ve mobil bankacılık ürünleri gibi fintech uygulamalarına kadar çok çeşitli alanlarda etkin rol oynamaktadır. Bankacılık ürün ve uygulamalarının dijitalleşmesi giderek yaygınlaşırken, kullanıcı davranışları ve ürünlerle ilgili veri kaynakları da artıyor. Sonuç olarak, bu çağdaş veri kaynakları tarafından oluşturulan veri kümeleri, bankaların işlerini daha iyi müşteri segmentasyonu ve hedefleme uygulamaları yaparak ve dolandırıcılık tespiti gibi risk yönetimi ile ilgili uygulamaları çeşitli şekillerde geliştirerek daha verimli hale getirmelerine olanak sağladığı için yüksek bir potansiyele sahiptir. Çeşitli yapay öğrenme algoritmaları, bankacılığın birçok farklı alanında yaygın olarak uygulanmakta ve kullanılmaktadır. Algoritma türlerinin birbirlerinin yerine olarak kullanılabilmesine rağmen, denetimli yapay öğrenme algoritmaları ağırlıklı olarak kredi kartı dolandırıcılık tespiti ve kredi puanlama gibi problemlerin çözümü için uygulanmakta, denetimsiz yapay öğrenme algoritmaları genellikle müşteri segmentasyonu ve hedefleme problemleri için kullanılmıştır ve son olarak pekiştirmeli öğrenme algoritmaları ise genellikle borç tahsilat aksiyonu optimizasyonu gibi problemler için kullanılmıştır. Anomali kelimesi Türkçe'de yaygın bir kullanıma sahip olsa da anomaliye karşılık gelen Türkçe kelime sapaklıktır. Sapaklık ise“doğal duruma, alışılagelen ölçüye, kurala uymama, aykırılık gösterme durumu”şeklinde tanımlanmaktadır. Veri bilimi alanındaki anomali tanımı ise,“nadiren veya tamamen beklenmedik bir şekilde gerçekleşen bir olgu tarafından oluşturulabilen örnek bir gözlem”olarak yapılabilir. Anormal gözlemler iyi veya kötü olarak genellenemez, çünkü normalden sapma olgusu, spesifik alana ve duruma bağlı olarak olumlu veya olumsuz bir anlama sahip olabilir. Aykırı değer tespiti olarak da adlandırılan anomali tespiti sorunu, azınlık sınıfına ait örneklerin nadiren gözlenmesi durumunda ortaya çıkan dengesiz bir sınıflandırma durumu olarak tanımlanabilir. Spam e-posta tespitinden hastalık teşhisine kadar çeşitli alana özgü sorunları çözmek için siber güvenlik, sağlık ve askeriye gibi çok çeşitli alanlarda ve sektörlerde uygulanır. Bankacılık sektörünün de anomali tespit teknikleri kullanılarak çözülen birçok sorunu bulunmaktadır. Kredi kartı dolandırıcılığı tespiti, finansal zaman serisilerinde anomali tespiti ve anormal işlem tespiti, bankacılık sektöründeki aykırılık tespit problemlerine örnek olarak verilebilir. Dolandırıcılık tespiti, bankacılık sektöründe en yaygın anomali tespit problemlerinden biridir. Ayrıca, batık kredi ve ilk ödeme batma tahmini, en önemli dolandırıcılık tespit problemlerinden bazıları olarak kabul edilmektedir. Dolandırıcılık tespit problemlerini çözmek için birçok yapay öğrenme yaklaşımı ve algoritması bulunmaktadır. Veri setinde gözlemlerin sınıflarını belirten etiketler varsa, denetimli, denetimsiz ve pekiştirmeli öğrenme yaklaşımları uygulanarak ve verimli sonuçlar alınabilir. Batık kredi tahmini, bankaların daha az riskli müşterileri elde etmesi ve temerrüde düşme ve batma olasılığı olan müşterilerden kaçınması için çok önemli bir problemdir. Yasal takipteki veya batık kredi, ödemeleri 90 gün geçmiş olan krediler olarak tanımlanır. Takibe alınması gereken kredinin indirimli satılması gibi maliyetli aksiyonlar olduğu için kredi veren kurumlar tarafından potansiyel batık kredilerden kaçınılmaya çalışılmaktadır. Bu sorunu önlemek için, bankalar olası problemli müşterileri önceden tahmin etmek için çeşitli karar destek sistemlerini kullanmaktadır. Sonuç olarak, bankalar başarılı yapay öğrenme modelleri kurarak ve bunları batık kredileri tahmin etmek için karar destek sistemleri olarak kullanarak daha verimli çalışabilir ve karlarını maksimize edebilirler. Batık kredilerin özel bir durumu olan ilk ödemede batma durumunun tahmini, bir müşterinin bir kredide ilk ödemeye geç kalıp kalmayacağını tahmin etmeye odaklanır. İlk ödemede batma olgusunun tam tanımı farklı ülke ve kurumlarda farklılık gösterebilmekle birlikte, bu çalışmada borçlunun bir kredinin ilk ödemesini vadesi 90 gün geçmesine rağmen yapmaması durumu olarak tanımlanmaktadır. Bir diğer deyişle müşteri, ilk ödeme tarihinden sonraki ilk 90 gün içinde tek bir ödeme bile yapmamalıdır. Batık kredilerin özel bir versiyonu olduğu için nadiren gerçekleşmektedir çünkü batık krediler bile nadiren gözlemlenmektedir. İlk ödemede batma tahmini, bankalara yönelik olası dolandırıcılık aktivitelerinin ve saldırıların önüne geçilebilmesi ve bunların yol açabilecekleri olası finansal zararların önlenmesi açısından büyük önem taşıyan bir konudur. Bu çalışmanın amacı, Türkiye'de faaliyet gösteren bir bankadan alınan bir veri setini kullanılarak kredi başvurularının ilk ödeme batma olasılıklarını tahmin etmektir. Veri seti, her gözlemin bir müşterinin kredi başvurusunu temsil ettiği 75000 gözlemden oluşmaktadır. 75000 gözlemden sadece 750'si ilk ödemede batmış müşetirler ve bu gözlemlerin anomali olduklarını belirtmek için 1 olarak etiketlendiler, örneklerin geri kalanı çoğunluk sınıfı olarak kabul edildi. Azınlık sınıfın tüm datadaki toplam gözlemlerin içindeki oranı yüzde 1 kadar az. Azınlık sınıf oranının son derece düşük olması nedeniyle problem bir anomali tespit problemi olarak değerlendirilmektedir. Bu amaca ulaşmak için otokodlayıcılardan tam bağlantılı yapay sinir ağlarına, karar ağaçlarından pekiştirmeli öğrenme tekniklerine kadar çeşitli yapay öğrenme modelleri uygulanmış ve karşılaştırılmıştır. Ayrıca, daha etkili modeller elde etmek için farklı denetim türleri arasında algoritmalara çeşitli birleştirme teknikleri uygulanmıştır. Tüm modelleri karşılaştırabilmek için tüm anomali tespit modelleri için ortak birer metrik olarak kullanılabilen kesinlik, anma, F1, ve kaldıraç metrikleri kullanılmıştır. Yazarın bildiği kadarıyla, bu çalışma, ilk ödemede batma sorununu çözmek için denetimsiz, denetimli ve pekiştirmeli öğrenme tabanlı anomali tespit yöntemlerinden çeşitli algoritmaları uygulayan ve karşılaştıran ilk çalışmadır. Sonuç olarak, bu çalışma hem araştırmacılar hem de uygulayıcılar için anormallik tespiti ve ilk ödemede batma tahmini literatüründe neredeyse her tür anormallik tespit yöntemini tek bir veri setinde kıyaslayan kompakt bir kaynak bulma konusunda faydalı olacaktır. Ayrıca, denetimli yapay öğrenme modelleri oluşturulurken veri kümesine çeşitli örnekleme teknikleri uygulanmıştır ve performansa olan etkileri gözlemlenmiştir. Uygulamanın en başında, model kurma bölümünde temiz ve kullanıma hazır bir veri setine sahip olmak için, veri seti bir takım ön işleme aşamalarından geçirilmiştir. Bazı algoritmalar, eksik değerler ve ölçeklenmemiş verilerle çalışma yeteneğine sahip olsa da, bu çalışmada tüm modeller tarafından kullanılabilecek tek bir veri kümesine sahip olmak için veri kümesindeki boş değerler dolduruldu ve değişkenler ölçeklendirildi. Bunun yanında, öncelikle verileri daha iyi anlamak için tüm değişkenlerin hedef değişkenle olan ilişkileri kontrol edilerek tek tek incelendi. Daha sonra değişken seçimi ve boş değerlerin doldurulması ile ilgili gerekli uygulamalar yapılarak veri seti hazır hale getirildi. Model kurma aşamasında çeşitli yapay öğrenme tabanlı anomali tespit algoritmaları uygulanmış ve karşılaştırılmıştır. Açı bazlı dışa düşen tespiti (ABOD), temel bileşen analizi (PCA), k en yakın komşular (KNN), izolasyon ormanı (IF) ve otokodlayıcılar (AE) bu çalışamada eğitilen gözetimsiz öğrenme bazlı anomali tespit algoritmalarıdır. lojistik regresyon (LR), karar ağaçları (DT), destek vektör makineleri (SVM), hafif gradyan artırma makineleri (LightGBM) ve tam bağlantılı yapay sinir ağları (FCNN) algoritmaları ise uygulanan gözetimli öğrenme yöntemleridir. Gözetimli öğrenme algoritmalarının yanında örnekleme metodları da kullanılarak verideki dengesizlik probleminin çözülmesi hedeflenmiştir. Rastgele örneklem artırma (ROS), rastgele örneklem azaltma (RUS), sentetik azınlık artırma (SMOTE), ve düzenlenmiş en yakın komuşlar ile sentetik azınlık artırma (SMOTEENN) yöntemleri gözetimli öğrenme algoritmaları eğitilirken uygunlamıştır. Veriyi yeniden örnekleme yöntemleri ve uygulanan düzeltme oranları bütün gözetimli modeller için model üst parametrelerinin yanında optimize edilmiştir. Son olarak, derin q öğrenme (DQN) modeli eğitilmiştir ve diğer üst parametrelerin yanı sıra, verideki hedef sınıf dengesizliğini gösteren λ üst parametresi optimize edilmiştir. Modeller değerlendirme verisi üzrinde test ediliğinde, en başarılı olan gözetimsiz öğrenme metodunun IF, en başarılı olan gözetimli öğrenme metodunun LightGBM ve DQN modelinde en iyi performans gösteren λ değerinin 0.1 olduğu gözlemlenmiştir. Son bir aşama olarak bu 3 en iyi modelin tahminlerinin kombinasyonlarından oluşan çeşitli modeller kurulmuştur fakat performanslarda bir iyileşme gözlemlenmemiştir. Sonuç olarak en iyi performansı gösteren model 0.208 F1 skoru ve 18.7 kaldıraç skoru ile LightGBM modeli olmuştur. Bunun yanında nihai LightGBM modelinin kullandığı en önemli 3 değişken sırasıyla; müşteri aktifliği, müşterinin son 6 ay içinde yaptığı kredi başvuru sayısı, ve KKB skoru olarak bulunmuştur.
Özet (Çeviri)
The banking sector is one of the sectors that adapt quickly and effectively to the modern methods provided by technological developments and is extremely flexible. As the digitization of banking products and applications becomes more widespread, data sources related to user behavior and products are also increasing. As a result, the datasets generated by these contemporary data sources have high potential as they allow banks to make their business more efficient by implementing better customer segmentation and targeting, and by improving risk management-related practices such as fraud detection in various ways. Various machine learning algorithms are widely applied and used in many different areas of banking. Loan default prediction is a crucial problem for banks to acquire less risky customers and avoid customers who are likely to default and go bankrupt. Detection of first payment default is a matter of great importance in order to prevent possible fraudulent activities and attacks against banks and to prevent possible financial losses that they may cause. In this study a dataset with 75000 observations has been used to benchmark and find an optimal model for the first payment default prediction problem. 11 different algorithms from supervised, unsupervised, and reinforcement learning based approaches are applied to the same dataset and compared to each other using the metrics such as F1 and lift score. In the model building process, the best-performing models in each of the supervision types have been selected. The isolation forest algorithm has been selected as the best performing unsupervised model, LightGBM has been select as the best supervised model while the DQN with 0.1 λ value has been selected as the best reinforcement learning model after the performance comparison. As the final step, the ensembling by weighted average techniques has been applied to the best 3 models. However, it is seen that the LightGBM model performs better than the ensemble models in terms of both F1 and lift scores. As a result, the LightGBM model is selected as the proposed model of the study, and the model has been interpreted and discussed in terms of the business perspective of the first payment default problem.
Benzer Tezler
- Comparative analysis of classification techniques for network anomalies management
Ağ anomalı yönetimi için sınıflandırma tekniklerinin karşılaştırmalı analizi
KURBAN KOTAN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHasan Kalyoncu ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MOHAMMED K.M. MADI
- Ağ anomalisi tespitinde makine öğrenmesi algoritmalarının kullanımı ve karşılaştırmalı analizi
Comparative analysis of machine learning algorithms in network anomaly detection
MUJIBULLAH SHAMS
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT İSKEFİYELİ
- Comperative evaluation of unsupervised fraud detection algorithms with feature extraction and scaling in purchasing domain
Satın alma alanında özellik çıkarma ve ölçekleme ile denetimsiz sahtekarlık tespit algoritmalarının karşılaştırmalı değerlendirmesi
YİĞİT CAN TAŞOĞLU
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiVeri Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
- Yapay zekâ-tabanlı hibrit anomali tespit ve klinik karar destek teknikleri ile kardiyovasküler hastalıkların ve COVİD-19'un otomatik tespiti
Artificial intelligence-based hybrid anomaly detection and clinical decision support techniques for automated detection of cardiovascular diseases and COVİD-19
MERVE BEGÜM TERZİ
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ORHAN ARIKAN
- Anomaly based network intrusion detection using machine learning
Makine öğrenimiyle anomali tabanlı ağ saldırı tespiti
ABDISALAM ABDULLAHI MOHAMED
Yüksek Lisans
İngilizce
2020
Elektrik ve Elektronik MühendisliğiEskişehir Teknik ÜniversitesiElektrik-Elektronik Ana Bilim Dalı
DOÇ. DR. NURAY AT