Real time fraud detection using machine learning

Makine öğrenmesi yöntemleri ile gerçek zamanlı suistimal tahminleme

PDF İndir

Tez No: 857950
Yazar: HÜSEYİN ONUR ÖZCAN
Danışmanlar: PROF. DR. ŞEBNEM BAYDERE
Tez Türü: Yüksek Lisans
Konular: Sigortacılık, Insurance
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Yeditepe Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 108

Özet

Suistimal tespiti, sigorta endüstrisinde en kritik konulardan biridir. Mevcut literatür çoğunlukla teorik olarak geçerli modeller sunsa da, sadece birkaçı gerçeğe yakın verileri kullanmış ve diğerleri sıkça hedef değişkenin gerçek dengesini göz ardı etmiştir. Ayrıca, sigorta dolandırıcılığını tahmin eden modellerin açıklanabilirlik eksikliği, geliştirilmesi gereken başka bir alan olarak öne çıkmaktadır. Suistimal tespitindeki zorluk, son derece dengesiz veri setleri ile başa çıkmak ve model metriklerini doğru bir şekilde yorumlamaktır. Gerek veri hazırlama sürecinde gerekse de sonuçların değerlendirilmesinde modellerin açıklanabilirliğini ön planda tutmak, verilen kararların tutarlılığına, hesap verilebilirliğine ve iş bilgisinin arttırılmasına büyük katkı sağlar. Bu tez, gerçek sistemler tarafından üretilmiş sigorta verileri kullanılarak (hedef değişken oranı yüzde 0.5) açıklanabilir makine öğrenimi modelleri oluşturmak için bir metodoloji sunmayı amaçlamaktadır. Performans üzerinde çeşitli özellik seçimi yöntemlerinin etkileri çeşitli makine öğrenimi algoritmalarıyla test edilmiş ve en uygun makine öğrenimi algoritması - özellik seçimi yöntemi çifti belirlenmeye çalışılmıştır. En iyi sonuçları veren ML algoritmaları arasında, bir oy verme mekanizması kullanılarak meta-ensemble self-learning model yaklaşımı uygulanması önerilmiş, sonuçlar model eşik değeri ayarlaması ile optimize edilmiştir. Model sonuçlarının değerlendirilmesinde, son derece dengesiz bir veri setinin kullanılıyor olması göz önüne alınmalıdır. Bu kriter ışığında, oluşturulan temel modelin hassasiyet, duyarlılık ve F1 puanı sırasıyla %28.02, %38.41 ve %32.4 olarak hesaplandı. Önerilen meta-ensemble self-learning yöntemi kullanılarak elde edilen sonuçlar sırasıyla %22.7, %11.3 ve %31.8 artırılmıştır. Temel model yaklaşımıyla elde edilen modelin yorumlanabilirliği, SHAP değerlerini inceleyerek, modelde kullanılan özelliklerin benzerliklerini ve ayrışmalarını analiz ederek değerlendirilmiştir. Yapılan testler, önerilen yöntemle elde edilen modelin sahtekarlık tahminleme performansını artırdığını, tutarlılığı bozmadığını göstermektedir.

Özet (Çeviri)

Fraud detection is one of the most critical issues in the insurance industry. While current literature often presents theoretically valid models, only a few have utilized real-world data and others frequently overlooked the actual balance of target variable. Additionally, the lack of transparency and interpretability in machine learning models predicting insurance fraud stands out as another area that needs improvement. The main challenges of fraud detection include dealing with highly imbalanced datasets and interpreting model metrics properly. Emphasizing the explainability of models, both in the data preparation process and the evaluation of results, contributes significantly to the consistency of decisions, accountability requirements, and the enhancement of business knowledge. This thesis aims to provide a methodology for creating explainable machine learning models using real-world insurance data (with a target variable rate of 0.5 percent). Effects of various feature selection methods on performance have been tested with various machine learning algorithms, and the most suitable machine learning algorithm-feature selection method pair has been attempted to be identified. Among the ML algorithms that yielded the best results, a meta-ensemble self-learning model approach was proposed using a voting mechanism; the results were optimized with model threshold value. In evaluating the model results, it should be considered that a highly imbalanced dataset is being used. In light of this criterion, the precision, sensitivity, and F1-score values of the baseline model created were calculated as 28.02%, 38.41%, and 32.4%, respectively. The results obtained using the proposed meta-ensemble self-learning method were increased by 22.7%, 11.3%, and 31.8%, respectively. The interpretability of the model obtained with the baseline model approach was evaluated by examining SHAP values, analyzing the similarities and divergences of the features used in the model. The tests indicate that the model obtained with the proposed method improves fraud prediction performance without compromising consistency.

Benzer Tezler

Tez No
822410
İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti
Anomaly detection with machine learning on air conditioning systems
REFİK KİBAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK
DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR
Tez No
665885
Makine öğrenmesi teknikleriyle mobil ödemede sahtekarlık tespiti
Fraud detection in mobile payment with machine learning methods
ÖZLEM GÜVEN
Yüksek Lisans
Türkçe
2021
Ekonometri Dokuz Eylül Üniversitesi
Ekonometri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERKAN ARAS
Tez No
967345
Development of artificial intelligence based semi-autonomous control system to assist decision making of reactor operators
Reaktör operatörlerinin karar vermesini desteklemek için yapay zekâ tabanlı yarı-otonom kontrol sisteminin geliştirilmesi
CEYHUN YAVUZ
Doktora
İngilizce
2025
Nükleer Mühendislik İstanbul Teknik Üniversitesi
Enerji Bilim ve Teknoloji Ana Bilim Dalı
DOÇ. DR. SENEM ŞENTÜRK LÜLE
Tez No
780605
Elektrik güç dağıtımında akıllı sayaç verileri için anomali tespiti ve tahminleme
Anomaly detection and prediction for smart meter data in electrical power distribution
SERHAT YARAT
Yüksek Lisans
Türkçe
2022
Enerji İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEYNEP ORMAN
Tez No
341116
Classification of electricity customers based on real consumption values using data mining and machine learning techniques and its corresponding applications
Elektrik abonelerinin gerçek tüketim verilerinin veri madenciliği ve makine öğrenmesi teknikleri kullanılarak sınıflandırılması ve ilgili uygulamaları
MUHAMMET TUĞBERK İŞYAPAR
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FERDANUR ALPASLAN

Geri Dön