Real time fraud detection using machine learning
Makine öğrenmesi yöntemleri ile gerçek zamanlı suistimal tahminleme
- Tez No: 857950
- Danışmanlar: PROF. DR. ŞEBNEM BAYDERE
- Tez Türü: Yüksek Lisans
- Konular: Sigortacılık, Insurance
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Yeditepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 108
Özet
Suistimal tespiti, sigorta endüstrisinde en kritik konulardan biridir. Mevcut literatür çoğunlukla teorik olarak geçerli modeller sunsa da, sadece birkaçı gerçeğe yakın verileri kullanmış ve diğerleri sıkça hedef değişkenin gerçek dengesini göz ardı etmiştir. Ayrıca, sigorta dolandırıcılığını tahmin eden modellerin açıklanabilirlik eksikliği, geliştirilmesi gereken başka bir alan olarak öne çıkmaktadır. Suistimal tespitindeki zorluk, son derece dengesiz veri setleri ile başa çıkmak ve model metriklerini doğru bir şekilde yorumlamaktır. Gerek veri hazırlama sürecinde gerekse de sonuçların değerlendirilmesinde modellerin açıklanabilirliğini ön planda tutmak, verilen kararların tutarlılığına, hesap verilebilirliğine ve iş bilgisinin arttırılmasına büyük katkı sağlar. Bu tez, gerçek sistemler tarafından üretilmiş sigorta verileri kullanılarak (hedef değişken oranı yüzde 0.5) açıklanabilir makine öğrenimi modelleri oluşturmak için bir metodoloji sunmayı amaçlamaktadır. Performans üzerinde çeşitli özellik seçimi yöntemlerinin etkileri çeşitli makine öğrenimi algoritmalarıyla test edilmiş ve en uygun makine öğrenimi algoritması - özellik seçimi yöntemi çifti belirlenmeye çalışılmıştır. En iyi sonuçları veren ML algoritmaları arasında, bir oy verme mekanizması kullanılarak meta-ensemble self-learning model yaklaşımı uygulanması önerilmiş, sonuçlar model eşik değeri ayarlaması ile optimize edilmiştir. Model sonuçlarının değerlendirilmesinde, son derece dengesiz bir veri setinin kullanılıyor olması göz önüne alınmalıdır. Bu kriter ışığında, oluşturulan temel modelin hassasiyet, duyarlılık ve F1 puanı sırasıyla %28.02, %38.41 ve %32.4 olarak hesaplandı. Önerilen meta-ensemble self-learning yöntemi kullanılarak elde edilen sonuçlar sırasıyla %22.7, %11.3 ve %31.8 artırılmıştır. Temel model yaklaşımıyla elde edilen modelin yorumlanabilirliği, SHAP değerlerini inceleyerek, modelde kullanılan özelliklerin benzerliklerini ve ayrışmalarını analiz ederek değerlendirilmiştir. Yapılan testler, önerilen yöntemle elde edilen modelin sahtekarlık tahminleme performansını artırdığını, tutarlılığı bozmadığını göstermektedir.
Özet (Çeviri)
Fraud detection is one of the most critical issues in the insurance industry. While current literature often presents theoretically valid models, only a few have utilized real-world data and others frequently overlooked the actual balance of target variable. Additionally, the lack of transparency and interpretability in machine learning models predicting insurance fraud stands out as another area that needs improvement. The main challenges of fraud detection include dealing with highly imbalanced datasets and interpreting model metrics properly. Emphasizing the explainability of models, both in the data preparation process and the evaluation of results, contributes significantly to the consistency of decisions, accountability requirements, and the enhancement of business knowledge. This thesis aims to provide a methodology for creating explainable machine learning models using real-world insurance data (with a target variable rate of 0.5 percent). Effects of various feature selection methods on performance have been tested with various machine learning algorithms, and the most suitable machine learning algorithm-feature selection method pair has been attempted to be identified. Among the ML algorithms that yielded the best results, a meta-ensemble self-learning model approach was proposed using a voting mechanism; the results were optimized with model threshold value. In evaluating the model results, it should be considered that a highly imbalanced dataset is being used. In light of this criterion, the precision, sensitivity, and F1-score values of the baseline model created were calculated as 28.02%, 38.41%, and 32.4%, respectively. The results obtained using the proposed meta-ensemble self-learning method were increased by 22.7%, 11.3%, and 31.8%, respectively. The interpretability of the model obtained with the baseline model approach was evaluated by examining SHAP values, analyzing the similarities and divergences of the features used in the model. The tests indicate that the model obtained with the proposed method improves fraud prediction performance without compromising consistency.
Benzer Tezler
- İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti
Anomaly detection with machine learning on air conditioning systems
REFİK KİBAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK
DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR
- Makine öğrenmesi teknikleriyle mobil ödemede sahtekarlık tespiti
Fraud detection in mobile payment with machine learning methods
ÖZLEM GÜVEN
Yüksek Lisans
Türkçe
2021
EkonometriDokuz Eylül ÜniversitesiEkonometri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERKAN ARAS
- Elektrik güç dağıtımında akıllı sayaç verileri için anomali tespiti ve tahminleme
Anomaly detection and prediction for smart meter data in electrical power distribution
SERHAT YARAT
Yüksek Lisans
Türkçe
2022
Enerjiİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEYNEP ORMAN
- Classification of electricity customers based on real consumption values using data mining and machine learning techniques and its corresponding applications
Elektrik abonelerinin gerçek tüketim verilerinin veri madenciliği ve makine öğrenmesi teknikleri kullanılarak sınıflandırılması ve ilgili uygulamaları
MUHAMMET TUĞBERK İŞYAPAR
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FERDANUR ALPASLAN
- Kural tabanlı şüpheli işlem önleme sistemlerinde kullanılmak üzere çizge veritabanı modeli önerisi
A graph database model proposal for use in rule based fraud transaction prevention systems
BAHADIR ESAD DEMİR
Yüksek Lisans
Türkçe
2024
BankacılıkSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ VEYSEL HARUN ŞAHİN