Geri Dön

Real time fraud detection using machine learning

Makine öğrenmesi yöntemleri ile gerçek zamanlı suistimal tahminleme

  1. Tez No: 857950
  2. Yazar: HÜSEYİN ONUR ÖZCAN
  3. Danışmanlar: PROF. DR. ŞEBNEM BAYDERE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Sigortacılık, Insurance
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Yeditepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 108

Özet

Suistimal tespiti, sigorta endüstrisinde en kritik konulardan biridir. Mevcut literatür çoğunlukla teorik olarak geçerli modeller sunsa da, sadece birkaçı gerçeğe yakın verileri kullanmış ve diğerleri sıkça hedef değişkenin gerçek dengesini göz ardı etmiştir. Ayrıca, sigorta dolandırıcılığını tahmin eden modellerin açıklanabilirlik eksikliği, geliştirilmesi gereken başka bir alan olarak öne çıkmaktadır. Suistimal tespitindeki zorluk, son derece dengesiz veri setleri ile başa çıkmak ve model metriklerini doğru bir şekilde yorumlamaktır. Gerek veri hazırlama sürecinde gerekse de sonuçların değerlendirilmesinde modellerin açıklanabilirliğini ön planda tutmak, verilen kararların tutarlılığına, hesap verilebilirliğine ve iş bilgisinin arttırılmasına büyük katkı sağlar. Bu tez, gerçek sistemler tarafından üretilmiş sigorta verileri kullanılarak (hedef değişken oranı yüzde 0.5) açıklanabilir makine öğrenimi modelleri oluşturmak için bir metodoloji sunmayı amaçlamaktadır. Performans üzerinde çeşitli özellik seçimi yöntemlerinin etkileri çeşitli makine öğrenimi algoritmalarıyla test edilmiş ve en uygun makine öğrenimi algoritması - özellik seçimi yöntemi çifti belirlenmeye çalışılmıştır. En iyi sonuçları veren ML algoritmaları arasında, bir oy verme mekanizması kullanılarak meta-ensemble self-learning model yaklaşımı uygulanması önerilmiş, sonuçlar model eşik değeri ayarlaması ile optimize edilmiştir. Model sonuçlarının değerlendirilmesinde, son derece dengesiz bir veri setinin kullanılıyor olması göz önüne alınmalıdır. Bu kriter ışığında, oluşturulan temel modelin hassasiyet, duyarlılık ve F1 puanı sırasıyla %28.02, %38.41 ve %32.4 olarak hesaplandı. Önerilen meta-ensemble self-learning yöntemi kullanılarak elde edilen sonuçlar sırasıyla %22.7, %11.3 ve %31.8 artırılmıştır. Temel model yaklaşımıyla elde edilen modelin yorumlanabilirliği, SHAP değerlerini inceleyerek, modelde kullanılan özelliklerin benzerliklerini ve ayrışmalarını analiz ederek değerlendirilmiştir. Yapılan testler, önerilen yöntemle elde edilen modelin sahtekarlık tahminleme performansını artırdığını, tutarlılığı bozmadığını göstermektedir.

Özet (Çeviri)

Fraud detection is one of the most critical issues in the insurance industry. While current literature often presents theoretically valid models, only a few have utilized real-world data and others frequently overlooked the actual balance of target variable. Additionally, the lack of transparency and interpretability in machine learning models predicting insurance fraud stands out as another area that needs improvement. The main challenges of fraud detection include dealing with highly imbalanced datasets and interpreting model metrics properly. Emphasizing the explainability of models, both in the data preparation process and the evaluation of results, contributes significantly to the consistency of decisions, accountability requirements, and the enhancement of business knowledge. This thesis aims to provide a methodology for creating explainable machine learning models using real-world insurance data (with a target variable rate of 0.5 percent). Effects of various feature selection methods on performance have been tested with various machine learning algorithms, and the most suitable machine learning algorithm-feature selection method pair has been attempted to be identified. Among the ML algorithms that yielded the best results, a meta-ensemble self-learning model approach was proposed using a voting mechanism; the results were optimized with model threshold value. In evaluating the model results, it should be considered that a highly imbalanced dataset is being used. In light of this criterion, the precision, sensitivity, and F1-score values of the baseline model created were calculated as 28.02%, 38.41%, and 32.4%, respectively. The results obtained using the proposed meta-ensemble self-learning method were increased by 22.7%, 11.3%, and 31.8%, respectively. The interpretability of the model obtained with the baseline model approach was evaluated by examining SHAP values, analyzing the similarities and divergences of the features used in the model. The tests indicate that the model obtained with the proposed method improves fraud prediction performance without compromising consistency.

Benzer Tezler

  1. İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti

    Anomaly detection with machine learning on air conditioning systems

    REFİK KİBAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK

    DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR

  2. Makine öğrenmesi teknikleriyle mobil ödemede sahtekarlık tespiti

    Fraud detection in mobile payment with machine learning methods

    ÖZLEM GÜVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    EkonometriDokuz Eylül Üniversitesi

    Ekonometri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERKAN ARAS

  3. Elektrik güç dağıtımında akıllı sayaç verileri için anomali tespiti ve tahminleme

    Anomaly detection and prediction for smart meter data in electrical power distribution

    SERHAT YARAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Enerjiİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEYNEP ORMAN

  4. Classification of electricity customers based on real consumption values using data mining and machine learning techniques and its corresponding applications

    Elektrik abonelerinin gerçek tüketim verilerinin veri madenciliği ve makine öğrenmesi teknikleri kullanılarak sınıflandırılması ve ilgili uygulamaları

    MUHAMMET TUĞBERK İŞYAPAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FERDANUR ALPASLAN

  5. Kural tabanlı şüpheli işlem önleme sistemlerinde kullanılmak üzere çizge veritabanı modeli önerisi

    A graph database model proposal for use in rule based fraud transaction prevention systems

    BAHADIR ESAD DEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    BankacılıkSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ VEYSEL HARUN ŞAHİN