Geri Dön

Weighted XGBoost based active learning framework for fraud detection with using small number of samples

Az sayıda örnek kullanarak dolandırıcılık tespiti yapan ağırlıklı XGBoost tabanlı aktif öğrenme methodu

  1. Tez No: 911930
  2. Yazar: MEHMET ONUR ERBOY
  3. Danışmanlar: DOÇ. DR. ALİ CAN KARACA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 96

Özet

Dolandırıcılık vakaları nadir görülür ve karşılaşıldığında büyük maddi kayıplara yol açar. Ayrıca, sürekli değişen bir yapıya sahiptir. Bu nedenle, dolandırıcılığın tespiti, makine öğrenimi teknikleriyle çözülmesi gereken önemli bir problemdir. Ancak dolandırıcılık vakaları için yeterli etiketli veri bulunmadığından genellikle uzman görüşüne ihtiyaç duyulur. Aktif öğrenme, uzmanların etiketlemesi için en belirsiz ve ayırt edici örnekleri seçerek doğru öğelerin etiketlenmesini sağlar ve makine öğrenimi algoritmalarıyla dolandırıcılığın tespitinde kullanılır. Sözde etiketleme ise makine öğreniminin etiket tahminlerini, belirli örnekler için gerçek etiket olarak kullanır. Bu tezde, en düşük güven belirsizlik örneklemesi ve K-means küme tabanlı çeşitlilik örneklemesinin hibrit bir aktif öğrenme yaklaşımını, sözde etiketleme ve çeşitlilik örnekleme ile birleştirerek ağırlıklı XGBoost yöntemini kullandık. Nadir görülen dolandırıcılık vakaları için az veriyle çalışabilecek bir model geliştirdik. Değerlendirmelerimiz, geleneksel \% 70 veriyle yapılan eğitim yöntemine kıyasla \% 4'ten az veriyle benzer F1 skorlarına ulaşılabildiğini gösterdi. İzolasyon Ormanı, Destek Vektör Makinesi, Sinir Ağı, XGBoost ve Catboost yöntemlerini, belirsizlik tabanlı ve küme tabanlı çeşitlilik örnekleme stratejileriyle karşılaştırdık. Üç farklı dolandırıcılık veri kümesi üzerinde yaptığımız testlerde, önerilen yöntem diğer yaklaşımlardan daha iyi performans gösterdi. En düşük güven belirsizlik örneklemesi, sözde etiketleme ve K-means çeşitlilik örneklemesinin birleşimi en etkili yöntem olarak belirlendi.

Özet (Çeviri)

Fraud cases are rare but costly and exhibit a continuously changing nature, making fraud detection a widely studied problem in machine learning. However, labeled data for fraud cases is scarce and often requires expert input for labeling. Active learning addresses this by selecting the most uncertain and distinguishable samples for expert labeling, enhancing machine learning-based fraud detection. Pseudo-labeling, on the other hand, uses machine learning predictions as actual labels for selected samples. Scope of the thesis, we proposed a method that uses a hybrid active learning approach of Least Confidence uncertainty sampling and K-means cluster-based diversity sampling combined with a hybrid approach with pseudo labeling and diversity sampling using weighted XGBoost as a machine learning method. Evaluations show that our approach achieves nearly identical F1 scores using less than 4\% of samples in training, compared to traditional methods requiring 70\% of samples. We evaluated combinations of Isolation Forest, Support Vector Machine, Neural Network, XGBoost, and CatBoost with uncertainty-based active learning strategies as Margin Confidence, Ratio Confidence, Entropy and hybrid approaches using cluster-based diversity sampling. We also examined the effect of pseudo-labeling for each combination across three fraud detection datasets. Our proposed approach outperformed all tested methods. Least Confidence uncertainty sampling, coupled with pseudo-labeling and K-means cluster-based diversity sampling, proved to be the most effective strategy for labeling fraud cases within the scope of this thesis.

Benzer Tezler

  1. Optuna tabanlı makine öğrenmesi yöntemleriyle Bitcoin fiyat tahminleme yaklaşımları

    Bitcoin price forecasting approaches with optuna-based machine learning methods

    BERKAY YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT TAŞKIRAN

  2. Coğrafi bilgi sistemleri entegreli makine öğrenmesine dayalı toplu taşınmaz değerleme modelinin geliştirilmesi

    Development of mass property valuation model based on geographic information systems integrated machine learning methods

    MUHAMMED OĞUZHAN METE

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. TAHSİN YOMRALIOĞLU

  3. Ensemble of feature selection models for malware datasets

    Kötücül yazılım veri kümeleri için öznitelik seçim modellerinin topluluğu

    FARUK CÜREBAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilim ve TeknolojiKadir Has Üniversitesi

    Yönetim Bilimleri Ana Bilim Dalı

    PROF. DR. HASAN DAĞ

  4. Makine öğrenmesi yaklaşımları ile fetal sağlık teşhisinin gerçekleştirilmesi

    Realisation of fetal health diagnosis with machine learning approaches

    ADEM KUZU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Kadın Hastalıkları ve DoğumFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUNUS SANTUR

  5. İstanbul'da tedavi görmüş diyabet hastalarına ait sağlık kayıtlarının büyük veri teknikleri ile incelenmesi

    Analysis of health records of diabetes patients treated in İstanbul with big data techniques

    MUSTAFA MAHİR ÜLGÜ

    Doktora

    Türkçe

    Türkçe

    2022

    Endokrinoloji ve Metabolizma HastalıklarıAkdeniz Üniversitesi

    Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı

    DOÇ. DR. KEMAL HAKAN GÜLKESEN