Weighted XGBoost based active learning framework for fraud detection with using small number of samples
Az sayıda örnek kullanarak dolandırıcılık tespiti yapan ağırlıklı XGBoost tabanlı aktif öğrenme methodu
- Tez No: 911930
- Danışmanlar: DOÇ. DR. ALİ CAN KARACA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 96
Özet
Dolandırıcılık vakaları nadir görülür ve karşılaşıldığında büyük maddi kayıplara yol açar. Ayrıca, sürekli değişen bir yapıya sahiptir. Bu nedenle, dolandırıcılığın tespiti, makine öğrenimi teknikleriyle çözülmesi gereken önemli bir problemdir. Ancak dolandırıcılık vakaları için yeterli etiketli veri bulunmadığından genellikle uzman görüşüne ihtiyaç duyulur. Aktif öğrenme, uzmanların etiketlemesi için en belirsiz ve ayırt edici örnekleri seçerek doğru öğelerin etiketlenmesini sağlar ve makine öğrenimi algoritmalarıyla dolandırıcılığın tespitinde kullanılır. Sözde etiketleme ise makine öğreniminin etiket tahminlerini, belirli örnekler için gerçek etiket olarak kullanır. Bu tezde, en düşük güven belirsizlik örneklemesi ve K-means küme tabanlı çeşitlilik örneklemesinin hibrit bir aktif öğrenme yaklaşımını, sözde etiketleme ve çeşitlilik örnekleme ile birleştirerek ağırlıklı XGBoost yöntemini kullandık. Nadir görülen dolandırıcılık vakaları için az veriyle çalışabilecek bir model geliştirdik. Değerlendirmelerimiz, geleneksel \% 70 veriyle yapılan eğitim yöntemine kıyasla \% 4'ten az veriyle benzer F1 skorlarına ulaşılabildiğini gösterdi. İzolasyon Ormanı, Destek Vektör Makinesi, Sinir Ağı, XGBoost ve Catboost yöntemlerini, belirsizlik tabanlı ve küme tabanlı çeşitlilik örnekleme stratejileriyle karşılaştırdık. Üç farklı dolandırıcılık veri kümesi üzerinde yaptığımız testlerde, önerilen yöntem diğer yaklaşımlardan daha iyi performans gösterdi. En düşük güven belirsizlik örneklemesi, sözde etiketleme ve K-means çeşitlilik örneklemesinin birleşimi en etkili yöntem olarak belirlendi.
Özet (Çeviri)
Fraud cases are rare but costly and exhibit a continuously changing nature, making fraud detection a widely studied problem in machine learning. However, labeled data for fraud cases is scarce and often requires expert input for labeling. Active learning addresses this by selecting the most uncertain and distinguishable samples for expert labeling, enhancing machine learning-based fraud detection. Pseudo-labeling, on the other hand, uses machine learning predictions as actual labels for selected samples. Scope of the thesis, we proposed a method that uses a hybrid active learning approach of Least Confidence uncertainty sampling and K-means cluster-based diversity sampling combined with a hybrid approach with pseudo labeling and diversity sampling using weighted XGBoost as a machine learning method. Evaluations show that our approach achieves nearly identical F1 scores using less than 4\% of samples in training, compared to traditional methods requiring 70\% of samples. We evaluated combinations of Isolation Forest, Support Vector Machine, Neural Network, XGBoost, and CatBoost with uncertainty-based active learning strategies as Margin Confidence, Ratio Confidence, Entropy and hybrid approaches using cluster-based diversity sampling. We also examined the effect of pseudo-labeling for each combination across three fraud detection datasets. Our proposed approach outperformed all tested methods. Least Confidence uncertainty sampling, coupled with pseudo-labeling and K-means cluster-based diversity sampling, proved to be the most effective strategy for labeling fraud cases within the scope of this thesis.
Benzer Tezler
- Optuna tabanlı makine öğrenmesi yöntemleriyle Bitcoin fiyat tahminleme yaklaşımları
Bitcoin price forecasting approaches with optuna-based machine learning methods
BERKAY YILDIRIM
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT TAŞKIRAN
- Coğrafi bilgi sistemleri entegreli makine öğrenmesine dayalı toplu taşınmaz değerleme modelinin geliştirilmesi
Development of mass property valuation model based on geographic information systems integrated machine learning methods
MUHAMMED OĞUZHAN METE
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. TAHSİN YOMRALIOĞLU
- Ensemble of feature selection models for malware datasets
Kötücül yazılım veri kümeleri için öznitelik seçim modellerinin topluluğu
FARUK CÜREBAL
Yüksek Lisans
İngilizce
2022
Bilim ve TeknolojiKadir Has ÜniversitesiYönetim Bilimleri Ana Bilim Dalı
PROF. DR. HASAN DAĞ
- Makine öğrenmesi yaklaşımları ile fetal sağlık teşhisinin gerçekleştirilmesi
Realisation of fetal health diagnosis with machine learning approaches
ADEM KUZU
Yüksek Lisans
Türkçe
2024
Kadın Hastalıkları ve DoğumFırat ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUNUS SANTUR
- İstanbul'da tedavi görmüş diyabet hastalarına ait sağlık kayıtlarının büyük veri teknikleri ile incelenmesi
Analysis of health records of diabetes patients treated in İstanbul with big data techniques
MUSTAFA MAHİR ÜLGÜ
Doktora
Türkçe
2022
Endokrinoloji ve Metabolizma HastalıklarıAkdeniz ÜniversitesiBiyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
DOÇ. DR. KEMAL HAKAN GÜLKESEN