Weighted XGBoost based active learning framework for fraud detection with using small number of samples

Az sayıda örnek kullanarak dolandırıcılık tespiti yapan ağırlıklı XGBoost tabanlı aktif öğrenme methodu

PDF İndir

Tez No: 911930
Yazar: MEHMET ONUR ERBOY
Danışmanlar: DOÇ. DR. ALİ CAN KARACA
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 96

Özet

Dolandırıcılık vakaları nadir görülür ve karşılaşıldığında büyük maddi kayıplara yol açar. Ayrıca, sürekli değişen bir yapıya sahiptir. Bu nedenle, dolandırıcılığın tespiti, makine öğrenimi teknikleriyle çözülmesi gereken önemli bir problemdir. Ancak dolandırıcılık vakaları için yeterli etiketli veri bulunmadığından genellikle uzman görüşüne ihtiyaç duyulur. Aktif öğrenme, uzmanların etiketlemesi için en belirsiz ve ayırt edici örnekleri seçerek doğru öğelerin etiketlenmesini sağlar ve makine öğrenimi algoritmalarıyla dolandırıcılığın tespitinde kullanılır. Sözde etiketleme ise makine öğreniminin etiket tahminlerini, belirli örnekler için gerçek etiket olarak kullanır. Bu tezde, en düşük güven belirsizlik örneklemesi ve K-means küme tabanlı çeşitlilik örneklemesinin hibrit bir aktif öğrenme yaklaşımını, sözde etiketleme ve çeşitlilik örnekleme ile birleştirerek ağırlıklı XGBoost yöntemini kullandık. Nadir görülen dolandırıcılık vakaları için az veriyle çalışabilecek bir model geliştirdik. Değerlendirmelerimiz, geleneksel \% 70 veriyle yapılan eğitim yöntemine kıyasla \% 4'ten az veriyle benzer F1 skorlarına ulaşılabildiğini gösterdi. İzolasyon Ormanı, Destek Vektör Makinesi, Sinir Ağı, XGBoost ve Catboost yöntemlerini, belirsizlik tabanlı ve küme tabanlı çeşitlilik örnekleme stratejileriyle karşılaştırdık. Üç farklı dolandırıcılık veri kümesi üzerinde yaptığımız testlerde, önerilen yöntem diğer yaklaşımlardan daha iyi performans gösterdi. En düşük güven belirsizlik örneklemesi, sözde etiketleme ve K-means çeşitlilik örneklemesinin birleşimi en etkili yöntem olarak belirlendi.

Özet (Çeviri)

Fraud cases are rare but costly and exhibit a continuously changing nature, making fraud detection a widely studied problem in machine learning. However, labeled data for fraud cases is scarce and often requires expert input for labeling. Active learning addresses this by selecting the most uncertain and distinguishable samples for expert labeling, enhancing machine learning-based fraud detection. Pseudo-labeling, on the other hand, uses machine learning predictions as actual labels for selected samples. Scope of the thesis, we proposed a method that uses a hybrid active learning approach of Least Confidence uncertainty sampling and K-means cluster-based diversity sampling combined with a hybrid approach with pseudo labeling and diversity sampling using weighted XGBoost as a machine learning method. Evaluations show that our approach achieves nearly identical F1 scores using less than 4\% of samples in training, compared to traditional methods requiring 70\% of samples. We evaluated combinations of Isolation Forest, Support Vector Machine, Neural Network, XGBoost, and CatBoost with uncertainty-based active learning strategies as Margin Confidence, Ratio Confidence, Entropy and hybrid approaches using cluster-based diversity sampling. We also examined the effect of pseudo-labeling for each combination across three fraud detection datasets. Our proposed approach outperformed all tested methods. Least Confidence uncertainty sampling, coupled with pseudo-labeling and K-means cluster-based diversity sampling, proved to be the most effective strategy for labeling fraud cases within the scope of this thesis.

Benzer Tezler

Tez No
960120
Beyin manyetik rezonans görüntülerinde makine öğrenmesi tabanlı tümör tespiti ve sınıflandırılması
Machine learning based tumor detection and classification in brain magnetic resonance images
ÖZLEM ALTIOK
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliği Hitit Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT ALPARSLAN GÜNGÖR
Tez No
868856
Optuna tabanlı makine öğrenmesi yöntemleriyle Bitcoin fiyat tahminleme yaklaşımları
Bitcoin price forecasting approaches with optuna-based machine learning methods
BERKAY YILDIRIM
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT TAŞKIRAN
Tez No
968364
Türkiye'de yenilenebilir enerji şirketleri için borsa endeksi oluşturulması ve makroekonomik göstergelerle ilişkisi
Constructing a stock market index for renewable energy companies in Türkiye and analyzing its relationship with macroeconomic indicators
RIFAT MERT AKBULUT
Yüksek Lisans
Türkçe
2025
İstatistik Kırıkkale Üniversitesi
İstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERAP YÖRÜBULUT
Tez No
768813
Coğrafi bilgi sistemleri entegreli makine öğrenmesine dayalı toplu taşınmaz değerleme modelinin geliştirilmesi
Development of mass property valuation model based on geographic information systems integrated machine learning methods
MUHAMMED OĞUZHAN METE
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Geomatik Mühendisliği Ana Bilim Dalı
PROF. DR. TAHSİN YOMRALIOĞLU
Tez No
940901
Gaziantep'te PM2.5 konsantrasyonunun zamansal ve mekânsaltahminine yönelik transfer öğrenme destekli hibrit yapay zeka modelleri
Spatio-temporal estimation of PM2.5 concentrations in gaziantepusing transfer learning-based hybrid artificial intelligence models
TÜRKAN ZENGİN GÖMLEKSİZ
Yüksek Lisans
Türkçe
2025
Meteoroloji İstanbul Teknik Üniversitesi
İklim Bilimi ve Meteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. HÜSEYİN TOROS

Geri Dön