Sınıf dengesiz büyük veride dolandırıcılık tespiti ve açıklanabilirlik
Fraud detection models in class imbalanced big data and explainability
- Tez No: 656874
- Danışmanlar: PROF. DR. ŞEREF SAĞIROĞLU, DR. MUSTAFA UMUT DEMİREZEN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 185
Özet
Elektronik ortamlarda gerçekleştirilen dolandırıcılık, doğası gereği dinamik bir problemdir. Çözüm modellerinin geliştirilmesi için eğitim sürecinde kullanılacak olan verilerin temini ve temin edilen verilerin etiketlenmesi zor, dolandırıcı olarak etiketli verinin miktarı ise genele oranla oldukça azdır. Büyük veri çağının sınıflar arası farkı daha da artırması ve geleneksel makine öğrenmesi yaklaşımlarının dengeli sınıf dağılımı varsayımı üzerinde tasarlanmış olması, dolandırıcılık tespit sürecini daha da zorlaştırmaktadır. Bu bağlamda, ilk defa bu tez kapsamında dolandırıcılık tespiti problemi sınıf dengesiz büyük veride veri bilimi bakış açısı ile ele alınmıştır. Telekom ve kredi kartı dolandırıcılığı özelinde, üç yeni tespit yöntemi ve bir açıklanabilir yapay zekâ yaklaşımı geliştirilmiştir. İlk yöntem, hem kullanıcıların belirli bir zaman diliminde yaptığı aktivitelerde oluşan anormal durumlardan hem de bilinen dolandırıcı aktivitelerinden faydalanılan, büyük veri analitiği tabanlı bir tespit sunar. İkinci yöntem, çoğunluk ve azınlık sınıf arasındaki dengesizliği gidermek amacıyla büyük veri analitiği ile kümeleme tabanlı yeniden örnekleme yaptıktan sonra sınıflandırma gerçekleştirerek dolandırıcılığı tespit eder. Üçüncü yöntem ise, dolandırıcılık verisini zamansal ilişkilerini koruyarak görüntüye dönüştürüp, özelliklerin ikili ilişkilerini çıkardıktan sonra derin sinir ağı ile sınıflandırmayı sağlar. Bu yöntemlere ilave olarak, geliştirilen yöntemler açıklanabilirlik açısından ele alınmış ve üçüncü yöntemin ne öğrendiğini daha iyi ortaya koymak amacıyla ısı haritası tabanlı yeni bir açıklanabilirlik yaklaşımı geliştirilmiştir. Bu yaklaşım, dolandırıcı-görüntü dönüşümünü sağlayan üçüncü tekniğin ürettiği ve belirli bir ölçekteki renk haritalarından oluşan görüntüler üzerindeki ilişkilerin daha net ifade edilmesini sağlamaktadır. Bu tez çalışmasında önerilen yöntemlerin; dolandırıcılık problemlerinin karşılaşılmadan çözümlenmesi, mevcudiyeti halinde otomatik olarak tespiti ve kullanıcılar ile hizmet sağlayıcıların karşılaşacakları risklerin azaltılmasına katkılar sağlaması beklenmektedir. Ayrıca, önerilen açıklanabilirlik yaklaşımının ise sadece dolandırıcılık değil diğer yapay zekâ modellerinin sonuçlarının da yorumlanmasına katkılar sağlayacağı öngörülmektedir.
Özet (Çeviri)
Fraud in electronic environments is a dynamic problem by its nature. It is difficult to obtain and label the data to be used in the training process for the development of solution models, and the amount of data labeled as fraudulent is relatively low compared to general. The fact that the big data age further increases the gap between classes and traditional machine learning approaches are designed on the assumption of balanced class distribution, making the fraud detection process even more difficult. In this context, for the first time in this thesis, the problem of fraud detection has been discussed in class imbalanced big data from a data science perspective. Specific to telecom and credit card fraud, three new detection methods and an explainable artificial intelligence approach have been developed. The first method provides a big data analytics-based detection that takes advantage of both anomalous situations occurring in the activities and known fraudulent activities of users in a certain time period. The second method is a big data analytics-based classifier that resamples before analysis in order to compensate for the imbalance between majority and minority class. The third method, on the other hand, enables processing-based data to be transformed into an image by preserving its temporal relationships, and after extracting the binary relationships of features, classifying it with a deep neural network. In addition to these methods, the developed methods are discussed in terms of Explained Artificial Intelligence (XAI) and a new heat map-based XAI approach has been developed to help better understand what the third method has learned. This approach provides a clearer expression of the relationships on images produced by the technique of fraud-image transformation and made up of color maps of a certain scale. The methods proposed in this thesis are expected to contribute to the resolution of fraud problems encountered in electronic environments, to automatically detect them if they exist, and to reduce the risks that users and service providers will encounter. In addition, the proposed XAI approach is predicted to contribute not only to fraud, but also to the interpretation of the results of other artificial intelligence models.
Benzer Tezler
- New proposed methods for synthetic minority over-sampling technique
Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler
HAKAN KORUL
Yüksek Lisans
İngilizce
2024
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiVeri Mühendisliği ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
- Fully supervised and semi-supervised semantic segmentation of cardiac mr using deep learning
Tam denetımlı ve yarı denetımlı semantık segmentasyon derın öğrenmeyı kullanan kardıyak mr'nın
MAHYAR BOLHASSANI
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
ASST. ASSOC. DR. İLKAY ÖKSÜZ
- Veri madenciliği yöntemleri kullanarak hava kirliliği tahmini
Prediction of air pollution using data mining methods
KIYMET KAYA
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
- Minority class augmentation in tabular data using generative adversarial network models
Üretken çekişmeli ağ modelleri kullanarak tablo verisinde azınlık sınıf artırımı
ESRANUR POLAT
Yüksek Lisans
İngilizce
2023
İstatistikOrta Doğu Teknik Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. FULYA GÖKALP YAVUZ
- Türkçe his analizinde optimizasyon ve ön-eğitimli modellerin kullanımı
Use of optimization and pre-trained models in Turkish emotion analysis
ALAETTİN UÇAN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EBRU SEZER