Geri Dön

Four classification methods Naïve Bayesian, support vector machine, K-nearest neighbors and random forest are tested for credit card fraud detection

Kredi kartı dolandırıcılık tespiti için dört sınıflandırma yöntemi test edilmiştir: (Naive Bayesian, destek vektör makinesi, K-en yakın komşu ve rastgele orman)

  1. Tez No: 507937
  2. Yazar: LAYTH RAFEA HAZIM
  3. Danışmanlar: Assist. Prof. Dr. OĞUZ ATA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Altınbaş Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilişim Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Bilişim Teknolojileri Bilim Dalı
  13. Sayfa Sayısı: 97

Özet

Bankalar, her yıl birkaç nedenden dolayı milyonlarca para kaybına maruz kalmaktadır; bunların en önemlisi kredi kartı sahtekarlığıdır. Aslında, mesele, bu tür bir sahtekârlıkla karşılaştığımız zorluklarla nasıl başa çıkılacağından ibarettir. Yönelimli“sınıf dengesizliği”bu tür sahtekarlık konusunda çok önemli bir sorun oluşturmaktadır. Bu nedenle, bu çalışmada, Avrupalı kart sahiplerine ilişken gerçek kredi kartı işlemleri üzerine dört veri madenciliği tekniğini araştırıyoruz, bunlar: NAİVE BAYESİAN (NB), DESTEK VEKTÖR MAKİNESİ (SVM), K-EN YAKIN KOMŞU (KNN) ve RASTGELE ORMAN (RF). Bu makale dört önemli nokta sunmaktadır. İlk olarak, çarpık dağılımı gösteren yüksek dengesizlik sınıfı nedeniyle veri kümesini dengelemek için alt örneklemeyi kullandık. İkinci adımda, işlemlerin sahte ve gerçek olarak sınıflandırılması için alt örneklenmiş sınıflarımıza iyi bilinen modeller uyguladık, ardından bir“karışıklık matrisi”kullanarak performans ölçümlerini test ettik ve bunları karşılaştırdık. Üçüncüsü, Modellerimizin doğruluğunu standart sapma ile test etmek ve sonuçları tüm modellerimiz ile karşılaştırmak için 10 katlamayla çapraz validasyonu (CV) uyguladık. Daha sonra, belirli bir dolandırıcılık türü ile hangi modelin kullanılmasının en iyi model olacağını belirlemek için sonuçların sonuçlandırılması amacıyla karışıklık matrisi ve AUC (ROC eğrisinin altındaki alan) sıralama hatası kullanılarak tüm veri kümesine (çarpık) karşı dört model incelendi. Araştırmamızda Python programlama dilli kullandık. Dört sınıflandırma yöntemi (NB, SVM, KNN ve DF) için en iyi doğruluğu gösteren sonuçlar sırasıyla, %97,46, %95.04, %97,55 ve %97,7'dir. Karşılaştırmalı sonuçlar RF'nin NB, SVM ve KNN'den daha iyi performans gösterdiğini göstermekte ve bu sonuçlar, tüm veri seti (çarpık) üzerinde önerilen çalışmamızı kullandığımızda, örneklenmiş veri kümesinden daha iyi sonuçlar elde etmiştir.

Özet (Çeviri)

Banks suffer multimillion money losses each year for several reasons, the most important of which is due to credit card fraud. In actuality, the issue is how to cope the challenges we face with this kind of fraud. Skewed“class imbalance”is a very important challenge with regard to this kind of fraud. Therefore, in this study, we explore four data mining techniques, namely 'naïve Bayesian (NB)', 'Support Vector Machine (SVM)', 'K-Nearest Neighbor (KNN)' and Random 'Forest (RF)', on actual credit card transactions from European cardholders. This paper offers four major contributions. First, we used under-sampling to balance the dataset because of the high imbalance class, implying skewed distribution. Second, we applied well-known models (NB, SVM, KNN and RF) to our under-sampled class to classify the transactions into fraudulent and genuine followed by testing the performance measures using a“confusion matrix”and comparing them. Third, we adopted cross validation (CV) with 10 folds to test the accuracy of our models with a standard deviation followed by comparing the results for all our models. Next, we examined four models against the entire dataset (skewed) using the confusion matrix and AUC ('Area Under the ROC Curve') ranking measure in order to conclude the final results to determine which would be the best model for us to use with a particular type of fraud. In our work, is used the Python programming language. The results showing the best accuracy for the NB, SVM, KNN and RF classifiers are 97.46%, 95.04%, 97.55% and 97.7%, respectively. The comparative results display that RF performs better than NB, SVM and KNN, and the results, when utilized our proposed study on the entire dataset ('skewed'), achieved preferable outcomes than the undersampled dataset.

Benzer Tezler

  1. An imputation algorithm based on nature-inspired metaheuristic for missing values in the diabetes disease dataset

    Başlık çevirisi yok

    ANAS MUDHAFAR AHMED AHMED

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TİMUR İNAN

  2. Doku ve renk öznitelikleriyle tarla görüntülerinden bitki ve fenolojik evrelerinin çıkarımı

    Plant and phenology recognition from field images using texture and color features

    FATİH GÜLAÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  3. Konteyner liman operasyonlarının makine öğrenmesi yöntemleri ile analizi

    Analysis of container port operations using machine learning methods

    ÜSTÜN ATAK

    Doktora

    Türkçe

    Türkçe

    2022

    Deniz Bilimleriİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    PROF. DR. YASİN ARSLANOĞLU

    PROF. DR. TOLGA KAYA

  4. Beyin - bilgisayar etkileşimi verilerin analizi ve uygulamaları

    Analysis of brain - computer interaction data and related applications

    ALİCAN DOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. EFENDİ NASİBOĞLU

  5. Beyond the ACDM model: Addressing observational tensions of cosmology with negative and/or oscillating dark energy density

    ACDM modeliıniın ötesinde: kozmolojik gözlemsel çatışmaların negatif ve/veya salınan karanlık enerji yoğunluğu ile dizginlenmesi

    EMRE ÖZÜLKER

    Doktora

    İngilizce

    İngilizce

    2024

    Astronomi ve Uzay Bilimleriİstanbul Teknik Üniversitesi

    Fizik Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR AKARSU