Geri Dön

Çekişmeli üretici ağlar ile sentetik veri üretiminin kredi kartı sahtekarlığı tespitine etkisi

The effect of synthetic data generation with generative adversarial networks on credit card fraud detection

  1. Tez No: 687459
  2. Yazar: ENSAR BAYHAN
  3. Danışmanlar: DOÇ. DR. MİNE ELİF KARSLIGİL YAVUZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 80

Özet

Gelişen teknoloji ile birlikte insanların ödeme alışkanlıkları değişmiş, kredi kartları daha güvenilir, hızlı ve pratik olması açısından nakit paranın yerini almaya başlamıştır. Temassız ve çevrimiçi ödemelerin de yaygınlaşması ile birlikte kredi kartları günümüzde, temel ödeme aracı olarak anılmaya başlanmıştır. Kredi kartı kullanımının artması, işlemlerin güvenli bir şekilde yapılmasını zorlaştırmış, kredi kartı sahtekarlarının yeni dolandırıcılık yöntemleri geliştirmesine olanak sağlamıştır. Bankalar sahtekarlık işlemlerinden her sene milyarlarca dolar zarar etmektedir. Oluşan maddi zararın yanında, müşteri ve itibar kaybı gibi manevi zararlara da sebep olmaktadır. Kredi kartı sahtekarlarının ele geçirdikleri kart bilgileriyle işlem yapmasını engelleyecek hızlı ve güvenilir sistemlere ihtiyaç duyulmaktadır. Bu çalışmada kredi kartı sahtekarlığı problemi incelenmiş, sahtekarlık işlemlerinin tespitinde başarı oranını attırmak için yeni bir yöntem önerilmiştir. Yapılan çalışmada normal ve sahtekarlık harcamalarına ait gerçek veri kümesi kullanılmıştır. İlk olarak hazırlanan veri kümesinin özellikleri belirlenmiştir. Ardından kart sahiplerinin önceki işlemleri kullanılarak yeni özellikler türetilmiş, mevcut özellikler ile birlikte yeni türetilen özelliklere, özellik seçimi uygulanmıştır. Yapılan bu özellik türetimi ve seçimi, kart kullanıcılarının ödeme alışkanlıklarının model tarafından daha iyi öğrenilmesini sağlamıştır. Mevcut özellikler kullanılarak rastgele orman sınıflandırıcısı ile %86.21 başarı elde edilirken, özellik türetimi ve seçimi işlemleri sonucunda %88.24 başarı elde edilmiştir. Kredi kartı sahtekarlığı için kullanılan veri kümelerinin en önemli ortak problemi sahte ve yasal işlemlerin aşırı dengesiz olmasıdır. Bu çalışmada, bu soruna çözüm olması amacıyla GAN (Generative Adversarial Networks) ve SMOTE (Synthetic Minority Oversampling Technique) yöntemleri kullanılarak sentetik sahte işlemler üretilmiştir. Öncelikle, özellik türetme ve seçme işlemlerinden sonra elde edilen özelliklerin GAN'a uygun hale getirilmesi amacıyla özkodlayıcı (autoencoder) model kullanılarak özellik çıkarılmıştır. Veri kümesinde bulunan işlemler ile GAN modeli eğitilmiş, ardından çeşitli sayı ve oranlarda sentetik sahte ve yasal işlemler üretilmiştir. GAN, CGAN, WGAN ve CTGAN ile yapılan deneyler sonucunda en başarılı GAN modelinin CTGAN olduğu tespit edilmiştir. CTGAN ile 50.000 adet sentetik veri üretildiğinde %88.75 sınıflandırma başarısı elde edilmiştir. Kredi kartı sahtekarlığı tespiti yapmaya yönelik pek çok sistemde sahte işlem sayısının yetersizliği en önemli problemdir. Bu nedenle sistem başarısı 500 adet sahte ve 2500 adet yasal işlemden oluşan veri kümesi ile de değerlendirilmiştir. Bu veri kümesi için %80.59 olan sınıflandırma başarısı, 200 adet sentetik sahte işlem üretilerek mevcut örneklere eklendiğinde %82.33'e yükselmiştir. Bu sonuç kredi kartı sahtekarlığı için sentetik veri üretme işleminin sistem başarısını arttırdığını göstermektedir.

Özet (Çeviri)

With the developing technology, people's payment habits have changed, and credit cards have started to replace cash in terms of being more reliable, fast and practical. With the spread of contactless and online payments, credit cards have begun to be referred to as the primary payment method today. The increase in the use of credit cards has made it difficult to conduct transactions securely, allowing credit card fraudsters to develop new fraud methods. Banks lose billions of dollars each year from fraudulent transactions. In addition to the material damage, it also causes moral damages such as loss of customer and reputation. There is a need for fast and reliable systems that will prevent credit card fraudsters from transacting with the card information they have seized. In this study, the credit card fraud problem has been examined and a new method has been proposed to increase the success rate in detecting fraudulent transactions. In the study, the real dataset of legitimate and fraudulent transactions was used. First, the features of the prepared data set were determined. Then, new features were derived using the previous transactions of the cardholders, and feature selection was applied to the newly derived features along with the existing features. This feature creation and selection enabled the model to better learn the payment habits of card users. While using the existing features, 86.21% success was achieved with the random forest classifier, and 88.24% success was achieved as a result of feature generation and selection processes. The most common problem with credit card fraud datasets is that fraud and legal transactions are extremely unbalanced. In this study, synthetic transactions were produced by using GAN (Generative Adversarial Networks) and SMOTE (Synthetic Minority Oversampling Technique) methods in order to solve this problem. First of all, features were extracted using the autoencoder model in order to make the features suitable for GAN which obtained after feature creation and selection processes. The GAN model is trained by using real transactions and then synthetic fraud and legitimate transactions in various numbers and rates are generated. As a result of the experiments with GAN, CGAN, WGAN and CTGAN, it was determined that the most successful GAN was CTGAN. When 50,000 synthetic data were generated with CTGAN, 88.75% classification success was achieved. In credit card fraud detection systems, the insufficiency of the number of fraudulent transactions is the most important problem. For this reason, the success of the system was also evaluated with a dataset consisting of 500 fraud and 2500 legal transactions. The classification success for this dataset, which was 80.59%, increased to 82.33% when 200 synthetic fraud transaction were generated and added to the existing samples. This result shows that the process of generating synthetic data for credit card fraud increases the success of the system.

Benzer Tezler

  1. Oyun karakteri üretimi için üretken modeller

    Generative models for game character generation

    FERDA GÜL AYDIN EMEKLİGİL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. İLKAY ÖKSÜZ

  2. Dönüştürücü tabanlı çekişmeli üretici ağlar ile yüz ifadelerindeki değişimin analizi

    Analysis of change in facial expressions with transformer-based generative adversarial networks

    NARMIN YAGUBBAYLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MERT BAL

  3. Generating synthetic data for user behavior based intrusion detection systems

    Kullanıcı davranışına dayalı saldırı tespit sistemleri için sentetik veri oluşturulması

    UGHUR IBRAHIMOV

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. ENVER ÖZDEMİR

  4. Yapay zeka ve mimarlık etkileşimi üzerine bir çalışma:Üretken çekişmeli ağ algoritması ile otonom mimari plan üretimi ve değerlendirmesi

    A study on interaction of artificial intelligence and architecture: Production and evaluation of architectural plans with generative adversarial networks

    CAN UZUN

    Doktora

    Türkçe

    Türkçe

    2020

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. MERYEM BİRGÜL ÇOLAKOĞLU

  5. Mimari kesit aracıyla sentetik üretim: Oditoryum örneği

    Synthetic generation with the architectural section tool: An example of auditorium

    ŞEMSİ BARIŞ TERZİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    DOÇ. DR. SEMA ALAÇAM

    DR. ÖZGÜN BALABAN