Geri Dön

Comperative evaluation of unsupervised fraud detection algorithms with feature extraction and scaling in purchasing domain

Satın alma alanında özellik çıkarma ve ölçekleme ile denetimsiz sahtekarlık tespit algoritmalarının karşılaştırmalı değerlendirmesi

  1. Tez No: 904565
  2. Yazar: YİĞİT CAN TAŞOĞLU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Veri Analitiği Ana Bilim Dalı
  12. Bilim Dalı: Büyük Veri Analitiği ve Yönetimi Bilim Dalı
  13. Sayfa Sayısı: 75

Özet

Çalışmanın temel amacı, denetimsiz aykırı değer tespit yöntemlerini karşılaştırarak, etiketli veriye ihtiyaç duymayan bu algoritmaların gerçek dünya satın alma verileri üzerindeki etkinliğini değerlendirmektir. Etiketlenmiş verinin genellikle mevcut olmadığı durumlarda bu tür yöntemler oldukça avantajlıdır. Tez, finans ve satın alma sektörleri gibi büyük veri setlerine sahip alanlarda dolandırıcılık tespitinin zorluklarını vurgulamaktadır. Dolandırıcılık erken tespit edilmediğinde, bu sektörlerde ciddi mali kayıplara yol açabilmektedir. Geleneksel, kurallara dayalı tespit yöntemleri genellikle karmaşık dolandırıcılık desenlerini yakalamakta yetersiz kalmaktadır. Bu yöntemler, dolandırıcılığın sürekli değişen doğası karşısında etkinliğini kaybetmekte ve yeni dolandırıcılık tekniklerini tespit etmekte başarısız olabilmektedir. Dolandırıcılar, kurallara dayalı sistemlerdeki boşlukları tespit edip bunlardan yararlanabilir. Bu noktada denetimsiz algoritmalar devreye girer. Denetimsiz öğrenme algoritmaları, veri setindeki genel davranıştan sapmaları tespit ederek, daha önce görülmemiş dolandırıcılık yöntemlerini ortaya çıkarabilmektedir. Bu çalışma, mesafe tabanlı, makine öğrenimi tabanlı ve özellik tabanlı modeller gibi çeşitli yöntemleri uygulamakta ve bu modelleri özellik çıkarma ve ölçekleme gibi veri işleme teknikleriyle iyileştirmeyi hedeflemektedir. Local Outlier Factor (LOF), DBSCAN ve Isolation Forest gibi yaygın olarak kullanılan yöntemler bulunmaktadır. Bu algoritmalar, doğruluk, hassasiyet, geri çağırma ve F1 skoru gibi performans metrikleri kullanılarak karşılaştırılmıştır. Yapılan analizlerde, LOF algoritması en yüksek doğruluğa ulaşarak, satın alma verilerinde riskli talepleri tespit etme açısından en etkili model olarak öne çıkmıştır. LOF algoritması, komşuluk ilişkilerini inceleyerek, her bir veri noktasının lokal yoğunluğunu hesaplar ve yoğunluktan sapmaları tespit eder. Bu sayede, dolandırıcılık faaliyetleri gibi aykırı değerlerin tespitinde başarılı olur. DBSCAN, yoğunluk tabanlı bir kümeleme algoritmasıdır ve küme dışındaki noktaları aykırı değer olarak tanımlar. Bu algoritma, özellikle kümelenemeyen ve izole kalan noktaları dolandırıcılık açısından incelemek için uygundur. Ancak, DBSCAN'ın performansı, parametrelerin doğru ayarlanmasına bağlıdır. Isolation Forest ise, veri noktalarını bölerek aykırı değerleri tespit eder. Aykırı değerler genellikle daha az bölünme gerektirdiği için, bu model dolandırıcılık tespitinde etkili olabilir. Ancak, diğer algoritmalara göre bazı karmaşık dolandırıcılık desenlerini yakalamakta yetersiz kalabilir. Özellikle veri dönüşümleri ve ölçekleme teknikleri ile model verimi önemli ölçüde artırılmıştır. Ölçekleme, veri setindeki sayısal özelliklerin farklı büyüklükteki değerlerinin analiz sonuçlarını bozmasını engellemek için kullanılan önemli bir tekniktir. Özellikle, satın alma verilerinde miktar ve fiyat gibi değişkenlerin farklı büyüklüklerde olması, ölçekleme yapılmadığında bazı özelliklerin diğerlerine göre daha fazla etkili olmasına neden olabilir. Yapılan deneylerde, ölçekleme uygulanmadığında LOF algoritmasının doğruluğu %88 iken, ölçekleme sonrası bu oran %98'e yükselmiştir. Ölçekleme ayrıca algoritmaların hesaplama süresini ve doğruluğunu artırarak, verilerin daha hızlı işlenmesini sağlamaktadır. Özellikle, yüksek boyutlu veri setlerinde mesafe tabanlı algoritmaların performansı, ölçekleme ile büyük ölçüde iyileştirilmektedir. Özellik çıkarma, model performansını artıran kritik bir adımdır. Çıkarılan özellikler, modelin daha karmaşık dolandırıcılık kalıplarını tespit etmesini sağlamaktadır. Örneğin, bir kullanıcının belirli bir tedarikçiye yönelik alışılmadık derecede sık taleplerde bulunması, potansiyel bir dolandırıcılık göstergesi olarak değerlendirilebilir. Benzer şekilde, tedarikçi kategorileri, satın alma tutarları ve onay süreleri gibi çıkarılan özellikler, dolandırıcılık tespitinde derinlemesine analizler yapılmasına olanak tanır. Tezde yapılan deneylerde, özellik çıkarma işlemi uygulanmamış bir veri seti ile çıkarılan özelliklerin kullanıldığı bir veri seti karşılaştırılmıştır. Sonuçlar, çıkarılan özelliklerin model performansını önemli ölçüde artırdığını göstermiştir. Özellik çıkarma uygulanmayan veri setinde LOF algoritmasının doğruluğu %36 iken, çıkarılan özelliklerle bu oran %54'e yükselmiştir. Bu, özellikle veri setindeki önemli ilişki ve kalıpların yakalanmasına olanak sağlamış ve dolandırıcılık tespitini daha güvenilir hale getirmiştir. Tezde yapılan vaka çalışmasında, 934 satın alma işlemi incelenmiş ve denetimsiz aykırı değer tespit algoritmaları kullanılarak her bir işlem için risk puanı hesaplanmıştır. Risk puanlarına göre en riskli %10'luk dilimde yer alan işlemler, satın alma uzmanları tarafından manuel olarak incelenmiştir. Bu incelemeler sonucunda, seçilen 95 işlemden 58'inin dolandırıcılık faaliyetleri içerdiği tespit edilmiştir. Bu bulgu, modelin yaklaşık %61 oranında bir tespit doğruluğuna sahip olduğunu göstermektedir. Bu oran, iş süreçlerinde önemli bir iyileşme sağlamaktadır; çünkü manuel incelemelerde genellikle işlemlerin yalnızca %1 ila %3'ü dolandırıcılık faaliyetleri içerir. Tezde denetimsiz dolandırıcılık tespit algoritmalarının etkinliğini değerlendirmek için çeşitli stratejiler kullanılmıştır. Görsel inceleme, model performansını değerlendirmek için kullanılan önemli bir yöntemdir. Farklı boyutlardaki veriler grafiksel olarak incelenerek, dolandırıcılık kalıpları görsel olarak tespit edilmeye çalışılmıştır. Ayrıca, ticari etki analizi ve anomali doğrulaması gibi yöntemlerle modellerin iş süreçlerine olan etkisi değerlendirilmiştir. Bununla birlikte, çalışmanın bazı sınırlamaları bulunmaktadır. Çalışmada incelenen veri seti yalnızca belirli bir sektör ve coğrafi bölge ile sınırlıdır. Bu nedenle, geliştirilen modellerin genelleştirilebilirliği konusunda sınırlamalar olabilir. Ayrıca, algoritmaların parametre optimizasyonuna yönelik daha kapsamlı bir çalışma yapılmamıştır. Dolayısıyla, farklı veri setleri üzerinde yapılan incelemelerde parametrelerin ayarlanması gerekebilir. Sonuç olarak, denetimsiz aykırı değer tespit algoritmalarının, özellikle özellik çıkarma ve ölçekleme gibi ön işleme teknikleriyle desteklendiğinde, satın alma sistemlerinde dolandırıcılığı tespit etmede etkili bir şekilde kullanılabileceğini kanıtlamaktadır. Bu yaklaşımlar, şirketlerin dolandırıcılık faaliyetlerini daha hızlı ve etkili bir şekilde tespit etmelerine olanak tanımakta, böylece finansal kayıpları ve operasyonel aksaklıkları en aza indirmektedir. Tezin bulguları, denetimsiz öğrenme algoritmalarının iş süreçlerinde önemli bir katma değer sağladığını ve bu yöntemlerin gelecekte daha da yaygın bir şekilde kullanılabileceğini göstermektedir.

Özet (Çeviri)

The main aim of the research is to evaluate and compare various unsupervised outlier detection methods that do not require labeled data, making them suitable for real-world purchasing data where labels are often unavailable. The thesis highlights the challenges of fraud detection in large datasets, particularly in industries like finance and purchasing, where fraudulent activities can cause significant financial losses if not identified early. The motivation behind the research lies in the limitations of traditional, rule-based detection methods, which often fail to capture complex fraud patterns. Unsupervised algorithms, which can detect anomalies based on their deviation from the general behavior of the dataset, offer a proactive approach to fraud detection by identifying unseen fraud concepts. This study applies various methods, including distance-based, machine learning-based, and feature-based models, and focuses on enhancing these models through feature extraction and scaling techniques. The thesis evaluates several algorithms, such as Local Outlier Factor (LOF), DBSCAN, and Isolation Forest, using performance metrics like accuracy, precision, recall, and F1 score. LOF was identified as the most effective model, achieving the highest accuracy and demonstrating a robust ability to detect irregular patterns in the purchasing data. However, the effectiveness of all algorithms was significantly enhanced by data transformations, particularly scaling. Scaling ensures that features with differing magnitudes, such as quantities and prices, do not distort the results, allowing for more accurate anomaly detection. The importance of feature extraction is also emphasized, as it helps identify intricate patterns between data points. Extracted features, such as the frequency of purchase orders, vendor categories, and purchase amounts, provide deeper insights into potential fraud indicators. Additionally, the study recognizes that the integration of multiple models can reduce the limitations inherent in individual algorithms, thus creating a more comprehensive fraud detection framework. By combining different unsupervised methods and leveraging feature extraction, the research offers a more adaptive and reliable approach to identifying fraudulent activities. In conclusion, this study proves that employing a combination of unsupervised outlier detection methods, along with appropriate data preprocessing techniques, significantly improves fraud detection in purchasing systems. These methods not only enhance accuracy but also help businesses reduce financial risks and improve operational efficiency, ensuring a more secure and effective fraud prevention strategy.

Benzer Tezler

  1. Novel models for credit card fraud detection

    Kredi kartı sahtekarlıklarının tespiti için yeni model önerileri

    YİĞİT KÜLTÜR

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET UFUK ÇAĞLAYAN

  2. BGP anomaly detection using association rule mining algorithms

    İlişkilendirme kuralı madenciliği algoritmasını kullanarak BGP anomali tespiti

    MUBAARAK ABDULLAH AL-TAMIMI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ZAFER ALBAYRAK

  3. Yassı alüminyum üretiminde kalite sınıflarının makine öğrenmesi yöntemleri ile tahminlenmesi

    Prediction of quality classification in flat rolled aluminium production using machine learning methods

    ALPEREN AYTATLI

    Doktora

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER KİRAZ

  4. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  5. Online anomaly detection with kernel density estimators

    Çekirdek yoğunluk tahmincileri ile çevrimiçi anomali tespiti

    MİNE KERPİÇÇİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN SERDAR KOZAT

    YRD. DOÇ. DR. HÜSEYİN ÖZKAN