Geri Dön

Suç veri setini analiz etmek için makine öğreniminde örnekleme teknikleri ve uygulaması

Sampling techniques and application in machine learning in order to analyse crime dataset

  1. Tez No: 739944
  2. Yazar: SEVİL BAŞARIR
  3. Danışmanlar: PROF. DR. AYLA ŞAYLI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Mathematics, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Matematik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 103

Özet

Teknolojinin son derece gelişmiş ve hızlı bir şekilde gelişmekte olduğu bu çağlarda veri çok önemli bir konumdadır. Fakat sadece veriye sahip olmak tek başına bir anlam ifade etmez. Bu nedenle verilerin işlenmesi, analiz edilmesi ve bu verilerden tutarlı tahminler yapmak veriyi kıymetli hale dönüştürür. Makine öğrenmesi, makinelerin bilgiyi öğrenmesini ve öğrendiği bilgiyi kullarak çıkarımlar yapmasını sağlar. Bu makalede, beş yıla ait suç verileri ele alınarak analiz edildi ve makinenin elindeki verilerle öğreme işleminin tamamlanması sağlandı. Verinin analizi sürecinde One-Hot Encoding ve Min-Max Normalizasyon metotları ile Temel Bileşenler Analizi algoritması kullanıldı. Modelden suçlunun yakalanıp yakalanamaması, bölgenin güvenliği ve işlenen suçun tipini K En Yakın Komşu, Rastgele Orman ve Aşırı Gradyan Artırma Sınıflandırma algoritmaları kullanılarak tahmin etmesi istendi. Fakat dengesiz veri setlerinde model ne kadar başarılı olursa olsun sonuç yanıltıcı olur. Bu nedenle bu makalenin asıl amacı dengesiz verinin çeşitli metotlarla dengeli hale dönüştürülmesi ve veri için sınıflandırma metodu ile uyumlu en doğru örnekleme metodunu bulmaktır. Bu amaçla tutuklanma, suç tipi ve güvenlik hedef alanlarında verinin dengesizliğinin önüne geçmek için bir tane istatistiki örnekleme metodu (Tabakalaştırma), üç tane aşırı örnekleme metodu (Rastgele Üst Örnekleyici, Sentetik Azınlık Aşırı Örnekleme, Uyarlamalı Sentetik Azınlık Aşırı Örnekleme metotları), üç tane alt örnekleme metodu (Rastgele Alt Örnekleyici, Ramak Kala Alt Örnekleme, Yakın Komşu Temizleme Kuralı Alt Örnekleme metotları) ve bir tane alt ve bir tane aşırı örneklemenin beraber kullanıldığı hibrit örnekleme metodu (Smote Tomek) uygulanmıştır. Uygulanan örnekleme yöntemleri sonucunda verimli ve etkili sonuçlar elde edilmiştir.

Özet (Çeviri)

In these eras where technology is extremely advanced and developing rapidly, data is in a very important position. But just having data doesn't make sense on its own. Therefore, processing and analyzing data and making consistent predictions from these data turns data into valuable. Machine learning enables machines to learn information and make inferences using the information it has learned. In this article, five years of crime data were analyzed and the learning process was completed with the data in the machine's hands. One-Hot Encoding and Min-Max Normalization methods and Principal Component Analysis algorithm were used in the analysis of the data. The model was asked to predict whether the criminal could be caught, the security of the area, and the type of crime committed using the K-Nearest Neighborhood, Random Forest and Extreme Gradient Boosting algorithms. However, no matter how successful the model is in imbalanced datasets, the result will be misleading. Therefore, the main purpose of this article is to transform the imbalanced data into a balanced one by various methods and to find the most accurate sampling method for the data, which is compatible with the classification method. For this purpose, one statistical sampling method (Stratify), three over sampling method (Random Over Sampler, Synthetic Minority Over, Adaptive Synthetic), three under sampling method (Random Under Sampler, Near Miss, Neighborhood Cleaning Rule) and hybrid samplig method (Smote Tomek) have been applied to avoid imbalance of data in target areas such as Arrest, Crime Type, Security. As a result of the sampling methods applied, efficient and effective results were obtained.

Benzer Tezler

  1. Kırsal topluluklarda tarımsal suç olgusu: Denizli Bozkurt örneği

    Agricultural crime fact in rural communities: The Denizli Bozkurt sample

    MURAT MADENÜS

    Doktora

    Türkçe

    Türkçe

    2021

    SosyolojiGazi Üniversitesi

    Sosyoloji Ana Bilim Dalı

    PROF. DR. HAYATİ BEŞİRLİ

  2. Sokaklarda yürünebilirlik görsel kalite ve suç ilişkisi: Ankara Ulus örneği

    The relationship between walkability, visual quality and crime on the streets: The case of Ankara Ulus

    SÜMEYYE AKBABA

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Şehircilik ve Bölge PlanlamaGazi Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. AYŞE TEKEL CUBEIRO

  3. Örgütsel itaate paradoksal yaklaşım: Bir ölçek geliştirme çalışması

    A paradoxical approach to organizational obedience and a scale development

    GÜLER ERTAŞ

    Doktora

    Türkçe

    Türkçe

    2019

    İşletmeBeykent Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. ÜLKÜ UZUNÇARŞILI

  4. Mekânsal büyük veri analizi

    Spatial big data analysis

    MERAL ÖNDER

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Ekonometriİnönü Üniversitesi

    Ekonometri Ana Bilim Dalı

    PROF. DR. FATMA ZEREN

  5. Avrupa Birliği'nde suçu etkileyen sosyoekonomik faktörlerin robust yöntemler ile analizi

    Analysis of socioeconomic factors affecting crime in the European Union with robust methods

    NESLİHAN AKIN ÖZDEMİR

    Doktora

    Türkçe

    Türkçe

    2022

    İstatistikİstanbul Üniversitesi

    Sayısal Yöntemler Ana Bilim Dalı

    PROF. DR. ÇİĞDEM ARICIGİL ÇİLAN