Suç veri setini analiz etmek için makine öğreniminde örnekleme teknikleri ve uygulaması

Sampling techniques and application in machine learning in order to analyse crime dataset

PDF İndir

Tez No: 739944
Yazar: SEVİL BAŞARIR
Danışmanlar: PROF. DR. AYLA ŞAYLI
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Mathematics, Engineering Sciences
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Matematik Mühendisliği Bilim Dalı
Sayfa Sayısı: 103

Özet

Teknolojinin son derece gelişmiş ve hızlı bir şekilde gelişmekte olduğu bu çağlarda veri çok önemli bir konumdadır. Fakat sadece veriye sahip olmak tek başına bir anlam ifade etmez. Bu nedenle verilerin işlenmesi, analiz edilmesi ve bu verilerden tutarlı tahminler yapmak veriyi kıymetli hale dönüştürür. Makine öğrenmesi, makinelerin bilgiyi öğrenmesini ve öğrendiği bilgiyi kullarak çıkarımlar yapmasını sağlar. Bu makalede, beş yıla ait suç verileri ele alınarak analiz edildi ve makinenin elindeki verilerle öğreme işleminin tamamlanması sağlandı. Verinin analizi sürecinde One-Hot Encoding ve Min-Max Normalizasyon metotları ile Temel Bileşenler Analizi algoritması kullanıldı. Modelden suçlunun yakalanıp yakalanamaması, bölgenin güvenliği ve işlenen suçun tipini K En Yakın Komşu, Rastgele Orman ve Aşırı Gradyan Artırma Sınıflandırma algoritmaları kullanılarak tahmin etmesi istendi. Fakat dengesiz veri setlerinde model ne kadar başarılı olursa olsun sonuç yanıltıcı olur. Bu nedenle bu makalenin asıl amacı dengesiz verinin çeşitli metotlarla dengeli hale dönüştürülmesi ve veri için sınıflandırma metodu ile uyumlu en doğru örnekleme metodunu bulmaktır. Bu amaçla tutuklanma, suç tipi ve güvenlik hedef alanlarında verinin dengesizliğinin önüne geçmek için bir tane istatistiki örnekleme metodu (Tabakalaştırma), üç tane aşırı örnekleme metodu (Rastgele Üst Örnekleyici, Sentetik Azınlık Aşırı Örnekleme, Uyarlamalı Sentetik Azınlık Aşırı Örnekleme metotları), üç tane alt örnekleme metodu (Rastgele Alt Örnekleyici, Ramak Kala Alt Örnekleme, Yakın Komşu Temizleme Kuralı Alt Örnekleme metotları) ve bir tane alt ve bir tane aşırı örneklemenin beraber kullanıldığı hibrit örnekleme metodu (Smote Tomek) uygulanmıştır. Uygulanan örnekleme yöntemleri sonucunda verimli ve etkili sonuçlar elde edilmiştir.

Özet (Çeviri)

In these eras where technology is extremely advanced and developing rapidly, data is in a very important position. But just having data doesn't make sense on its own. Therefore, processing and analyzing data and making consistent predictions from these data turns data into valuable. Machine learning enables machines to learn information and make inferences using the information it has learned. In this article, five years of crime data were analyzed and the learning process was completed with the data in the machine's hands. One-Hot Encoding and Min-Max Normalization methods and Principal Component Analysis algorithm were used in the analysis of the data. The model was asked to predict whether the criminal could be caught, the security of the area, and the type of crime committed using the K-Nearest Neighborhood, Random Forest and Extreme Gradient Boosting algorithms. However, no matter how successful the model is in imbalanced datasets, the result will be misleading. Therefore, the main purpose of this article is to transform the imbalanced data into a balanced one by various methods and to find the most accurate sampling method for the data, which is compatible with the classification method. For this purpose, one statistical sampling method (Stratify), three over sampling method (Random Over Sampler, Synthetic Minority Over, Adaptive Synthetic), three under sampling method (Random Under Sampler, Near Miss, Neighborhood Cleaning Rule) and hybrid samplig method (Smote Tomek) have been applied to avoid imbalance of data in target areas such as Arrest, Crime Type, Security. As a result of the sampling methods applied, efficient and effective results were obtained.

Benzer Tezler

Tez No
676860
Kırsal topluluklarda tarımsal suç olgusu: Denizli Bozkurt örneği
Agricultural crime fact in rural communities: The Denizli Bozkurt sample
MURAT MADENÜS
Doktora
Türkçe
2021
Sosyoloji Gazi Üniversitesi
Sosyoloji Ana Bilim Dalı
PROF. DR. HAYATİ BEŞİRLİ
Tez No
956443
Adli muhasebe kapsamındaki suçların dijitalleşme ve ekonomik büyüme ile ilişkisi: Türkiye örneği
The relationship between economic growth, digitalization, and forensic accounting crimes: The case of Turkey
GÜLNUR UÇAR
Doktora
Türkçe
2025
İşletme Selçuk Üniversitesi
İşletme Ana Bilim Dalı
PROF. DR. MUHAMMET BEZİRCİ
Tez No
713300
Sokaklarda yürünebilirlik görsel kalite ve suç ilişkisi: Ankara Ulus örneği
The relationship between walkability, visual quality and crime on the streets: The case of Ankara Ulus
SÜMEYYE AKBABA
Yüksek Lisans
Türkçe
2022
Şehircilik ve Bölge Planlama Gazi Üniversitesi
Şehir ve Bölge Planlama Ana Bilim Dalı
PROF. DR. AYŞE TEKEL CUBEIRO
Tez No
583120
Örgütsel itaate paradoksal yaklaşım: Bir ölçek geliştirme çalışması
A paradoxical approach to organizational obedience and a scale development
GÜLER ERTAŞ
Doktora
Türkçe
2019
İşletme Beykent Üniversitesi
İşletme Ana Bilim Dalı
PROF. DR. ÜLKÜ UZUNÇARŞILI
Tez No
750928
Mekânsal büyük veri analizi
Spatial big data analysis
MERAL ÖNDER
Yüksek Lisans
Türkçe
2022
Ekonometri İnönü Üniversitesi
Ekonometri Ana Bilim Dalı
PROF. DR. FATMA ZEREN

Geri Dön