Suç veri setini analiz etmek için makine öğreniminde örnekleme teknikleri ve uygulaması
Sampling techniques and application in machine learning in order to analyse crime dataset
- Tez No: 739944
- Danışmanlar: PROF. DR. AYLA ŞAYLI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Mathematics, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Matematik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 103
Özet
Teknolojinin son derece gelişmiş ve hızlı bir şekilde gelişmekte olduğu bu çağlarda veri çok önemli bir konumdadır. Fakat sadece veriye sahip olmak tek başına bir anlam ifade etmez. Bu nedenle verilerin işlenmesi, analiz edilmesi ve bu verilerden tutarlı tahminler yapmak veriyi kıymetli hale dönüştürür. Makine öğrenmesi, makinelerin bilgiyi öğrenmesini ve öğrendiği bilgiyi kullarak çıkarımlar yapmasını sağlar. Bu makalede, beş yıla ait suç verileri ele alınarak analiz edildi ve makinenin elindeki verilerle öğreme işleminin tamamlanması sağlandı. Verinin analizi sürecinde One-Hot Encoding ve Min-Max Normalizasyon metotları ile Temel Bileşenler Analizi algoritması kullanıldı. Modelden suçlunun yakalanıp yakalanamaması, bölgenin güvenliği ve işlenen suçun tipini K En Yakın Komşu, Rastgele Orman ve Aşırı Gradyan Artırma Sınıflandırma algoritmaları kullanılarak tahmin etmesi istendi. Fakat dengesiz veri setlerinde model ne kadar başarılı olursa olsun sonuç yanıltıcı olur. Bu nedenle bu makalenin asıl amacı dengesiz verinin çeşitli metotlarla dengeli hale dönüştürülmesi ve veri için sınıflandırma metodu ile uyumlu en doğru örnekleme metodunu bulmaktır. Bu amaçla tutuklanma, suç tipi ve güvenlik hedef alanlarında verinin dengesizliğinin önüne geçmek için bir tane istatistiki örnekleme metodu (Tabakalaştırma), üç tane aşırı örnekleme metodu (Rastgele Üst Örnekleyici, Sentetik Azınlık Aşırı Örnekleme, Uyarlamalı Sentetik Azınlık Aşırı Örnekleme metotları), üç tane alt örnekleme metodu (Rastgele Alt Örnekleyici, Ramak Kala Alt Örnekleme, Yakın Komşu Temizleme Kuralı Alt Örnekleme metotları) ve bir tane alt ve bir tane aşırı örneklemenin beraber kullanıldığı hibrit örnekleme metodu (Smote Tomek) uygulanmıştır. Uygulanan örnekleme yöntemleri sonucunda verimli ve etkili sonuçlar elde edilmiştir.
Özet (Çeviri)
In these eras where technology is extremely advanced and developing rapidly, data is in a very important position. But just having data doesn't make sense on its own. Therefore, processing and analyzing data and making consistent predictions from these data turns data into valuable. Machine learning enables machines to learn information and make inferences using the information it has learned. In this article, five years of crime data were analyzed and the learning process was completed with the data in the machine's hands. One-Hot Encoding and Min-Max Normalization methods and Principal Component Analysis algorithm were used in the analysis of the data. The model was asked to predict whether the criminal could be caught, the security of the area, and the type of crime committed using the K-Nearest Neighborhood, Random Forest and Extreme Gradient Boosting algorithms. However, no matter how successful the model is in imbalanced datasets, the result will be misleading. Therefore, the main purpose of this article is to transform the imbalanced data into a balanced one by various methods and to find the most accurate sampling method for the data, which is compatible with the classification method. For this purpose, one statistical sampling method (Stratify), three over sampling method (Random Over Sampler, Synthetic Minority Over, Adaptive Synthetic), three under sampling method (Random Under Sampler, Near Miss, Neighborhood Cleaning Rule) and hybrid samplig method (Smote Tomek) have been applied to avoid imbalance of data in target areas such as Arrest, Crime Type, Security. As a result of the sampling methods applied, efficient and effective results were obtained.
Benzer Tezler
- Kırsal topluluklarda tarımsal suç olgusu: Denizli Bozkurt örneği
Agricultural crime fact in rural communities: The Denizli Bozkurt sample
MURAT MADENÜS
- Sokaklarda yürünebilirlik görsel kalite ve suç ilişkisi: Ankara Ulus örneği
The relationship between walkability, visual quality and crime on the streets: The case of Ankara Ulus
SÜMEYYE AKBABA
Yüksek Lisans
Türkçe
2022
Şehircilik ve Bölge PlanlamaGazi ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
PROF. DR. AYŞE TEKEL CUBEIRO
- Örgütsel itaate paradoksal yaklaşım: Bir ölçek geliştirme çalışması
A paradoxical approach to organizational obedience and a scale development
GÜLER ERTAŞ
- Avrupa Birliği'nde suçu etkileyen sosyoekonomik faktörlerin robust yöntemler ile analizi
Analysis of socioeconomic factors affecting crime in the European Union with robust methods
NESLİHAN AKIN ÖZDEMİR
Doktora
Türkçe
2022
İstatistikİstanbul ÜniversitesiSayısal Yöntemler Ana Bilim Dalı
PROF. DR. ÇİĞDEM ARICIGİL ÇİLAN