Geri Dön

Veri kesikleştirme için optimizasyon temelli yeni bir yaklaşım

A new optimization-based approach to data discretization

  1. Tez No: 874168
  2. Yazar: HATİCE ŞENOZAN
  3. Danışmanlar: PROF. DR. BANU SOYLU
  4. Tez Türü: Doktora
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Makine öğrenmesi, ön işleme, ikilileştirme, monotonluk, sınıflandırma, Machine learning, pre-processing, binarization, monotonicity, classification
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 82

Özet

Veriyi anlamak makine öğrenimi biliminden başarılı bir şekilde faydalanabilmeyi sağlar. Verinin anlaşılabilir olmasını kolaylaştırmak için veri ön işleme teknikleri vardır. Bu tekniklerden biri de veri kesikleştirmedir. Kesikleştirme belirlenen aralık sayılarına göre verileri kesikli değerlere dönüştürme işlemidir. Denetimli sınıflandırma problemleri için önem arz etmektedir. Çünkü kesikleştirme aşamaları sayesinde veride bulunan karmaşıklık daha anlaşılır hale, alakasız özellikler ise daha görünür hale gelir. Verilerin basitleşmesiyle veriden çıkarılması gereken bilgi daha iyi temsil edilir. Böylelikle sınıflandırma algoritmalarının performansını artırmaya yardımcı olabilir. Fakat kesikleştirme sürecinde bilgi kaybını en az seviyede tutmak için verilerin özelliklerini dikkate alarak dönüştürme işlemi gerçekleşmelidir. Literatürde yer alan çoğu yaklaşım kesikleştirme aşaması için monoton özelliğe sahip veri kümelerine odaklanmıştır. Ancak gerçek dünya veri kümelerinde hem monoton hem de monoton olmayan özellikler bir arada bulunur. Monoton özellik değerleri ile sınıf değerleri arasında doğru orantı bulunur. Monoton olmayan özellik değerleri ile sınıf değerleri arasında ise daha karmaşık oranlamalar mevcuttur. Bu çalışmada özelliklerin monoton olup olmadığına otomatik olarak karar verebilen entropi tabanlı esnek kesikleştirme stratejileri sunulmaktadır. Stratejiler özelliklerin durumuna göre kesme noktası değerlerini ve sayısını kendi ayarlayabilmektedir. Önerilen stratejiler hem sentetik hem de gerçek dünya veri kümeleri üzerinde denenmiştir ve stratejilerin başarısı çeşitli performans ölçütleri ve istatistiksel değerlendirmelerle ispatlanmıştır.

Özet (Çeviri)

Understanding the data enables successful utilization of machine learning science. There are data preprocessing techniques to make data easier to understand. One of these techniques is data discretization. Discretization is the process of converting data into discrete values according to specified interval numbers. It is important for supervised classification problems. Because thanks to the discretization stages, the complexity in the data becomes more understandable and irrelevant features become more visible. By simplifying the data, the information that needs to be extracted from the data is better represented. This can help improve the performance of classification algorithms. However, in order to minimize the loss of information in the discretization process, the transformation process should take into account the characteristics of the data. Most approaches in the literature have focused on datasets with monotonic attributes for the discretization phase. However, in real-world datasets, both monotonic and non-monotonic attributes coexist. There is a direct proportionality between monotonic feature values and class values. There are more complex proportions between non-monotonic attribute values and class values. This paper presents entropy-based flexible discretization strategies that can automatically decide whether attributes are monotonic or not. The strategies can adjust the values and number of breakpoints according to the state of the attributes. The proposed strategies are tested on both synthetic and real-world datasets, and the success of the strategies is demonstrated by various performance metrics and statistical evaluations.

Benzer Tezler

  1. Nonparametric approaches for discovering triggering events from spatio-temporal patterns

    Mekansal-zamansal örüntülerden birbirini tetikleyen olayları bulmak için parametrik olmayan yaklaşımlar

    BERNA BAKIR BATU

    Doktora

    İngilizce

    İngilizce

    2014

    Bilim ve TeknolojiOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Bölümü

    YRD. DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL

    PROF. DR. HAFİZE ŞEBNEM DÜZGÜN

  2. Analysis of sunshine duration between 1970 and 2010 for Turkey

    Türkiye için güneşlenme sürelerinin 1970 ile 2010 arasındaki analizi

    UĞUR YILDIRIM

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Jeofizik MühendisliğiOrta Doğu Teknik Üniversitesi

    Yer Sistem Bilimi Ana Bilim Dalı

    PROF. DR. BÜLENT GÜLTEKİN AKINOĞLU

    DOÇ. DR. İSMAİL ÖMER YILMAZ

  3. Acil serviste RIPASA, AIR ve ALVARADO skorlama sistemlerinin akut apandisit tanısındaki değerliliklerinin karşılaştırılması

    Comparison of values of acute appendicitis in RIPASA, AIR and ALVARADO scoring systems in emergency room

    ROHAT AK

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2017

    İlk ve Acil YardımSağlık Bilimleri Üniversitesi

    Acil Tıp Ana Bilim Dalı

    DOÇ. DR. ÖZGE ECMEL ONUR

    UZMAN EBRU ÜNAL AKOĞLU

  4. L2 influence on L1 collocational knowledge: The case of Turkish in the USA

    İkinci dilin birinci dildeki eşdizimsel bilgi üzerine etkisi: Türkçe?nin Amerika Birleşik Devletleri?ndeki durumu üzerine vaka çalışması

    FERDA İLERTEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Eğitim ve ÖğretimÇukurova Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. CEM CAN

  5. Bir birinci basamak sağlık kuruluşuna başvuran ve antidepresan kullanmakta olan olguların klinik özelliklerinin incelenmesi

    Investigation of clinical management of the patients underwent antidepressant treatment followed up in a primary health care unit

    MÜNEVVER CEBECİ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2017

    Aile HekimliğiSağlık Bilimleri Üniversitesi

    Psikiyatri Ana Bilim Dalı

    UZMAN AHMET TÜRKCAN