Geri Dön

A novel multivariate discretization algorithm using dynamic programming

Dinamik programlama kullanan özgün bir çok değişkenli ayrıklaştırma algoritması

  1. Tez No: 798668
  2. Yazar: ALİ BURAK ERDOĞAN
  3. Danışmanlar: DOÇ. DR. BURKAY GENÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, İstatistik, Computer Engineering and Computer Science and Control, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 77

Özet

Ayrıklaştırma, nicel ve sürekli sayısal verileri, kesişmeyen aralıklara atayarak, nitel ve sınıflan-dırılabilir bir veriye dönüştürme işlemine verilen isimdir. Ayrıklaştırma, veri madenciliği ve keşifsel veri analizi çalışmalarında verinin karmaşıklığını azaltmak için uygulanan önemli bir adımdır. Eşit-genişlik, eşit-sıklık ve MDLP (minimum tanım uzunluğu prensibi) gibi sürekli sayısal verileri ayrıklaştırmak için kullanılan birçok yöntem mevcuttur. Bununla beraber, saydığımız yöntemler verinin çok değişkenli doğasını göz önüne almayıp, sadece bir değişkene odaklanmaktadır. Bu da verinin öz nitelikleri arasındaki mevcut korelasyon bilgisinin kaybolmasına sebep olmaktadır. Ayrıca, sınıflandırılmamış veriler, MDLP gibi sınıf bilgisine dayalı denetimli yöntemler ile ayrıklaştırılamamaktadır. Bu çalışmada, kısıtlanmış en kısa yol algoritması kullanan ve bilgi entropisine dayanan; denetimsiz, çok değişkenli, evrensel ve statik bir ayrıklaştırıcı öneriyoruz. Bu ayrıklaştırıcı tekniğimizi manuel olarak hazırlanmış rastgele sentetik veri kümeleri üzerinde test ederek, yaklaşımımızın ilişkili öz-nitelikler üzerinden hesaplanan entropiye göre çoğu test durumunda daha başarılı bir ayrıklaştırma sağladığını gösteriyoruz. Bu yöntem, keşifsel veri analizi gibi görevler için veri içerisinde gizli olan anlamlı aralıkların keşfedilmesinde yardımcı bir rol üstlenebilir. Buna ek olarak, yöntemimizi gerçek veri kümeleri üzerinde test ettiğimizde sınıflandırma doğruluğunun genel olarak --tek değişkenli yöntemlerin aksine -- iyileştiğini gözlemledik. Dolayısıyla, ayrıklaştırma yöntemimiz sınıflandırma görevlerinde daha yüksek bir doğruluk elde edilmesine yardım edebilir.

Özet (Çeviri)

Discretization is the task of converting quantitative (continuous) numerical data into qualitative (categorical) by assigning them into non-overlapping intervals. It is an important step in reducing the complexity of data in data mining and exploratory data analysis studies. There are many methods that provide discretization schemes on continuous attributes, such as equal-width, equal-frequency, and minimum description length principle (MDLP). On the other hand, these methods ignore the multivariate nature of the dataset and focus on a single feature space for discretization. This causes a loss of information with respect to the correlations between attributes. Moreover, unlabeled data cannot be discretized with supervised methods (e.g. MDLP) that use class labels. We propose a new technique for unsupervised, multivariate, global, and static discretization; a discretizer based on information entropy which employs a constrained shortest-path algorithm. We test our technique on manually crafted randomized synthetic datasets as well as well-known real datasets. We show that our approach provides a more meaningful discretization in test cases. This may allow the retrieval of meaningful intervals, which are hidden, for data exploratory tasks. Also, classification accuracy on real datasets generally improves with our method unlike other univariate benchmark methods. Hence, our method may serve to achieve better accuracy on classification tasks.

Benzer Tezler

  1. A novel multivariate stochastic volatility model and estimation with GPU computing

    Yeni bir çok değişkenli stokastik oynaklık modeli ve GPU tabanlı hesaplama ile kestirimi

    HALİL ERTÜRK ESEN

    Doktora

    İngilizce

    İngilizce

    2016

    Ekonometriİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    PROF. DR. KEMAL BURÇ ÜLENGİN

    PROF. DR. MUSTAFA SERDAR ÇELEBİ

  2. A novel online approach to detect DDoS attacks using mahalanobis distance and Kernel-based learning

    Mahalanobis uzaklığı ve Kernel tabanlı öğrenme kullanılarak DDoS saldırılarını tespit etmek için özgün ve çevrimiçi bir yaklaşım

    SALVA DANESHGADEH ÇAKMAKÇI

    Doktora

    İngilizce

    İngilizce

    2019

    Bilim ve TeknolojiOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. NAZİFE BAYKAL

    DOÇ. DR. THOMAS KEMMERİCH

  3. A novel method for real-time distinguishing xylene isomers

    Ksilen izomerlerinin gerçek zamanlı ayırt edilmesi için yeni bir yöntem

    ABDULLAH KEPCEOĞLU

    Doktora

    İngilizce

    İngilizce

    2020

    Fizik ve Fizik MühendisliğiSelçuk Üniversitesi

    Fizik Ana Bilim Dalı

    PROF. DR. HAMDİ ŞÜKÜR KILIÇ

  4. Hastanede yatarak izlenen SARS-COV-2 PZR testi pozitif hastalarda fataliteye etki eden faktörlerin değerlendirilmesi

    Evaluation of factors affecting fatality in hospitalized patients with positive sars-cov-2 PCR test

    ŞÜKRAN SEVİM

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2021

    Klinik Bakteriyoloji ve Enfeksiyon HastalıklarıSağlık Bilimleri Üniversitesi

    Enfeksiyon Hastalıkları ve Klinik Mikrobiyoloji Ana Bilim Dalı

    DOÇ. DR. FATMA ŞEBNEM ERDİNÇ

  5. Vitronektin düzeyinin akut koroner sendromlu hastalarda diagnostik ve prognostik önemi

    Diagnostic and prognostic significance of vitronectin levels in patients with acute coronary syndrome

    SERKAN ASLAN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2012

    Kardiyolojiİstanbul Üniversitesi

    Kardiyoloji Ana Bilim Dalı

    PROF. DR. HÜSNİYE YÜKSEL