A novel multivariate discretization algorithm using dynamic programming
Dinamik programlama kullanan özgün bir çok değişkenli ayrıklaştırma algoritması
- Tez No: 798668
- Danışmanlar: DOÇ. DR. BURKAY GENÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, İstatistik, Computer Engineering and Computer Science and Control, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 77
Özet
Ayrıklaştırma, nicel ve sürekli sayısal verileri, kesişmeyen aralıklara atayarak, nitel ve sınıflan-dırılabilir bir veriye dönüştürme işlemine verilen isimdir. Ayrıklaştırma, veri madenciliği ve keşifsel veri analizi çalışmalarında verinin karmaşıklığını azaltmak için uygulanan önemli bir adımdır. Eşit-genişlik, eşit-sıklık ve MDLP (minimum tanım uzunluğu prensibi) gibi sürekli sayısal verileri ayrıklaştırmak için kullanılan birçok yöntem mevcuttur. Bununla beraber, saydığımız yöntemler verinin çok değişkenli doğasını göz önüne almayıp, sadece bir değişkene odaklanmaktadır. Bu da verinin öz nitelikleri arasındaki mevcut korelasyon bilgisinin kaybolmasına sebep olmaktadır. Ayrıca, sınıflandırılmamış veriler, MDLP gibi sınıf bilgisine dayalı denetimli yöntemler ile ayrıklaştırılamamaktadır. Bu çalışmada, kısıtlanmış en kısa yol algoritması kullanan ve bilgi entropisine dayanan; denetimsiz, çok değişkenli, evrensel ve statik bir ayrıklaştırıcı öneriyoruz. Bu ayrıklaştırıcı tekniğimizi manuel olarak hazırlanmış rastgele sentetik veri kümeleri üzerinde test ederek, yaklaşımımızın ilişkili öz-nitelikler üzerinden hesaplanan entropiye göre çoğu test durumunda daha başarılı bir ayrıklaştırma sağladığını gösteriyoruz. Bu yöntem, keşifsel veri analizi gibi görevler için veri içerisinde gizli olan anlamlı aralıkların keşfedilmesinde yardımcı bir rol üstlenebilir. Buna ek olarak, yöntemimizi gerçek veri kümeleri üzerinde test ettiğimizde sınıflandırma doğruluğunun genel olarak --tek değişkenli yöntemlerin aksine -- iyileştiğini gözlemledik. Dolayısıyla, ayrıklaştırma yöntemimiz sınıflandırma görevlerinde daha yüksek bir doğruluk elde edilmesine yardım edebilir.
Özet (Çeviri)
Discretization is the task of converting quantitative (continuous) numerical data into qualitative (categorical) by assigning them into non-overlapping intervals. It is an important step in reducing the complexity of data in data mining and exploratory data analysis studies. There are many methods that provide discretization schemes on continuous attributes, such as equal-width, equal-frequency, and minimum description length principle (MDLP). On the other hand, these methods ignore the multivariate nature of the dataset and focus on a single feature space for discretization. This causes a loss of information with respect to the correlations between attributes. Moreover, unlabeled data cannot be discretized with supervised methods (e.g. MDLP) that use class labels. We propose a new technique for unsupervised, multivariate, global, and static discretization; a discretizer based on information entropy which employs a constrained shortest-path algorithm. We test our technique on manually crafted randomized synthetic datasets as well as well-known real datasets. We show that our approach provides a more meaningful discretization in test cases. This may allow the retrieval of meaningful intervals, which are hidden, for data exploratory tasks. Also, classification accuracy on real datasets generally improves with our method unlike other univariate benchmark methods. Hence, our method may serve to achieve better accuracy on classification tasks.
Benzer Tezler
- A novel multivariate stochastic volatility model and estimation with GPU computing
Yeni bir çok değişkenli stokastik oynaklık modeli ve GPU tabanlı hesaplama ile kestirimi
HALİL ERTÜRK ESEN
Doktora
İngilizce
2016
Ekonometriİstanbul Teknik ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
PROF. DR. KEMAL BURÇ ÜLENGİN
PROF. DR. MUSTAFA SERDAR ÇELEBİ
- A novel online approach to detect DDoS attacks using mahalanobis distance and Kernel-based learning
Mahalanobis uzaklığı ve Kernel tabanlı öğrenme kullanılarak DDoS saldırılarını tespit etmek için özgün ve çevrimiçi bir yaklaşım
SALVA DANESHGADEH ÇAKMAKÇI
Doktora
İngilizce
2019
Bilim ve TeknolojiOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
PROF. DR. NAZİFE BAYKAL
DOÇ. DR. THOMAS KEMMERİCH
- A novel method for real-time distinguishing xylene isomers
Ksilen izomerlerinin gerçek zamanlı ayırt edilmesi için yeni bir yöntem
ABDULLAH KEPCEOĞLU
Doktora
İngilizce
2020
Fizik ve Fizik MühendisliğiSelçuk ÜniversitesiFizik Ana Bilim Dalı
PROF. DR. HAMDİ ŞÜKÜR KILIÇ
- Hastanede yatarak izlenen SARS-COV-2 PZR testi pozitif hastalarda fataliteye etki eden faktörlerin değerlendirilmesi
Evaluation of factors affecting fatality in hospitalized patients with positive sars-cov-2 PCR test
ŞÜKRAN SEVİM
Tıpta Uzmanlık
Türkçe
2021
Klinik Bakteriyoloji ve Enfeksiyon HastalıklarıSağlık Bilimleri ÜniversitesiEnfeksiyon Hastalıkları ve Klinik Mikrobiyoloji Ana Bilim Dalı
DOÇ. DR. FATMA ŞEBNEM ERDİNÇ
- Vitronektin düzeyinin akut koroner sendromlu hastalarda diagnostik ve prognostik önemi
Diagnostic and prognostic significance of vitronectin levels in patients with acute coronary syndrome
SERKAN ASLAN
Tıpta Uzmanlık
Türkçe
2012
Kardiyolojiİstanbul ÜniversitesiKardiyoloji Ana Bilim Dalı
PROF. DR. HÜSNİYE YÜKSEL