Robust and efficient density based outlier detection methods for streaming data
Akış verileri için gürbüz ve verimli yoğunluk tabanlı aykırı değer tespit yöntemleri
- Tez No: 748930
- Danışmanlar: DOÇ. DR. ÖMER KARAL
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 165
Özet
Tüm bilimsel çalışmalarda güvenilir sonuçlar ve verimli performans için aykırı değerlerin tespiti kritik öneme sahiptir. Literatürde önerilen çoğu aykırı değer algılama yöntemleri, tüm örneklerin belleğe yüklendiği toplu mod öğrenmede çalışır. Ancak, veri boyutundaki hızlı artış ve anlık analiz talebi nedeniyle, artımlı modda çalışan yöntemlere giderek artan bir ihtiyaç vardır. Ayrıca, yüksek hızlı büyük hacimli veri akışlarından aykırı değerlerin tespit edilmesi, toplu modda öğrenmeye göre daha zor ve karmaşıktır. Değişen dağılımlara sahip veri akışlarından aykırı değerleri tespit etmek için artımlı öğrenme moduna odaklanan bazı yeni çalışmalar vardır. Umut verici sonuçlar gösterseler de, yüksek boyutlu verilerde zayıf algılama, ardışık aykırı değer dizisinin (küçük bir aykırı değer kümesi) tespit edilememesi, uygun olmayan genel amaçlı metriklerin kullanılması, çok sayıda hiperparametreye ihtiyaç duyulması ve bunları ayarlamanın zorluğu, aykırı değerleri etiketleme veya aykırı değer puanları atama gibi bazı önemli sınırlamalar vardır. Bu amaçla, ilk olarak, örneklerin Yerel Aykırı Değer Faktörü (LOF) değerlerinin yerel mutlak sapmasının medyanını kullanarak MoNNAD adlı yeni geliştirilmiş bir metriği uygulayan yeni sağlam denetimsiz bir aykırı değer tespiti (RiLOF) yöntemi sunulmuştur. İkinci olarak, artımlı LOF (iLOF) ve artımlı Gürültülü Veritabanlarında Yoğunluk Tabanlı Kümeleme (iDBSCAN) yöntemlerini bütünleştiren ve hiperparametreleri farklı veri akışları için otomatik olarak uyarlanabilen CkNN adlı yeni geliştirilmiş bir konsepti kullanan yeni bir artımlı Yerel Yoğunluk ve Küme Tabanlı Aykırı Değer Faktörü (iLDCBOF) yöntemi önerilmiştir. Üçüncü olarak, artımlı Destek Vektör Makinesini (iSVM) ve iLOF'u birleşik bir çerçevede bütünleştiren ve hem çok sınıflı aykırı değer algılamayı hem de sınıflandırmayı aynı anda gerçekleştirebilen yeni artımlı çok sınıflı bir aykırı değer algılama (iMCOD) yöntemi geliştirilmiştir. Önerilen yöntemler, niteliksel ve sayısal olarak kapsamlı bir şekilde analiz edilir ve gerçek dünya veri setlerinde son teknoloji aykırı değer tespit yöntemleri ile kıyaslanır.
Özet (Çeviri)
Detection of outliers is critical for reliable results and efficient performance in all scientific studies. Most outlier detection methods proposed in the literature work in batch mode learning, where all samples are loaded into memory. However, due to the enormous increase in data size and the demand for instant analysis, there is a growing need for methods that operate in incremental mode. Moreover, detecting outliers from high-speed large-volume data streams is more difficult and complex than batch-mode learning. There are some recent studies focusing on incremental learning mode to detect outliers from data streams with varying distributions. Although they show promising results, there are still some major limitations such as poor detection in high dimensional data, inability to detect a long sequence of outliers (small cluster of outliers), use of improper general purpose metrics, the need for a large number of hyperparameters and the difficulty of tuning them, either labels outliers or assigns outlier scores. The aim of this thesis is to address these problems and to offer solutions. For this purpose, firstly, a new robust unsupervised outlier detection (RiLOF) method is presented which implements a newly developed metric named MoNNAD using the median of the local absolute deviation of the Loal Outlier Factor (LOF) values of the samples. Secondly, a novel incremental Local Density and Cluster-Based Outlier Factor (iLDCBOF) method, which unifies incremental LOF (iLOF) and incremental density-based spatial clustering of applications with noise methods and employs a newly developed concept called CkNN, which can automatically adapt hyperparameters for different data streams, is proposed. Thirdly, a new incremental Multi-Class Outlier Detection (iMCOD) method, which integrates the incremental Support Vector Machine (iSVM) and iLOF in a unified framework, capable of simultaneously performing both multi-class outlier detection and classification, is developed. The proposed methods are comprehensively analyzed qualitatively and numerically and benchmarked with state-of-the-art outlier detection methods in real-world data sets.
Benzer Tezler
- Reweighted robust dispersion estimation methods for univariate S-charts
Tek değişkenli S-grafikleri için yeniden ağırlıklandırmalı sağlam yayılım tahmin yöntemleri
ECE ÇİĞDEM MUTLU
Yüksek Lisans
İngilizce
2017
Kimya MühendisliğiBoğaziçi ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
DOÇ. DR. BURAK ALAKENT
- Makine öğrenmesi ile fotovoltaik dizilerde elektriksel arıza tespiti
Machine learning based fault detection in PV arrays
HEYBET KILIÇ
Doktora
Türkçe
2021
Elektrik ve Elektronik MühendisliğiDicle ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. BİLAL GÜMÜŞ
DR. ÖĞR. ÜYESİ MUSA YILMAZ
- Endoskopik görüntülerin değerlendirilmesinde görüntü işleme temelli akıllı karar destek sistemi
An intelligent decision support system based on image processing for evaluating of the endoscopic images
ABDULKADİR ŞENGÜR
Doktora
Türkçe
2006
Elektrik ve Elektronik MühendisliğiFırat ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MELİH C. İNCE
YRD. DOÇ. DR. İBRAHİM TÜRKOĞLU
- Synthesis, characterization, and electrochemical properties of mesoporous spinel LiMn2-xMxO4 (M = Mn, Fe, Co, Ni, and Cu) thin films
Mezogözenekli spinel LiMn2-xMxO4 (M = Mn, Fe, Co, Ni, and Cu) ince filmlerin sentezi, karakterizasyonu ve elektrokimyasal özellikleri
IRMAK KARAKAYA DURUKAN
- Bataryalarda empedans analizine dayalı doluluk oranı, sağlamlık ve fonksiyonellik takibi yöntemlerinin geliştirilmesi
On the compatibility of electric equivalent circuit models for enhanced flooded lead acid batteries based on electrochemical impedance spectroscopy
ZİYA CAN AKSAKAL
Doktora
Türkçe
2018
Enerjiİstanbul Teknik ÜniversitesiEnerji Bilim ve Teknoloji Ana Bilim Dalı
PROF. DR. HACI OSMAN ALTUĞ ŞİŞMAN