Building outlier detection framework by using automated machine learning methods
Otomatik makine öğrenimi yöntemlerini kullanarak anomali tespit çerçevesi oluşturma
- Tez No: 876828
- Danışmanlar: DR. ÖĞR. ÜYESİ AHMET TEOMAN NASKALİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Galatasaray Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Akıllı Sistemler Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Akıllı Sistemler Mühendisliği Bilim Dalı
- Sayfa Sayısı: 105
Özet
Akademik araştırmalar ve genel amaçlar açısından makine öğrenimi tekniklerinin önemi tartışılmazdır. Ancak, bu yöntemler, veri iyileştirme ve parametre optimizasyonu için büyük ölçüde manuel müdahaleye dayanır ve bu durum, farklı uzmanlık seviyelerindeki araştırmacılar için bir zorluk oluşturur. Bu bağımlılık, mevcut yapılarının yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış gibi çeşitli veri türlerini yönetmekte zorlanması nedeniyle, kullanıcılar için önemli engeller yaratır. Bu durum, etkin anomali tespiti yeteneklerini sınırlandırır ve kapsamlı veri analizini kısıtlar. Bu tez, çeşitli veri yapılarında güçlü anomali tespiti için tasarlanmış bir Otomatik Makine Öğrenimi (AutoML) yapısını tanıtmaktadır. Geleneksel AutoML sistemlerinin bazı veri ön sınıflandırması veya manuel algoritma seçimi gerektirmesinin aksine, bu yapı, veri setlerini bağımsız olarak sınıflandırır, özelliklerini belirler ve uygun anomali tespiti algoritmalarını uygulamak için onları özel bir işlem hattından geçirir. Bu uçtan uca otomasyon, anomali tespiti alanında nadirdir ve önemli bir ilerlemeyi temsil eder. Yapının temel işlevselliği, veri setlerini içsel özelliklerine dayalı olarak mekansal, zaman serisi ve boyutsal istatistiksel gibi kategorilere otomatik olarak sınıflandırmayı içerir. Bu sınıflandırma, etkin anomali tespiti için veri kalitesini artıran özel ön işleme tekniklerini bilgilendirir. Örneğin, mekansal veri setleri coğrafi dönüşümlere tabi tutulurken, zaman serisi verileri mevsimselliğe göre ayarlanır. Yapı, finans, sağlık ve sosyal medya gibi alanlardan 100 farklı veri setinde test edilmiştir. İşleme süresinde azalma ve doğrulukta artış gösterirken, veri setlerinin çoğunda yüzde 85'in üzerinde bir geri çağırma oranını korumuştur. Ayrıca, yapı, veri türüne bağlı olarak anomali tespiti algoritmalarını dinamik olarak seçer ve algoritma seçimini optimize etmek için tarihi verileri kullanan bir meta-öğrenme bileşeni ile geliştirilmiştir. Erken durdurma mekanizması, performans eşiklerine ulaşıldığında işlemi durdurarak kaynakları korur ve verimliliği artırır. Genel olarak, bu çalışma, anomali tespiti sürecini kolaylaştıran ve AutoML sistemine benzer sistematik bir yaklaşım sunan yenilikçi ve çok yönlü bir yapı katkısında bulunmaktadır. Farklı alanlar ve veri setleri arasında anomali tespit görevlerinde artırılmış verimlilik ve etkinlik sağlama yolunu açar. Ayrıca, bu gelişmiş veri ortamı içinde anomali tespit mekanizmalarının entegrasyonunun, doğruluk veya güvenilirlikten ödün vermeden düzensizliklerin daha hızlı tespit edilmesini sağlaması beklenmektedir. Yapı, anomali tespiti görevlerinin etkinliğini artırmayı ve tespit sürecini hızlandırmayı amaçlamaktadır. Çeşitli veri setleri üzerindeki kapsamlı değerlendirme, yapının uyarlanabilirliğini ve tutarlı performansını sergilemeyi amaçlar, farklı veri türleri ve senaryolar arasında anomali tespitini otomatikleştirme yeteneğini doğrular. Bu yapının başarılı bir şekilde gösterilmesi, birçok alanda ve veri setinde anomali tespiti süreçlerini basitleştirme ve iyileştirme yolunda önemli bir adım olacaktır.
Özet (Çeviri)
In terms of both research academic and general purposes, the importance of machine learning techniques is undeniable. However, these methods rely heavily on manual intervention for data refinement and parameter optimization, posing a challenge for researchers of varying levels of expertise. This reliance creates significant barriers for users with varying expertise levels, as existing frameworks struggle to manage diverse data types—structured, unstructured, and semi-structured—thereby compromising effective anomaly detection and limiting comprehensive data analysis. This thesis introduces an Automated Machine Learning (AutoML) framework designed for robust outlier detection across multiple data structures. Unlike traditional AutoML systems that necessitate some pre-classification of data or manual algorithm selection, this framework autonomously classifies datasets, discerns their characteristics, and directs them through a tailored pipeline to apply suitable outlier detection algorithms. This end-to-end automation is rare in the realm of outlier detection and represents a significant advancement. The framework's core functionality includes an automatic classification of datasets into categories like spatial, time-series, and dimensional statistical, based on intrinsic characteristics. This classification informs tailored preprocessing techniques that enhance data quality for effective outlier detection. For example, spatial datasets undergo geospatial transformations, while time-series data are adjusted for seasonality. The framework was tested across 100 diverse datasets from fields including finance, healthcare, and social media. It demonstrated a reduction in processing time and anincrease in precision, with a maintained recall rate exceeding 85 percent across majority of datasets. Additionally, the framework dynamically selects outlier detection algorithms based on the data type, enhanced by a meta-learning component that utilizes historical data to optimize algorithm selection. An early stopping mechanism conserves resources by halting processing once performance thresholds are met, ensuring efficiency and scalability. Overall, this paper contributes a novel and versatile framework that streamlines the outlier detection process, offering a systematic approach similar to an AutoML system. It paves the way for enhanced efficiency and effectiveness in outlier detection tasks across different domains and datasets. Furthermore, the integration of outlier detection mechanisms within this enhanced data environment is anticipated to yield faster identification of irregularities without compromising accuracy or reliability. The framework aims to accelerate the detection process and increasing the efficiency of outlier identification tasks. The comprehensive evaluation across diverse datasets seeks to showcase the framework's adaptability and consistent performance, validating its ability to automate outlier detection across varying data types and scenarios. The successful demonstration of this framework would mark a substantial step in simplifying and refining outlier detection processes in data analysis across multiple domains and datasets.
Benzer Tezler
- CFRP plakalarda delaminasyon hasarının makina öğrenmesi ile tahmin edilmesi
Predicting delamination failure in CFRP composite plates with machine learning algorithms
AMMAR TARIK DİNÇER
Yüksek Lisans
Türkçe
2024
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA BAKKAL
- LiDAR verilerinden bina çatı düzlemi otomatik çıkarım modeli geliştirme
Development of a model for automatic extraction of building roof plane from LiDAR data
SİBEL CANAZ SEVGEN
Doktora
Türkçe
2018
Jeodezi ve FotogrametriKaradeniz Teknik ÜniversitesiHarita Mühendisliği Ana Bilim Dalı
PROF. DR. FEVZİ KARSLI
- Motion segmentation and its applications to depth ordering and frame rate up-conversion
Hareket bölütlemesi ve derinlik sıralamasına ve çerçeve hızı artırımına uygulanması
ENGİN TÜRETKEN
Yüksek Lisans
İngilizce
2008
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. A. AYDIN ALATAN
- Camera trajectory estimation for indoor robot odometry using stereo images and inertial measurements
Kapalı alanlarda robot konumlaması için stereo görüntüler ve eylemsizlik duyucusu kullanılarak kamera yörüngesinin kestirilmesi
ANIL HORASAN
Yüksek Lisans
İngilizce
2016
Makine MühendisliğiOrta Doğu Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. MELİK DÖLEN