İnsan faaliyetlerinin akış verileri üzerinden aykırılık tespiti
Outlier detection over streaming data of human activities
- Tez No: 789616
- Danışmanlar: DR. ÖĞR. ÜYESİ BÜLENT TUĞRUL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Ankara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 198
Özet
Günümüzde, dünyada bulunan birçok cihazdan sürekli olarak büyük hacimlerde veri üretilmesi nedeniyle“Akış Verisi”terimi ortaya çıkmıştır. Veri Akışı, farklı hızlarda gerçekleşen, sınırsız ve sürekli akan verileri ifade eder. Bu verilerin statik verilere kıyasla sahip olduğu özel nitelikler nedeniyle, aykırı değer tespiti açısından akış verileri için yeni zorluklar ortaya çıktı. Akış verisi, devasa sonsuz büyüklülük, çok boyutluluk, yüksek varış hızı gibi birçok özellikleri içerebilir. Bu nedenle, büyük ölçekli verileri gerçek zamanlı işlemede oldukça etkili (ölçeklenebilir, hızlı ve hataya dayanıklı, vb.) ve gerçek zamanlı aykırı değer tespiti sağlayan çözümlere ve yapılara yüksek talep vardır. Çok hızlı akan bu veri akışı içinde, diğer veri noktalarının beklenen normal davranışından davranış ve tutum olarak sapan veri noktaları mevcuttur. Bu veri noktaları, aykırı değerler olarak bilinir. Aykırı değer tespiti sorunu, veri akışlarının madenciliğindeki en önemli ve zorlu görevlerden biri olarak kabul edilir. Veri akışlarında aykırı değerlerin tespit edilmesi her geçen gün daha önemli hale gelmiştir bu anormal olay, gerçekleşmek üzere olan donanım veya yazılım arızalarının, kötü niyetli saldırıların, dolandırıcılık girişimleri yahut bazen insan hayatını kurtarmak gibi ilgilenilen bir olayın işareti olabilir. Bu tez, akış verisi çözümleri için yüksek talebi karşılayabilen bir veri hattı metodolojisi önererek, akış verileri üzerinden gerçek zamanlı aykırı değer tespiti sorununu ele almaktadır. Önerilen metodoloji bir gerçek hayat problemi çözümünde uygulanarak değerlendirilmiştir. Metodolojiye dayalı çözüm ve Makine Öğrenimi modeli, bir akıllı telefonun yerleşik ivmeölçerinden sürekli veri akışı ile insan etkinliklerindeki aykırı değerleri gerçek zamanlı olarak başarıyla tespit edebilmiştir. Son yıllarda Isolation Forest algoritmasına gösterilen ilgi, Akan veri ve örüntü tanıma görevlerinde, birleştirilmiş algoritmalar kullanılarak elde edilen önemli başarılar nedeniyle artarak önem kazanmıştır. Bu nedenle bu tezde, Makine Öğrenimi modelinin geliştirilmesi için aykırı değer algılama algoritması olarak Isolation Forest algoritması kullanılmıştır. Diğer algoritmaların literatür araştırmasında sunulduğu gibi yüksek boyutlu ve dengesiz veriler, yüksek bellek kullanımı ve zaman tüketimi gibi zorluklarla başa çıkma konusundaki sınırlamalarından dolayı Isolation Forest algoritmasının kullanılmasına karar verildi. Akış verilerinin sürekli olarak gelişmesi ve dolayısıyla verilerin kayan pencere mekanizması tarafından sıralı olarak işlenmesi nedeniyle, sadece akış üzerinde tam bir görüşe sahip olmak için değil, aynı zamanda verilerin uygun şekilde analiz edilmesini kolaylaştırmak için bu evrimin özünü yakalar. Bu nedenle, sistemimizin performansını artırmak için veriler üzerinde 5 saniyelik üst üste binme olmaksızın kayan pencere yapılmıştır. Bu, sistemimize bu süre zarfında kullanıcının davranışını tanımlama konusunda daha fazla gücün yanı sıra daha fazla sağlamlık ve aykırı değerleri daha doğru bir şekilde tespit etme yeteneği sağlamıştır. Dahası, önerilen metodoloji, Apache Kafka ve Apache Spark gibi çoklu stratejiler ve teknolojilerle sinerjik olarak birleştirilmiş gelişmiş bir mimari ardışık düzene dayanmaktadır. Bunun nedenle, yüksek hata toleransı sağlama, makine öğrenimini uygulama ve akış verileri üzerinden gerçek zamanlı olarak karmaşık hesaplamaları yürütme kapasitesi nedeniyle dağıtılmış büyük veri işleme motoru olarak Apache Spark kullanıldı. Mesajlaşma sistemi olarak veri akışları üzerinde yüksek verim, düşük gecikme süresi ve ayrıştırma özelliklerine sahip aynı zamanda ölçeklenebilir bir veri hattı sağlama yeteneği olan Apache Kafka kullanıldı. Apache Spark ve Kafka ilkeleri, geliştirilen veri hattının temel altyapısını oluşturur. Uygulanan ve geliştirilen çözüm, Küresel Konum Sistemi (GPS) hizmetlerinin yetersiz kaldığı AVM gibi kapalı ortamlarda çalışacak şekilde tasarlanmıştır. Anında yanıt verilmesi gereken olağandışı olayları, eylemleri veya kullanıcıların davranışlarını tespit etmek ve tanımlamak için bir önleme mekanizması ve gözetim sistemini simüle etmek için metodolojimizi uyguladık. Ayrıca, benimsenen aykırı değer tespit algoritmasının doğruluğunu sağlamak ve garanti etmek için, gerçekleştirilen deney Gerçek zamanlı olarak farklı kullanıcıların üzerinde farklı denemelerle gerçekleştirilmiştir. Kullanıcılar, işlemi istedikleri sürece ve tercih ettikleri sırayla gerçekleştirmişlerdir. Başka bir deyişle, kullanıcılar herhangi bir dizi eylemi herhangi bir sırayla yapmak zorunda değildir ve tercih ettikleri herhangi bir sırayla herhangi bir eylemi gerçekleştirmekte tamamen özgürdürler. Sıralı olarak sistem, bu etkinliklerin akışını okumaya ve dinlemeye devam edecek ve örneğin (koşu etkinliği) bir aykırı değer oluşması durumunda hemen bir uyarı gönderecektir. Önerilen metodolojiden elde edilen değerlendirme sonuçları, geliştirilen veri hattının gerçek zamanlı aykırı değer tespiti gerçekleştirmede %97'lik doğrulukla, yeterliliğini ve etkinliğini kanıtlamaktadır.
Özet (Çeviri)
Nowadays, due to the continuous generation of huge volumes of data from many devices spread around the world, the term“Data Stream”comes into existence. Data Stream refers to an unbounded continuous flow of data happening at different rates, and coming in an open-ended fashion. New challenges emerged with streaming data in regards to outlier detection due to the special characteristics this data has in comparison with Static Data. Stream Data characteristics can include the following: massive infinite size, multi-dimensionality, high arrival rate, and more. Hence, there is high demand for solutions and frameworks that are highly effective in processing large-scale data in real-time (scalable, fast & fault-tolerant, etc.), and achieve outlier detection in real-time. This thesis addresses the problem of outlier detection in real-time over streaming data by proposing a pipeline methodology capable of meeting the high demand for streaming data solutions. The proposed methodology was evaluated by implementing it in a solution for a real-life problem. The methodology-based solution and its Machine Learning model was successfully capable of detecting outliers in human activities in real-time utilizing the continuous stream of data from a smart phone's built-in accelerometer. The Machine Learning model was developed with Isolation Forest algorithm as the outlier detection algorithm. The selection of Isolation Forest was due to the limitations of other algorithms in dealing with high dimensional, unbalanced data, high memory usage, and time consumption challenges as presented in literature. Moreover, Apache Spark was utilized as big data distributed processing unified engine for its capability of providing high fault tolerance, applying machine learning, and execute complex computations in real-time over streaming data. Also, Apache Kafka was employed as a messaging system for its capability of providing a scalable pipeline with high throughput, low latency, and decoupling features over data streams. The principles of Apache Spark and Kafka form the underlying infrastructure of our developed pipeline. The obtained evaluation results of our proposed methodology prove the adequacy and effectiveness of the developed pipeline with achieved accuracy of 97% in performing outlier detection in real-time.
Benzer Tezler
- Travel time reliability analysis of three different routes in baghdad city
Bağdat şehirinde üç farklı güzergahta seyahat süresi güvenilirlik analizi
MAKARIM KAREEM JEBUR AL-SARRAY
Yüksek Lisans
İngilizce
2023
UlaşımSakarya ÜniversitesiUlaştırma Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAKAN ASLAN
- Determination of river pollution sources using source apportionment method: Ergene river
Kaynak belirleme metodu kullanılarak nehir kirlilik kaynaklarının belirlenmesi: Ergene nehri
FULYA ÇİNGİROĞLU
Yüksek Lisans
İngilizce
2018
Çevre Mühendisliğiİstanbul Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
DOÇ. DR. BURÇAK KAYNAK TEZEL
- Assessing the impacts of urban land use/land cover change on soil ecosystem services
Kentsel arazi kullanımı/arazi örtüsü değişiminin toprak ekosistem servisleri üzerindeki etkilerinin değerlendirilmesi
MELTEM DELİBAŞ
Doktora
İngilizce
2023
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
PROF. DR. AZİME TEZER
- Gsm sektörü için müşteri merkezli bilgi yönetimi değerlendirme modeli tasarımı ve bir uygulama
The design of customer centric knowledge mangement assessment model for gsm ındustry and an aplıcatıon
ATİK KULAKLI