Geri Dön

İnsan faaliyetlerinin akış verileri üzerinden aykırılık tespiti

Outlier detection over streaming data of human activities

  1. Tez No: 789616
  2. Yazar: MOHAMAD AHMAD SABHA
  3. Danışmanlar: DR. ÖĞR. ÜYESİ BÜLENT TUĞRUL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 198

Özet

Günümüzde, dünyada bulunan birçok cihazdan sürekli olarak büyük hacimlerde veri üretilmesi nedeniyle“Akış Verisi”terimi ortaya çıkmıştır. Veri Akışı, farklı hızlarda gerçekleşen, sınırsız ve sürekli akan verileri ifade eder. Bu verilerin statik verilere kıyasla sahip olduğu özel nitelikler nedeniyle, aykırı değer tespiti açısından akış verileri için yeni zorluklar ortaya çıktı. Akış verisi, devasa sonsuz büyüklülük, çok boyutluluk, yüksek varış hızı gibi birçok özellikleri içerebilir. Bu nedenle, büyük ölçekli verileri gerçek zamanlı işlemede oldukça etkili (ölçeklenebilir, hızlı ve hataya dayanıklı, vb.) ve gerçek zamanlı aykırı değer tespiti sağlayan çözümlere ve yapılara yüksek talep vardır. Çok hızlı akan bu veri akışı içinde, diğer veri noktalarının beklenen normal davranışından davranış ve tutum olarak sapan veri noktaları mevcuttur. Bu veri noktaları, aykırı değerler olarak bilinir. Aykırı değer tespiti sorunu, veri akışlarının madenciliğindeki en önemli ve zorlu görevlerden biri olarak kabul edilir. Veri akışlarında aykırı değerlerin tespit edilmesi her geçen gün daha önemli hale gelmiştir bu anormal olay, gerçekleşmek üzere olan donanım veya yazılım arızalarının, kötü niyetli saldırıların, dolandırıcılık girişimleri yahut bazen insan hayatını kurtarmak gibi ilgilenilen bir olayın işareti olabilir. Bu tez, akış verisi çözümleri için yüksek talebi karşılayabilen bir veri hattı metodolojisi önererek, akış verileri üzerinden gerçek zamanlı aykırı değer tespiti sorununu ele almaktadır. Önerilen metodoloji bir gerçek hayat problemi çözümünde uygulanarak değerlendirilmiştir. Metodolojiye dayalı çözüm ve Makine Öğrenimi modeli, bir akıllı telefonun yerleşik ivmeölçerinden sürekli veri akışı ile insan etkinliklerindeki aykırı değerleri gerçek zamanlı olarak başarıyla tespit edebilmiştir. Son yıllarda Isolation Forest algoritmasına gösterilen ilgi, Akan veri ve örüntü tanıma görevlerinde, birleştirilmiş algoritmalar kullanılarak elde edilen önemli başarılar nedeniyle artarak önem kazanmıştır. Bu nedenle bu tezde, Makine Öğrenimi modelinin geliştirilmesi için aykırı değer algılama algoritması olarak Isolation Forest algoritması kullanılmıştır. Diğer algoritmaların literatür araştırmasında sunulduğu gibi yüksek boyutlu ve dengesiz veriler, yüksek bellek kullanımı ve zaman tüketimi gibi zorluklarla başa çıkma konusundaki sınırlamalarından dolayı Isolation Forest algoritmasının kullanılmasına karar verildi. Akış verilerinin sürekli olarak gelişmesi ve dolayısıyla verilerin kayan pencere mekanizması tarafından sıralı olarak işlenmesi nedeniyle, sadece akış üzerinde tam bir görüşe sahip olmak için değil, aynı zamanda verilerin uygun şekilde analiz edilmesini kolaylaştırmak için bu evrimin özünü yakalar. Bu nedenle, sistemimizin performansını artırmak için veriler üzerinde 5 saniyelik üst üste binme olmaksızın kayan pencere yapılmıştır. Bu, sistemimize bu süre zarfında kullanıcının davranışını tanımlama konusunda daha fazla gücün yanı sıra daha fazla sağlamlık ve aykırı değerleri daha doğru bir şekilde tespit etme yeteneği sağlamıştır. Dahası, önerilen metodoloji, Apache Kafka ve Apache Spark gibi çoklu stratejiler ve teknolojilerle sinerjik olarak birleştirilmiş gelişmiş bir mimari ardışık düzene dayanmaktadır. Bunun nedenle, yüksek hata toleransı sağlama, makine öğrenimini uygulama ve akış verileri üzerinden gerçek zamanlı olarak karmaşık hesaplamaları yürütme kapasitesi nedeniyle dağıtılmış büyük veri işleme motoru olarak Apache Spark kullanıldı. Mesajlaşma sistemi olarak veri akışları üzerinde yüksek verim, düşük gecikme süresi ve ayrıştırma özelliklerine sahip aynı zamanda ölçeklenebilir bir veri hattı sağlama yeteneği olan Apache Kafka kullanıldı. Apache Spark ve Kafka ilkeleri, geliştirilen veri hattının temel altyapısını oluşturur. Uygulanan ve geliştirilen çözüm, Küresel Konum Sistemi (GPS) hizmetlerinin yetersiz kaldığı AVM gibi kapalı ortamlarda çalışacak şekilde tasarlanmıştır. Anında yanıt verilmesi gereken olağandışı olayları, eylemleri veya kullanıcıların davranışlarını tespit etmek ve tanımlamak için bir önleme mekanizması ve gözetim sistemini simüle etmek için metodolojimizi uyguladık. Ayrıca, benimsenen aykırı değer tespit algoritmasının doğruluğunu sağlamak ve garanti etmek için, gerçekleştirilen deney Gerçek zamanlı olarak farklı kullanıcıların üzerinde farklı denemelerle gerçekleştirilmiştir. Kullanıcılar, işlemi istedikleri sürece ve tercih ettikleri sırayla gerçekleştirmişlerdir. Başka bir deyişle, kullanıcılar herhangi bir dizi eylemi herhangi bir sırayla yapmak zorunda değildir ve tercih ettikleri herhangi bir sırayla herhangi bir eylemi gerçekleştirmekte tamamen özgürdürler. Sıralı olarak sistem, bu etkinliklerin akışını okumaya ve dinlemeye devam edecek ve örneğin (koşu etkinliği) bir aykırı değer oluşması durumunda hemen bir uyarı gönderecektir. Önerilen metodolojiden elde edilen değerlendirme sonuçları, geliştirilen veri hattının gerçek zamanlı aykırı değer tespiti gerçekleştirmede %97'lik doğrulukla, yeterliliğini ve etkinliğini kanıtlamaktadır.

Özet (Çeviri)

Nowadays, due to the continuous generation of huge volumes of data from many devices spread around the world, the term“Data Stream”comes into existence. Data Stream refers to an unbounded continuous flow of data happening at different rates, and coming in an open-ended fashion. New challenges emerged with streaming data in regards to outlier detection due to the special characteristics this data has in comparison with Static Data. Stream Data characteristics can include the following: massive infinite size, multi-dimensionality, high arrival rate, and more. Hence, there is high demand for solutions and frameworks that are highly effective in processing large-scale data in real-time (scalable, fast & fault-tolerant, etc.), and achieve outlier detection in real-time. This thesis addresses the problem of outlier detection in real-time over streaming data by proposing a pipeline methodology capable of meeting the high demand for streaming data solutions. The proposed methodology was evaluated by implementing it in a solution for a real-life problem. The methodology-based solution and its Machine Learning model was successfully capable of detecting outliers in human activities in real-time utilizing the continuous stream of data from a smart phone's built-in accelerometer. The Machine Learning model was developed with Isolation Forest algorithm as the outlier detection algorithm. The selection of Isolation Forest was due to the limitations of other algorithms in dealing with high dimensional, unbalanced data, high memory usage, and time consumption challenges as presented in literature. Moreover, Apache Spark was utilized as big data distributed processing unified engine for its capability of providing high fault tolerance, applying machine learning, and execute complex computations in real-time over streaming data. Also, Apache Kafka was employed as a messaging system for its capability of providing a scalable pipeline with high throughput, low latency, and decoupling features over data streams. The principles of Apache Spark and Kafka form the underlying infrastructure of our developed pipeline. The obtained evaluation results of our proposed methodology prove the adequacy and effectiveness of the developed pipeline with achieved accuracy of 97% in performing outlier detection in real-time.

Benzer Tezler

  1. Türkiye'de su hakkı

    The right to water in Turkey

    YILDIZ AKEL ÜNAL

    Doktora

    Türkçe

    Türkçe

    2021

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. ERDOĞAN BÜLBÜL

  2. Travel time reliability analysis of three different routes in baghdad city

    Bağdat şehirinde üç farklı güzergahta seyahat süresi güvenilirlik analizi

    MAKARIM KAREEM JEBUR AL-SARRAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    UlaşımSakarya Üniversitesi

    Ulaştırma Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAKAN ASLAN

  3. Determination of river pollution sources using source apportionment method: Ergene river

    Kaynak belirleme metodu kullanılarak nehir kirlilik kaynaklarının belirlenmesi: Ergene nehri

    FULYA ÇİNGİROĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BURÇAK KAYNAK TEZEL

  4. Assessing the impacts of urban land use/land cover change on soil ecosystem services

    Kentsel arazi kullanımı/arazi örtüsü değişiminin toprak ekosistem servisleri üzerindeki etkilerinin değerlendirilmesi

    MELTEM DELİBAŞ

    Doktora

    İngilizce

    İngilizce

    2023

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. AZİME TEZER

  5. Gsm sektörü için müşteri merkezli bilgi yönetimi değerlendirme modeli tasarımı ve bir uygulama

    The design of customer centric knowledge mangement assessment model for gsm ındustry and an aplıcatıon

    ATİK KULAKLI

    Doktora

    Türkçe

    Türkçe

    2005

    İşletmeİstanbul Teknik Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. SEMRA BİRGÜN