Geri Dön

İnsan aktivitesi tanımaya yönelik büyük veri setlerinde kümeleme yöntemlerinin bulut üzerinde paralelleştirilmesi

Parallelization of clustering methods for human activity recognition big datasets on cloud

  1. Tez No: 649417
  2. Yazar: AHMED ABDULRAHMAN M.JAMEL
  3. Danışmanlar: PROF. DR. BAHRİYE AKAY
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Aktivite tanıma, yaklaşık metodu, kümeleme, paralel hesaplama, örnekleme, Activity recognition, approximation approach, clustering, parallel computing, sampling
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 110

Özet

Mobil ve giyilebilir cihazların günlük insan aktivitesine ait verileri toplaması sayesinde, büyük ölçekli veriler ortaya çıkmıştır. Toplanan veriler heterojen ve doğrusal olarak ayrılamaz veriler olduğu için insan aktivitesini tahmin etmeye başlamadan önce verideki heterojenliğin azaltması gerekir. Doğrusal olmayan, heterojen veya büyük hacimli veriler üzerinde aktivite gruplamaya yönelik klasik kümeleme yöntemleri yetersiz kalmaktadır. Bu nedenle, verileri yeni bir özellik vektörü temsiline dönüştüren çekirdekleştirme (ing: kernelization) uygulanır. Bu çalışma, daha az kaynak kullanımı ile verideki heterojenliği azaltarak İnsan Aktivitesi Tanımaya (ing: Human Activity Recognition, HAR) yönelik veri kümelemesi için çekirdekleştirmeye dayalı gürbüz bir yöntem sunmayı amaçlamaktadır. Büyük verinin hesaplama maliyetini azaltmak için paralel yaklaşık (ing: approximate) kümeleme yöntemi önerilmiştir. HAR verilerinin paralel ortamda uygulanması ile veri boyutu azaltma, filtreleme, örnekleme ve yaklaşık kümeleme yöntemleri kullanılmış ve verilerdeki gürültü, heterojenlik ve doğrusal olmama gibi sorunlar çözülmüştür. Geliştirilen yöntemde örnekleme yapılarak, bu örneklem üzerinde çekirdek (kernel) K-means uygulanarak küme merkezleri alınmıştır. Örnek üzerindeki kümeleme işlemi ile oluşan merkezler baz alınarak verinin büyük parçasında en yakın komşu (ing: K Nearest Neighbour, KNN) algoritması uygulanmış ve yaklaşık değerler elde edilmiştir. Kümeleme algoritmasının kalitesini değerlendirmek için doğrulama ölçütü olarak Normalized Mutual Information (NMI) kullanılmıştır. Geliştirilen yöntem, Random Forest, KNN, Support Vector Machines (SVM) ve C4.5 sınıflandırma teknikleri ile kesinlik (precision), duyarlılık (recall), f-skoru metrikleri üzerinden kıyaslanmıştır. Geliştirilen yöntemin sınıflandırma başarısı ve hesaplama zamanı kıyaslanan yöntemlere nazaran daha iyi bulunmuştur. Ayrıca, insanın fiziksel aktivitelerini etkili bir şekilde tespit edip veri kümelerinin heterojenliğini azalttığı görülmüştür. Bu tez çalışması ile geliştirilen paralelleştirilmiş yarı denetimli yaklaşık yöntem, HAR kümeleme ile paralel hesaplama alanları arasındaki boşluğu doldurmaktır.

Özet (Çeviri)

Recently, owing to the capability of mobile and wearable devices to sense daily human activity, human activity recognition (HAR) datasets have become a large-scale data resource. Due to the heterogeneity and nonlinearly separable nature of the data recorded by these sensors, the datasets generated require special techniques to accurately predict human activity and mitigate the considerable heterogeneity. Consequently, classic clustering algorithms do not work well with these data. Hence, kernelization, which converts the data into a new feature vector representation, is performed on nonlinearly separable data. This study aims to present a robust method to perform HAR data clustering to mitigate heterogeneity in data with minimal resource consumption. Therefore, we propose a parallel approximated clustering approach to handle the computational cost of big data by addressing noise, heterogeneity, and nonlinearity in data using data reduction, filtering, and approximated clustering methods on parallel computing environments that have not been previously addressed. Our key contribution is to treat HAR as big data implemented by approximation kernel K-means approaches and fill the gap between the HAR clustering cost and parallel computing fields. We implemented our approach on Google cloud on a parallel spark cluster, which helped us to process large-scale HAR data across multiple machines of clusters. The normalized mutual information (NMI) is used as validation metric to assess the quality of the clustering algorithm. Additionally, the precision, recall, f-score metrics values are obtained somehow to compare the results with a classification technique. The experimental results of our clustering approach prove its effectiveness compared with a classification technique and can efficiently detect physical activity and mitigate the heterogeneity of the datasets.

Benzer Tezler

  1. Derin öğrenme ile cerrahi video anlama

    Surgical video understanding with deep learning

    ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DUYGU SARIKAYA

  2. X-ray görüntülerinde faster R-CNN kullanılarak yasaklı nesne tespiti

    Prohibited object detection using faster R-CNN in X-ray images

    ÖZCAN SORGUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Mekatronik MühendisliğiSakarya Uygulamalı Bilimler Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. RAŞİT KÖKER

  3. İstanbul'da konut arzında yaşam düzeyinin en üst düzeye çıkarılmasına katkısı olabilecek etkenlerin konjoint analizi ile araştırılmasına yönelik bir uygulama

    Researching the factors that maximize living standards in housing supply in Istanbul with an application of conjoint analysis

    CEM DURMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    İstatistikİstanbul Üniversitesi

    İstatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ LEYLA YÜCEL

  4. Pose sentences: A new representation for understanding human actions

    Poz cümleleri: İnsan aktivitelerini anlamak için yeni bir tanım

    KARDELEN HATUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. PINAR DUYGULU