İnsan aktivitesi tanımaya yönelik büyük veri setlerinde kümeleme yöntemlerinin bulut üzerinde paralelleştirilmesi
Parallelization of clustering methods for human activity recognition big datasets on cloud
- Tez No: 649417
- Danışmanlar: PROF. DR. BAHRİYE AKAY
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Aktivite tanıma, yaklaşık metodu, kümeleme, paralel hesaplama, örnekleme, Activity recognition, approximation approach, clustering, parallel computing, sampling
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Erciyes Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 110
Özet
Mobil ve giyilebilir cihazların günlük insan aktivitesine ait verileri toplaması sayesinde, büyük ölçekli veriler ortaya çıkmıştır. Toplanan veriler heterojen ve doğrusal olarak ayrılamaz veriler olduğu için insan aktivitesini tahmin etmeye başlamadan önce verideki heterojenliğin azaltması gerekir. Doğrusal olmayan, heterojen veya büyük hacimli veriler üzerinde aktivite gruplamaya yönelik klasik kümeleme yöntemleri yetersiz kalmaktadır. Bu nedenle, verileri yeni bir özellik vektörü temsiline dönüştüren çekirdekleştirme (ing: kernelization) uygulanır. Bu çalışma, daha az kaynak kullanımı ile verideki heterojenliği azaltarak İnsan Aktivitesi Tanımaya (ing: Human Activity Recognition, HAR) yönelik veri kümelemesi için çekirdekleştirmeye dayalı gürbüz bir yöntem sunmayı amaçlamaktadır. Büyük verinin hesaplama maliyetini azaltmak için paralel yaklaşık (ing: approximate) kümeleme yöntemi önerilmiştir. HAR verilerinin paralel ortamda uygulanması ile veri boyutu azaltma, filtreleme, örnekleme ve yaklaşık kümeleme yöntemleri kullanılmış ve verilerdeki gürültü, heterojenlik ve doğrusal olmama gibi sorunlar çözülmüştür. Geliştirilen yöntemde örnekleme yapılarak, bu örneklem üzerinde çekirdek (kernel) K-means uygulanarak küme merkezleri alınmıştır. Örnek üzerindeki kümeleme işlemi ile oluşan merkezler baz alınarak verinin büyük parçasında en yakın komşu (ing: K Nearest Neighbour, KNN) algoritması uygulanmış ve yaklaşık değerler elde edilmiştir. Kümeleme algoritmasının kalitesini değerlendirmek için doğrulama ölçütü olarak Normalized Mutual Information (NMI) kullanılmıştır. Geliştirilen yöntem, Random Forest, KNN, Support Vector Machines (SVM) ve C4.5 sınıflandırma teknikleri ile kesinlik (precision), duyarlılık (recall), f-skoru metrikleri üzerinden kıyaslanmıştır. Geliştirilen yöntemin sınıflandırma başarısı ve hesaplama zamanı kıyaslanan yöntemlere nazaran daha iyi bulunmuştur. Ayrıca, insanın fiziksel aktivitelerini etkili bir şekilde tespit edip veri kümelerinin heterojenliğini azalttığı görülmüştür. Bu tez çalışması ile geliştirilen paralelleştirilmiş yarı denetimli yaklaşık yöntem, HAR kümeleme ile paralel hesaplama alanları arasındaki boşluğu doldurmaktır.
Özet (Çeviri)
Recently, owing to the capability of mobile and wearable devices to sense daily human activity, human activity recognition (HAR) datasets have become a large-scale data resource. Due to the heterogeneity and nonlinearly separable nature of the data recorded by these sensors, the datasets generated require special techniques to accurately predict human activity and mitigate the considerable heterogeneity. Consequently, classic clustering algorithms do not work well with these data. Hence, kernelization, which converts the data into a new feature vector representation, is performed on nonlinearly separable data. This study aims to present a robust method to perform HAR data clustering to mitigate heterogeneity in data with minimal resource consumption. Therefore, we propose a parallel approximated clustering approach to handle the computational cost of big data by addressing noise, heterogeneity, and nonlinearity in data using data reduction, filtering, and approximated clustering methods on parallel computing environments that have not been previously addressed. Our key contribution is to treat HAR as big data implemented by approximation kernel K-means approaches and fill the gap between the HAR clustering cost and parallel computing fields. We implemented our approach on Google cloud on a parallel spark cluster, which helped us to process large-scale HAR data across multiple machines of clusters. The normalized mutual information (NMI) is used as validation metric to assess the quality of the clustering algorithm. Additionally, the precision, recall, f-score metrics values are obtained somehow to compare the results with a classification technique. The experimental results of our clustering approach prove its effectiveness compared with a classification technique and can efficiently detect physical activity and mitigate the heterogeneity of the datasets.
Benzer Tezler
- Derin öğrenme ile cerrahi video anlama
Surgical video understanding with deep learning
ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DUYGU SARIKAYA
- X-ray görüntülerinde faster R-CNN kullanılarak yasaklı nesne tespiti
Prohibited object detection using faster R-CNN in X-ray images
ÖZCAN SORGUN
Yüksek Lisans
Türkçe
2022
Mekatronik MühendisliğiSakarya Uygulamalı Bilimler ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. RAŞİT KÖKER
- İstanbul'da konut arzında yaşam düzeyinin en üst düzeye çıkarılmasına katkısı olabilecek etkenlerin konjoint analizi ile araştırılmasına yönelik bir uygulama
Researching the factors that maximize living standards in housing supply in Istanbul with an application of conjoint analysis
CEM DURMAZ
Yüksek Lisans
Türkçe
2022
İstatistikİstanbul Üniversitesiİstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ LEYLA YÜCEL
- Ankara gecekondu gençliğinin eğitimine ve kentleşmesine televizyon yayınlarının etkisi
Başlık çevirisi yok
A. ZAHİD AKMAN
- Pose sentences: A new representation for understanding human actions
Poz cümleleri: İnsan aktivitelerini anlamak için yeni bir tanım
KARDELEN HATUN
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. PINAR DUYGULU