Geri Dön

Human activity recognition using deep learning

Derin öğrenme ile insan aktivitesi tanıma

  1. Tez No: 542575
  2. Yazar: MURAT YALÇIN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ HÜLYA YALÇIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Telekomünikasyon Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 101

Özet

İnsan aktivitesi tanıma, akıllı gözetim, insan-bilgisayar etkileşimi gi geniş uygulama alanına sahip olduğu için bilgisayarla görü alanında oldukça sıcak araştırma alanıdır. Aktivite tanıma üzerine araştırmalar ana çerçevede RGB videolar ve giyilebilir sensörler üzerine odaklanmıştır. RGB-D sensörlerinin kolay bulunması ve geniş kullanımı nedeniyle insan aktivitesi tanıma daha fazla popüler olmaktadır. Aktivite tanıma, tehlikeli durumların tespiti yada yanlız yaşayan insanları izlemek gibi çoğu alana uygulanabilir. Örneğin, yaşlı insanları izleyen bir robot onlara suiçmesini hatırlatabilir. Dağınık ve görsel olarak karmaşık doğasında dolayı insan aktivitelerini tanımak çok daha zor olmaktadır. Aktivite tanıma problemi, kamera pozisyonuna, ışığın durumuna, arka plan değişimlerine ve çevreye bağlı kalmaksızın aktiviteyi mümkün olduğunca gürbüz bir şekilde tanımaktır. Bu durum, çok sayıda parametre bulundurduğu için oldukça zorlayıcı bir iştir. Aynı zamanda akitivitelerin doğası kişiye göre oldukça değişkenlik gösterir. Aynı zamanda problem senaryosu değişiklik gösterebilir: etkileşimli aktivitelere, çok farklı kamera pozisyonlarına veya çok farklı veri kümelerine sahip olabiliriz. Bu yüzden aktivite tanıma problemi hala çözüme açık bir problemdir ve bunları çözecek belirgin bir çözüm yoktur. Bu tezde, insan aktiviteleri iskeletsel ve RGB verileri kullanılarak çeşitli derin öğrenme teknikleri ile sınıflandırılmıştır. Burada problemin sadece bir çeşit veriye bağlı kalmadan çözülmesi hedeflenmiştir. Son yıllarda derin öğrenme tabanlı yaklaşımlar görüntü sınıflandırma, nesne tanıma gibi alanlarda büyük başarı elde etmiştir. Derin öğrenme, öznitelik çıkarma konusunda el işçiliği gerektiren tekniklere göre çok büyük kabiliyete sahiptir. Bu yüzden sıfırdan derin sinir ağları geliştirerek bu öznitelikleri öğrenmeye çalıştık. İskeletsel veriyi işlemenin amacı, RGB-D sensöründen aldığımız 3 boyutlu iskelet verileriyle derin öğrenme algoritmaları kullanarak insan aktivitelerini otomatik olarak sınıflandırmaktır. Derinlik sensörleri insan aktivitelinin analizi için 3 boyutlu iskelet datasını son yıllarda gürbüz bir şekilde sınıflandırma ve görüşe göre değişmezliği sebebiyle son yıllarda popüler olmuştur. Bizim metotlarımız eklem datasını kullanarak, sınıflandırma için direkt olarak öznitelikleri çıkardığı için el yapımı özniteliklere göre üstünlük sağlamaktadır. Çalışmamızda, insan aktivitesi tanımak için çok sayıda veri kümesi kullanıldık. Onlardan biri, literatüre göre kıyasladığımızda oldukça zorlayıcı ve yeni olan NTU RGB+D veri kümesi kullanılmıştır. Aynı zamanda bu veri kümesi derin öğrenme gibi veriye aç metotları uygulamak için oldukça büyük ve uygundur ve etkileşimli aktiviteler içerir. Etkileşimli aktivitelerin sınıflandırılması için çok sayıda analiz metotları kullandık. Aynı zamanda gördük ki, literatürde etkileşimli aktivitelerin sınıflandırılması için yeterince çalışma olmadığını gördük. Oluşturulan modelin ne kadar iyi olduğunu anlamak için toplanan gerçek verilerle test edilmesi iyi olacaktır.Bu noktada Microsoft Kinect v1 görüntü ve derinlik sensörü kullanılarak dört kişiden beş farklı aktivite için veri toplanmıştır. Kullanıma açık olan MSR Daily Activity 3D veri kümesinde eğitim işlemi yapılmış, sonrasında bu veri kümesinde test işlemi yapılmıştır. Test sonuçları modelimizin yeni kişi activitelerinin tespitinde de çok iyi olduğunu göstermiştir. 2 ve 3 boyutlu Evrişimsel Sinir Ağı (CNN) modelleri ve Uzun-Kısa Zamanlı Hafıza (LSTM) ağları kullanılarak iskeletsel veri için performans analizi yapılmıştır. Aynı zamanda Üretici Çekişmeli Ağ kullanarak yeni bir teknik uygulanmış ve yeni sentetik veriler üretilmiştir.Bu teknik sayesinde başarım oranı önemli ölçüde artmıştır. Sınıflandırma için standart LSTM ve Çift Yönlü LSTM modelleri olmak üzere 2 farklı Uzun-Kısa Zamanlı Hafıza (LSTM) modeli kullanılmıştır. Standart LSTM ağı gelecek giriş bilgisine o anki güncel durumdan ulaşma konusunda sınırlandırmalara sahiptir. Çift yönlü LSTM modelinin oluştumadaki temel düşünce iki saklı katmanın aynı çıkışa zıt yönlerde bağlantı kurmasını sağlamaktır. Sonuçlar gösteriyor ki çift yönlü LSTM modeli, dizisel datanın birbiriyle olan ilişkisini modellemede büyük yeteneğe sahiptir. Çok sayıda Evrişimsel Sinir Ağı(CNN) tabanlı model aktivitenin tanınması için uygulanmıştır. İlk olarak iki farklı sıfırdan geliştirilen 2 boyutlu CNN modeli iskeletsel data için uygulanmıştır. Network derinliğinin öğrenme kabiliyeti üzerine etkisi analiz edilmiştir. Başka bir deneyde, iki çerçeve arasındaki hareket bilgisinin başka bir öznitelik haritası ve yardımcı giriş olarak ağa beslendiği iki akışlı CNN ağı kullanılmıştır. Anlamlı uzay-zamansal bilginin elde edilebilmesi için başka bir deneyde 3 boyutlu CNN modeli geliştirilmiştir. Aynı zamanda, 3 boyutlu CNN mimarisinden elde edilen verileri sınıflandırmak için Destek Vektör Makineleri (SVM) kullandık. Böylece, SVM ve Çok Katmanlı Algılayıcı (MLP) arasındaki sınıflandırma başarısını analiz etmek istedik. Deneyler gösteriyor ki, sıfırdan geliştirilen 3 boyutlu CNN mimarisi hareket gösterimini daha doğru bir şekilde elde edebildiği için diğer CNN yaklaşımlarına göre daha yüksek bir performans göstermiştir. Derin öğrenme tabanlı çözümlerin başarısı eğitim veri kümesininin büyklüğüne bağlıdır. Bu nedenle, bu tezde büyük datasetler kullandık. Buna rağmen, Üretici Çekişmeli Ağ (GAN) kullanarak tamamen yeni bir teknikle veri kümesini çoğaltmaya çalıştık. Üretici Çekişmeli Ağlar, bir veri kümesinden gerçek veri görüntüsü altında sentetik yeni örnekler üreterek veri kümesindeki ek bilgileri tamamen yeni bir yolla ortaya çıkarmaktadır. GAN kullanarak 20000 yeni sentetik veri üretildi ve sınıflandırmadan önce eğitim veri kümesine eklendi. Yapılan deneyler sonucunda, 3 boyutlu CNN mimarisi kullanılması ve GAN tekniği kullanılarak oluşturulan verilerin eklenmesi sonucunda oluşturulan sınıflandırmada, LSTM ağlarına göre daha anlamlı öznitelikleri daha çok elde ederek en yüksek başarım oranı elde edilmiştir. Tezin ikinci kısmında, videolardaki RGB verileri kullanılarak aktivite sınıflandırma için çok sayıda derin öğrenme tekniği önerilmiştir. Yalnızca 3 boyutlu CNN mimarisi kullanılması, LSTM ağını sınıflandırmada kullanan hibrit model ve optik akış özniteliklerini 3 boyutlu CNN ağı ile birleştiren model olmak üzere 3 farklı model ile deneyler yapılmıştır. Deneyler sonucunda optik akış, aktivitelerin hareket özniteliğini elde etmede oldukça başarılı ve bu özniteliklerin 3 boyutlu CNN ağı ile birleştirilmesi sonucunda yapılan sınıflandırmada başarım değerinin arttığı ve daha gürbüzce sınıflandırmaya olanak sağladığı görülmüştür. Performans analizi ve değerlendirme için UCF101 ve HMDB51 kıyaslama veri kümeleri kullanılmıştır. Bu veri kümeleri dağınık arka plana sahip olmaları, yüksek kamera hareketleri ve düzensiz bir doğaya sahip olduklarında dolayı oldukça zorlayıcı veri kümeleridir. Sonuçlar gösteriyor ki optik akış özniteliklerinin 3 boyutlu CNN öznitelikleri ile birleştirilmesi sonucunda hareketi anlama konusunda iyi bir gösterim sağlayıp, daha gürbüzce sınıflandırma yapılmıştır.

Özet (Çeviri)

Human activity recognition has been very active research topic in computer vision area due to its wide range of applications, such as smart surveillance, robotics and human-computer interactions. Researches on activity recognition mainly focused on RGB videos and wearable sensors and its applications. With easy availability and and widespread use of RGB-D sensors, human activity recognition is becoming more popular. Activity recognition can be applied to many areas like detecting dangerous events or monitoring people living alone. For example, if a robot could watch and keep track of how often a person drinks water, it could prevent the dehydration of elderly by reminding them. Due to its unstructured and often visually confusing nature, recognition of daily activities becomes a much more difficult task. Activity recognition problem can be defined as classifying activities as robust as possible without depend on environment, camera positions, lighting conditions background changes and so on. This is very challenging task because of it may contain many parameters. Also nature of the activities changes dramatically person by person. Also problem scenario may contain many variation: we can have interacting activities, we can have very different camera locations or we can have different datasets etc. So, human activity recognition is still open problem and there is no prominent solution to solve all different scenarios. In this thesis, human activities were classified with various deep learning techniques using skeletal and RGB datasets. We aimed that to solve that problem without depend on just one type data. Recent years, deep learning based approaches has shown great success on many areas such as image classification, object recognition etc. They have great feature extraction capabilities if we compare to hand-crafted feature extraction techniques. So, we constructed from scratch deep neural network to get these meaningful features. The aim of processing skeletal data is to automatically recognize human activities with deep learning techniques using three-dimensional skeletal joint data from the RGB-D sensor. Depth sensors open up possibilities of dealing with the analysis of human actions based on 3D skeleton data has become popular recently, due to its robustness and view-invariant representation. Our methods uses the joint data directly and automatically acquires the features to be used in the classification, thus provides superiority to the methods which uses hand-crafted features. In our work, we used several datasets for human activity classification. One of them is NTU RGB+D dataset which is quite new and challenging compared to the datasets in the literature is used. Also, this dataset is very large and very suitable to implement deep learning which is data-hungry methods and it includes interacting activities. We have carried out several analyzing methods for classification of interacting activities. Also, we have seen that there is no enough work in the literature for classifying interacting activities. It is important how your model is good enough to classify real world data you get. So, we collected skeletal data using Microsoft Kinect v1 sensor from 4 different person for five different activities.We trained our model on MSR Daily Activity 3D dataset and tested our model on data we collected. Test results shows that our models very good at new person activities. With using 2D, 3D from scratch Convolutional Neural Networks(CNN) and Long-Short Term Memory(LSTM) Networks a performance analysis was performed for skeletal data. Also a novel technique was implemented for data augmentation and new synthetic data was created by using Generative Adversarial Network (GAN). By using this technique, accuracy was increased significantly. We used two different Long-Short Term Memory (LSTM) models for classification, standard LSTM and Bidirectional LSTM. Standard LSTM network have restrictions as the future input information cannot be reached from the current state. The basic idea of Bidirectional LSTM model is to connect two hidden layers of opposite directions to the same output. Results shows that Bidirectional LSTM has great capability to interpret relation of sequential data with each other. Several Convolutional Neural Network (CNN) based methods was implemented for activity recognition. Firstly, we developed two different from scratch 2D CNN for skeletal data. We analyzed how deepening network is effecting learning capability.In another experiment we used two-stream CNN network where model is fed another feature map which include motion information between consecutive frames as a supportive input. To get more meaningful spatio-temporal informations about activity, in another experiment we deployed 3D CNN model for this task. Also, we used Support Vector Machines (SVM) as a classifier after obtained features by 3D CNN. Thus, we wanted to analyze classification success between SVM and Multilayer Perceptron (MLP). Experiments shows that 3D CNN architecture developed from scratch gives a higher performance than other CNN approaches and it enables action representation properly. Success of the deep learning based solutions rely on size of the training data. For this reason, we used large in this thesis. However, we tried to augment data by using a novel technique called Generative Adversarial Network (GAN).Generative Adversarial Networks (GANs) offer a novel way to unlock additional information from a dataset by generating synthetic samples with the appearance of real data. By using GAN, 20000 new synthetic data were created and included to training set before classification. As a result of the experiments made, the technique applied by the 3D CNN and combined with GAN achieves the highest classification accuracy with by obtaining much more meaningful features compare to the LSTM Networks. In the second part of the thesis, we propose different deep learning techniques for activity recognition by using RGB data in videos. We carry out three different experiments which are 3D CNN architecture solely, hybrid model which deploy LSTM network for classification, and combination of optical flow with features from 3D CNN networks. Experiments shows that optical flow features are very useful to get motion features of activities and combining it with 3D CNN architectures helps to increase accuracy and allows more robustly classification. UCF101 and HMDB51 benchmark datasets were used for performance analysis and evaluate the proposed methods. These are very challenging datasets because of they consist of cluttered background and contains highly camera motions and also has unconstrained nature. Results shows that combining optical flow features with 3D CNN features makes better representation for motion understanding and more robust classification.

Benzer Tezler

  1. Human activity recognition using deep convolutional neural network

    Derin öğrenme yöntemleri kullanılarak insan aktivitesi tanıma

    ELİF KEVSER TOPUZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAdana Alparslan Türkeş Bilim Ve Teknoloji Üniversitesi

    Siber Güvenlik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YASİN KAYA

  2. A new approach using deep learning methodologies from human activity recognition to Robot Grasping

    İnsan aktivitesi tanımadan Robot Kavrama'ya derin öğrenme yöntemlerini kullanarak yeni bir yaklaşım

    SENEM TANBERK

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MİTAT UYSAL

    DR. DİLEK BİLGİN TÜKELİ

  3. An efficient model for human activity recognition using convolutional neural network (CNN)

    Evrimsel sinir ağı (CNN) kullanarak insan faaliyetlerinin tanıma için etkili bir model

    HUSSEIN RIYADH HUSSEIN AL-GBURI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilim ve TeknolojiAltınbaş Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULLAHI ABDU IBRAHIM

  4. Derin öğrenme teknikleri kullanilarak gerçek zamanli saldiri tespiti

    Real-time attack detection using deep learning techniques

    AHMET ER

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTokat Gaziosmanpaşa Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ABDULLAH HAKAN YAVUZ

  5. Gürültü giderici oto-kodlayıcı kullanarak eksik değerlerin tamamlanması

    Completing the missing values using a denoising autoencoder

    MAHA HUSSEIN ASGHAR ASGHAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERSİN KAYA