Geri Dön

Recognizing human actions from images with attention mechanism

İmgelerde ilgi mekanizması ile insan hareketlerinin tanınması

  1. Tez No: 798218
  2. Yazar: ÇAĞDAŞ BAŞ
  3. Danışmanlar: DOÇ. DR. NAZLI İKİZLER CİNBİŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 106

Özet

İmgelerde insan hareketlerini tanıma videolarda bulunan tüm hareket bilgisini içermediğinden zor bir problemdir. Sürekli bir hareketin tek bir anını, videodan sağlanan zengin bilgi ile kıyaslamak mümkün değildir. Bu tezde biz, etraftaki bilgiyi iki farklı ilgi tabanlı çoklu örnekle öğrenme mekanizması ile birleştirerek imgelerde insan hareketleri tanıma konusuna odaklandık. İnsan etrafındaki eşyalar veya sahne detayları imgelerde hareket tanıma için önemlidir. Fakat olası tüm nesneleri veya sahneleri tespit edebilmek yapılabilir değildir. Bu sebeple, bölge önerme ağları tarafından önerilen hareket ile ilgili alanları birleştirecek iki farklı ilgi mekanizması kullanmayı önerdik. Önerdiğimiz ilgi mekanizmalarından ilki olan aşağıdan-yukarıya ilgi katmanı her önerilen alan için uzamsal bir harita öğrenir. Bu harita, hareket ile ilgili olmayan pikselleri bastırırken hareket ile ilişkili piksellerin ön plana çıkmasını sağlar. Deneylerimiz yukarıdan-aşağı ilgi katmanlarının tüm modelin başarımını yükselttiğini göstermektedir. Ön plana çıkartılan alanların görsel olarak incelenmesi sonucunda da katmanın, hareketle alakalı nesne, arka plan ipuçları ve poz kesimlerini başarılı bir şekilde bulabildiği görülmüştür. Önerdiğimiz ilgi mekanizmalarından diğeri ise yukarıdan-aşağı ilgi katmanıdır. Bu katman, bölge önerme ağı tarafından önerilmiş hangi bölgelerin hareketle ilgili olduğunu öğrenir. Belirli bölgelerde bulunan ipuçları birden çok hareketle ilişkili olabileceği için aşağıdan yukarı ilgi katmanı tamamını ön plana çıkarsa da hangi bölge bileşimlerinin hareketle ilişkili olacağını yukarıdan-aşağı ilgi katmanı seçer. Bu katman bölge bileşimlerini seçer ve bölgelere ait öznitelik vektörlerini ilgiye dayalı bir şekilde birleştirerek tüm görüntüyü ifade eden tek bir öznitelik vektörü yaratır. Deneylerimiz sonucu yukarıdan-aşağı ilgi katmanının başarılı bir şekilde ilgili bölgeleri seçtiğini ve toplam başarımı arttırdığını gözlemledik. Önerdiğimiz model herhangi bir bölge önerme ağından sonra konumlandırılabilir ve uçtan uca bir öğrenme yapılmasını sağlar. Bu şekilde tüm ağ, hareket ile ilgili bölgeleri seçmeyi, bu bölgeleri uzamsal olarak ağırlıklandırmayı ve hareket ile ilişkili bölgeleri en iyi şekilde birleştirerek tüm görüntüyü ifade eden bir öznitelik vektörü oluşturmayı öğrenir. Sonuç olarak önerdiğimiz model dört farklı veri kümesinde literatürdeki en iyi yöntemlerin sonuçlarını iyileştirdi.

Özet (Çeviri)

Human action recognition in still images is a challenging problem due to the lack of complete motion compared to videos. A single snippet of the ongoing action does not compete with the rich information provided by a video. In this thesis, we explore combining the surrounding information with two different attentional multiple instance mechanisms. The surrounding objects and scene clues are essential in still image action recognition. However, detecting every object is not feasible. For this reason, we employ two different attention mechanisms on possible action related regions proposed by a region proposal network. The first attention layer is the bottom-up attention layer. It learns a spatial attention map to refine each proposal according to ongoing action. It eliminates the background and highlights only the foreground and the pixels related to the action. Our experiments show that the bottom-up attention layer increases the models' accuracy. Visual analysis of the highlighted areas shows that it successfully finds action related objects, scene clues and poselets. The second attention layer is the top-down attention layer. It learns to select which region proposals are related to the ongoing action. There may be multiple action related clues in an image, and the bottom-up attention layer can highlight multiple image regions. However, the selection of related proposals is the top-down attention layers task. It learns to select regions and combines region features to create a single image-level descriptor. Our experiments show that the top-down attention layer successfully selects the related regions to boost the overall performance. Our proposed model can be plugged after any region proposal network and allows end-to-end learning. This way, the network simultaneously learns to propose action related regions, weights each region with an action attention map and selects and combines these regions into an image feature vector. As a result, our model improved the state-of-the-art average precision on four different datasets.

Benzer Tezler

  1. Yapay Zeka'nın robot görmesi üzerine uygulanması

    An Application of robot vision in artificial intelligence

    FUNDA PEHLİVAN

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. TALHA DİNİBÜTÜN

  2. Un regard sur l'image du corps dans la littérature française des XXe et XXIe siècles

    20. ve 21. yüzyıl Fransız edebiyatında beden imgesine bir bakış

    KAMAR ARARAT KALPAKÇİYAN

    Yüksek Lisans

    Fransızca

    Fransızca

    2012

    Fransız Dili ve EdebiyatıGalatasaray Üniversitesi

    Fransız Dili ve Edebiyatı Ana Bilim Dalı

    YRD. DOÇ. DR. SEZA YILANCIOĞLU

  3. Yapay zeka yöntemleri kullanılarak insan eylemi tanıma

    Human action recognition using artificial intelligence methods

    ENGİN SEVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EYLEM YÜCEL DEMİREL

  4. Human action recognition using 3D joint information and pyramidal HOOFD features

    3D eklem bilgisi ve piramit HOOFD özniteliğini kullanarak insan aktivitelerini tanıma

    BARIŞ CAN ÜSTÜNDAĞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA ÜNEL

  5. Utilizing multiple instance learning for computer vision tasks

    Bilgisayarlı görü problemlerinin çoklu örnekle öğrenme ile değerlendirilmesi

    FADİME ŞENER

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN

    YRD. DOÇ. DR. NAZLI İKİZLER CİNBİŞ