Compositional modelling of first-person actions as verb-noun streams using LSTM based late fusion strategies

Birinci-şahıs hareketlerinin LSTM tabanlı geç füzyon stratejileri kullanarak fiil-nesne akışları olarak birleşimsel modellenmesi

PDF İndir

Tez No: 584837
Yazar: ZEYNEP GÖKCE
Danışmanlar: DR. ÖĞR. ÜYESİ SELEN PEHLİVAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: TED Üniversitesi
Enstitü: Lisansüstü Programlar Enstitüsü
Ana Bilim Dalı: Belirtilmemiş.
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 80

Özet

Birinci-şahıs videolarının analizi, insan hareketlerini içeren birçok probleme çözüm sunmaktadır. Bu videolar, el-nesne etkileşimlerine sahip çok sayıda detaylı eylem kategorisi içerir. Bu tezde, birinci-şahıs videolarındaki insan hareketlerini tanımlamak amacıyla çeşitli füzyon stratejileriyle fiil ve nesne akışlarının birleşimsel modellenmesi önerilmiştir. Fiil akışında, video tabanlı özellikleri çoklu ölçeklerde modellemek için 3 Boyutlu Konvolüsyonlu Sinir Ağı modeli, C3D, kullandık. Nesne akışında ise el ile etkileşimde bulunan nesneleri modellemek için nesne algılama modeli, YOLO, kullandık. Bu iki akışı birleştirmek için iki farklı füzyon stratejisi önerilmiştir. İlkinde, insan hareketleri herhangi bir öğrenme gerçekleştirmeden basit bir çarpımla elde edilmektedir. İkincisinde ise LSTM tabanlı modeller kullanılmıştır. EGTEA Gaze+ veri seti üzerinde iki farklı füzyon metodolojilerinden elde ettiğimiz deneysel sonuçlar, birleşik modellerimizin taban modeli olan C3D hareket modelinden daha başarılı olduğunu göstermiştir.

Özet (Çeviri)

Analysis of first-person videos involving human actions could help in the solutions of many problems. These videos include a large number of fine-grained action categories with hand-object interactions. In this thesis, compositional modeling of verb and object streams with various fusion strategies is proposed to recognize human actions in first-person videos. We utilize 3D Convolutional Neural Network model, C3D, for verb stream to model video-based features in multiple scales, and we utilize object detection model, YOLO, for object stream to model objects interacting with hand. Two fusion strategies are proposed to combine these two streams. In the first one, human actions are obtained by simple multiplication without learning. In the second, LSTM based models are proposed. Experimental results on EGTEA Gaze+ dataset obtained from these two different fusion strategies show that our composite models present promising results compared to the baseline action models.

Benzer Tezler

Tez No
21830
Boğaziçi'nde insan etkileri ve çevrenin görsel yorumu
Visual effects of man-made developments on the rosphorus and the visual commentment of the Bosphorus present landscape
A.ŞEBNEM PİLGİR
Yüksek Lisans
Türkçe
1992
Mimarlık İstanbul Teknik Üniversitesi
PROF. DR. HÜLYA YÜREKLİ
Tez No
53445
Erken Hristiyan ve ilk Bizans resim ve kabartma sanatında kaynak ve okullar (2 cilt)
Sources and school of painting and sculpture during the early Christian and first Byzantine period
AHMET MEHMET KİPMEN
Doktora
Türkçe
1996
Güzel Sanatlar Mimar Sinan Güzel Sanatlar Üniversitesi
PROF.DR. SEMRA GERMANER
Tez No
100575
Bulanık mantık kontrolör ile klasık PID kontrolör algoritmalarının karşılaştırılması
Comparative study of PID controllers and fuzzy logic controllers
ÇİĞDEM ERGÜVEN
Yüksek Lisans
Türkçe
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
DOÇ.DR. İBRAHİM EKSİN
Tez No
350623
Tasarım eğitiminde akıl yürütmeyi tartışmak: Sayısal araçlarla bir tasarım alıştırması denemesı
Discussing reasoning in education: A design exercise with digital tools
SİBEL KURUGÜL
Yüksek Lisans
Türkçe
2012
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
DOÇ. DR. MİNE ÖZKAR
Tez No
730120
Organik atıklardan sürdürülebilir enerji geri kazanımı: Biyolojik ve termal geri kazanım proseslerinin analizi
Sustainable energy recovery from organic wastes: Analysis of biochemical and thermal processes
HASAN SUPHİ ALTAN
Doktora
Türkçe
2022
Çevre Mühendisliği İstanbul Teknik Üniversitesi
Çevre Mühendisliği Ana Bilim Dalı
PROF. DR. SEVAL SÖZEN

Geri Dön