Compositional modelling of first-person actions as verb-noun streams using LSTM based late fusion strategies
Birinci-şahıs hareketlerinin LSTM tabanlı geç füzyon stratejileri kullanarak fiil-nesne akışları olarak birleşimsel modellenmesi
- Tez No: 584837
- Danışmanlar: DR. ÖĞR. ÜYESİ SELEN PEHLİVAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: TED Üniversitesi
- Enstitü: Lisansüstü Programlar Enstitüsü
- Ana Bilim Dalı: Belirtilmemiş.
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Birinci-şahıs videolarının analizi, insan hareketlerini içeren birçok probleme çözüm sunmaktadır. Bu videolar, el-nesne etkileşimlerine sahip çok sayıda detaylı eylem kategorisi içerir. Bu tezde, birinci-şahıs videolarındaki insan hareketlerini tanımlamak amacıyla çeşitli füzyon stratejileriyle fiil ve nesne akışlarının birleşimsel modellenmesi önerilmiştir. Fiil akışında, video tabanlı özellikleri çoklu ölçeklerde modellemek için 3 Boyutlu Konvolüsyonlu Sinir Ağı modeli, C3D, kullandık. Nesne akışında ise el ile etkileşimde bulunan nesneleri modellemek için nesne algılama modeli, YOLO, kullandık. Bu iki akışı birleştirmek için iki farklı füzyon stratejisi önerilmiştir. İlkinde, insan hareketleri herhangi bir öğrenme gerçekleştirmeden basit bir çarpımla elde edilmektedir. İkincisinde ise LSTM tabanlı modeller kullanılmıştır. EGTEA Gaze+ veri seti üzerinde iki farklı füzyon metodolojilerinden elde ettiğimiz deneysel sonuçlar, birleşik modellerimizin taban modeli olan C3D hareket modelinden daha başarılı olduğunu göstermiştir.
Özet (Çeviri)
Analysis of first-person videos involving human actions could help in the solutions of many problems. These videos include a large number of fine-grained action categories with hand-object interactions. In this thesis, compositional modeling of verb and object streams with various fusion strategies is proposed to recognize human actions in first-person videos. We utilize 3D Convolutional Neural Network model, C3D, for verb stream to model video-based features in multiple scales, and we utilize object detection model, YOLO, for object stream to model objects interacting with hand. Two fusion strategies are proposed to combine these two streams. In the first one, human actions are obtained by simple multiplication without learning. In the second, LSTM based models are proposed. Experimental results on EGTEA Gaze+ dataset obtained from these two different fusion strategies show that our composite models present promising results compared to the baseline action models.
Benzer Tezler
- Boğaziçi'nde insan etkileri ve çevrenin görsel yorumu
Visual effects of man-made developments on the rosphorus and the visual commentment of the Bosphorus present landscape
A.ŞEBNEM PİLGİR
- Erken Hristiyan ve ilk Bizans resim ve kabartma sanatında kaynak ve okullar (2 cilt)
Sources and school of painting and sculpture during the early Christian and first Byzantine period
AHMET MEHMET KİPMEN
- Bulanık mantık kontrolör ile klasık PID kontrolör algoritmalarının karşılaştırılması
Comparative study of PID controllers and fuzzy logic controllers
ÇİĞDEM ERGÜVEN
Yüksek Lisans
Türkçe
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ.DR. İBRAHİM EKSİN
- Tasarım eğitiminde akıl yürütmeyi tartışmak: Sayısal araçlarla bir tasarım alıştırması denemesı
Discussing reasoning in education: A design exercise with digital tools
SİBEL KURUGÜL
Yüksek Lisans
Türkçe
2012
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
DOÇ. DR. MİNE ÖZKAR
- Organik atıklardan sürdürülebilir enerji geri kazanımı: Biyolojik ve termal geri kazanım proseslerinin analizi
Sustainable energy recovery from organic wastes: Analysis of biochemical and thermal processes
HASAN SUPHİ ALTAN
Doktora
Türkçe
2022
Çevre Mühendisliğiİstanbul Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
PROF. DR. SEVAL SÖZEN