A variational graph autoencoder for manipulation action recognition and prediction
Manipülasyon aksiyon tanıma ve tahminleme için değişimsel çizge otokodlayıcısı
- Tez No: 740968
- Danışmanlar: DOÇ. DR. SANEM SARIEL UZER, DOÇ. DR. EREN ERDAL AKSOY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 52
Özet
Yıllardır süregelen araştırmalara ve bulunan etkili metotlara karşın, insan manipülasyon eylemlerini anlamak, bilgisayarlı görü ve robotik alanında günümüzdeki en ilgi çekici ve zorlu çalışma problemlerinden biri olmayı sürdürmektedir. Uzun yıllar araştırılmaya devam edilmesine rağmen bu alanın topluluk tarafından zorlayıcı olarak görülmesinin nedenlerinden biri, insan manipülasyon eylemleriyle eğitim yapılabilmesi için gerekli bilginin hesaplama açısından pahalı olduğu bilinen videolardan çıkarılmak zorunda kalınmasıdır. Topluluk tarafından zorlayıcı olarak görülmesinin diğer bir nedeni ise insan manipülasyon eylemlerinin farklarının ham video görüntülerinden anlaşılmasının zor olmasıdır. Örneğin kesme eylemiyle doğrama eyleminin neredeyse aynı süreçlerden geçiyor olması (iki eylemde de kesici alete uzanma, kesici aleti kavrama, kesici aleti etkileşime girilecek cisme yaklaştırma gibi hareketler neredeyse aynıdır), bu iki eylemin farkının videolardan anlaşılmasının zor olacağını gözler önüne sermektedir. Araştırmacıları zorlayabilen bir başka neden ise aynı manipülasyon eylemlerinin farklı şekillerde uygulanabilecek olmasıdır. Bu farklar, eylemin farklı insanlar tarafından uygulanmasıyla veya aynı insanın aynı eylemi farklı şekillerde uygulamasıyla ortaya çıkabilmektedir. Örneğin kesme eylemi süresince kesici alet farklı insanlar tarafından farklı şekillerde kavranabilmektedir veya kesici alet aynı insan tarafından farklı elle tutulabilmektedir. Yukarıda bahsedilen bu nedenlerden ötürü bu alanda çalışmalar hız kesmeden devam etmektedir. Gözlenen insan manipülasyon faaliyetlerinin tanınması ve tahmin edilmesi problemleri köklerini, insan-robot etkileşimi ve görselle tatbik uygulamalarıyla robot öğrenimi gibi konulara dayandırmaktadır. Mevcut araştırma eğilimi, büyük ölçüde RGB kamera görüntüleri gibi yapısallaştırılmış Öklid verilerini işlemek için gelişmiş evrişimli sinir ağlarına dayanmaktadır. Bununla birlikte, yüksek boyutlu ham girdiyi işlemek için bu ağlarda yapılan hesaplamalar son derece karmaşık hale gelmektedir. Dolayısıyla bu ağların eğitimi için çok büyük miktarda zamana ve veriye ihtiyaç vardır. Bu tez bağlamında, manipülasyon faaliyetlerinin tanınmasını ve tahmin edilmesini aynı anda öğrenmek için, önceki araştırmalarda kullanılan yapısallaştırılmış Öklid verilerinden farklı olarak, derin çizgesel otokodlayıcı yapısı sembolik sahne çizgeleriyle beslenmiştir. Geliştirilen bu derin çizgesel otokodlayıcı modeli sayesinde eğitim sırasında daha az veriye ihtiyaç duyulmuştur ve eğitim süreci çok daha kısalmıştır. Ağ, iki dallı değişimsel (variational) otokodlayıcı yapısına sahiptir. Bu dallardan biri ağı besleyen çizgenin tipinin tanınması, diğeri ise gelecek çizgelerin tahmini içindir. Önerilen metot, bir sahnedeki özneler ve nesneler arasındaki uzamsal ilişkileri temsil eden anlamsal (semantic) çizgeleri girdi olarak almaktadır. Bu sahne çizgelerinin kullanılmasının amacı bu tip çizgelerin esnek yapıya sahip olmaları ve kullanılan ortamları modellenme kapasiteleridir. Deneyler için MANIAC ve MSRC-9 adında iki farklı veriseti kullanılmıştır. MANIAC veriseti, 15 farklı gösterimden 8 farklı manipülasyon eylem sınıfına (itme, koyma, saklama, karıştırma, kesme, doğrama, alma, ortaya çıkarma) sahiptir. MSRC-9 veriseti ise 240 adet gerçek dünya görüntüleri için elle oluşturulmuş 9 farklı sınıfa (bina, çimen, ağaç, inek, gökyüzü, uçak, yüz, araba, bisiklet) sahiptir. Böylesine farklı iki verisetinin kullanılmasının amacı, önerilen metotun farklı görevler için ne kadar genel bir çözüm sunabileceğini ölçmektir. Önerilen metot, bu verisetleri üzerinde güncel olarak en iyi durumda olduğu beyanında bulunan çeşitli metotlarla karşılaştırılmıştır ve önerilen metotun bu metotlardan daha yüksek performans sağladığı deneylerle kanıtlanmıştır. Ayrıca bu çalışmanın kaynak kodu da topluluğa açık olacak şekilde yayınlanmıtır. (https://github.com/gamzeakyol/GNet)
Özet (Çeviri)
Despite decades of research, understanding human manipulation actions has always been one of the most appealing and demanding study problems in computer vision and robotics. Recognition and prediction of observed human manipulation activities have their roots in, for instance, human-robot interaction and robot learning from demonstration applications. The current research trend heavily relies on advanced convolutional neural networks to process the structured Euclidean data, such as RGB camera images. However, in order to process high-dimensional raw input, these networks must be immensely computationally complex. Thus, there is a need for huge amount of time and data for training these networks. Unlike previous research, in the context of this thesis, a deep graph autoencoder is used to simultaneously learn recognition and prediction of manipulation tasks from symbolic scene graphs, rather than using structured Euclidean data. The deep graph autoencoder model which is developed in this thesis needs less amount of time and data for training. The network features a two-branch variational autoencoder structure, one for recognizing the input graph type and the other for predicting future graphs. The proposed network takes as input a set of semantic graphs that represent the spatial relationships between subjects and objects in a scene. The reason of using scene graphs is their flexible structure and modeling capability of the environment. A label set reflecting the detected and predicted class types is produced by the network. Two seperate datasets are used for the experiments, which are MANIAC and MSRC-9. MANIAC dataset consists 8 different manipulation action classes (e.g. pushing, stirring etc.) from 15 different demonstrations. MSRC-9 consists 9 different hand-crafted classes (e.g. cow, bike etc.) for 240 real-world images. The reason for using such two distinct datasets is to measure the generalizability of the proposed network. On these datasets, the proposed new model is compared to various state-of-the-art methods and it is showed that the proposed model can achieve higher performance. The source code is also released https://github.com/gamzeakyol/GNet.
Benzer Tezler
- Tek sahneli sıkıştırılmış videoda anomali tespiti
Anomaly detection in single scene compressed video
SÜMEYYE ÇAVAŞ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Novel centrality, topology and hierarchical-aware link prediction in dynamic networks
Dinamik ağlarda merkezilik, topoloji ve hiyerarşik tabanlı bağlanti tahmini
ABUBAKHARI SSERWADDA
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
YRD. DOÇ. ALPER ÖZCAN
- Bayesian model selection for latent variable causal networks by sequential monte carlo
Gizli değişkenli nedensel ağlarda parçacık süzgeci ile Bayesci model seçimi
MEHMET BURAK KURUTMAZ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ TAYLAN CEMGİL
- Mobil robotlarda evrimsel metotlar ile optimal hareket planlama
Optimal motion planning with evolutionary methods for mobile robots
SERKAN AYDIN
Doktora
Türkçe
2003
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAKAN TEMELTAŞ
- Statistical analysis of graphs with abrupt changes
Ani değişimleri olan çizgelerin istatistiksel network analizi
TÜRKAN HAMZAOĞLU
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. A.TAYLAN CEMGİL