Multimodal sensing for manipulation failure detection
Etkileşim hatası sezme için çok kipli algılama
- Tez No: 520349
- Danışmanlar: DOÇ. DR. SANEM SARIEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 69
Özet
Yapay zeka konusundaki gelişmeler, bilişsel robot sistemlerinin geliştirilmesine olanak sağlamaktadır. Bu gelişmeler sayesinde robotların otonom olarak yerine getirebilecekleri görev sayısı ve niteliği artmaktadır. Artan yetenekleri ile birlikte, gündelik yaşantımıza hızla entegre olan robotların, yakın gelecekte daha çok uygulama alanında karşımıza çıkması beklenmektedir. Robotların insanlarla aynı ortamda çalışacak olması bazı güvenlik problemlerini ortaya çıkarmaktadır. İdeal olarak robotun; insanlara, çevresine ve kendisine zarar vermemesi gerekmektedir. Fabrika gibi mühendisler tarafından yapılandırılmış ortamlarda çalışan robotlar için belli başlı güvenlik standartları oluşturulmuştur [2,3]. Ancak, ofis ve ev gibi ortamlarda çalışacak robotlar için böyle bir durum söz konusu değildir. Yapılandırılmamış, ev ve ofis gibi ortamlar doğaları gereği, bilişsel robotlar için zorlu çevre şartları barındırmaktadırlar. Bilişsel bir robotun kendisine verilen görevleri yerine getirebilmesi için algılama, planlama ve yürütme adımlarını yerine getirmesi gerekir. Algılama adımında robot, bulunduğu ortamı gözlemleyerek nesneleri tanıyarak etkileşim için gerekli fiziksel özelliklerini (örn. 3B konum) belirler. İkinci adımda, hedefe ulaşabilmek için gerekli olan sembolik planları üretir. Yürütme sırasında ise alt seviye yörünge planlaması ile beraber motorları için gerekli komutları üretir. Robotun bir eylemi yürütmesi esnasında beklenmedik durumlar oluşabilir. Robotun taşıdığı nesneyi düşürmesi, ortamdaki diğer nesneler ile çarpışması, nesneyi tutma esnasında fazla güç uygulayarak nesneye zarar vermesi; bu durumlara örnek olarak verilebilir. Bu gibi beklenmedik durumlar hata olarak adlandırılır. Hataların temel sebepleri arasında algılama ve ortam belirsizlikleri yer almaktadır. Bu belirsizlikler, algılama sırasında yapılan gürültülü sensör ölçümleri ve robotun yürüttüğü eylemin sonucunu önceden kestirememesinden kaynaklanmaktadır. İdeal şartlarda robotun hataya sebep olacak durumu önceden tespit ederek hatayı önlemesi beklenmektedir. Algılama ve ortam belirsizlikleri gibi nedenlerden ötürü hatanın engellenemediği durumlarda ise hata sezme, hata tanıma ve hata kotarma yordamlarına ihtiyaç duyulmaktadır. Beklenmedik bir durum oluştuğunda, bu durum hata sezme yordamı tarafından tespit edilmeli, hata tanıma yordamı tarafından hatanın sebebi analiz edilmeli ve eğer mümkünse hata kotarma yordamı tarafından amaca ulaştıracak alternatif bir plan üretilmelidir. Bu çalışma kapsamında hata sezme yordamının geliştirilmesi hedeflenmiştir. Robotun hataları algılayabilmesi için, sürekli olarak, yürüttüğü eylemleri ve sonuçlarını gözetmesi gerekir. Literatürdeki çalışmalara bakıldığında bu konuda model tabanlı ve modelden bağımsız olmak üzere iki ana yaklaşımın bulunduğu görülmektedir [4]. Model tabanlı yöntemlerde, önceden oluşturulan model kullanılarak eylemin sonucu hakkında bir tahmin yürütülür. Bu tahmin, eylemin bitiminde yapılan gözlemlerle karşılaştırılarak eylemin başarımı hakkında bir karar verilir. Modelden bağımsız yöntemlerde ise doğrudan gözlemler kullanılarak bir karar verilir. Bu tezde hata sezme için modelden bağımsız, gözlem tabanlı, bir yaklaşım ele alınmıştır. Tezin amacı masaüstü etkileşimli eylem yürütme senaryolarında oluşan hataların birden fazla sensörden elde edilen bilgiyi kullanarak tespit edilmesidir. Bunun için tutma, bırakma ve itme temel eylemleri baz alınmıştır. Tezde hata sezme için sensör bilgilerini işleyen bir algı iş hattı oluşturulmuştur. Sensör arayüzü, iç algı (proprioception), görsel algı (vision) ve işitsel algı (audition) bileşenlerini içermektedir. Robot üzerindeki sensör donanımı: (i) eklemlerde bulunan konum ve tork sinyal üreticilerinden (encoder) (ii) robotun kafasına yerleştirilen RGB-D kameradan ve (iii) robotun beline, masa ile aynı seviyede olacak şekilde, yerleştirilen mikrofondan oluşmaktadır. Robot, bir eylemi yürütürken sensörlerden elde edilen veri çok kipli zaman serisi (multimodal time series) olarak temsil edilmektedir. Hata sezme problemi, çok kipli zaman serisi sınıflandırma problemi olarak ele alınmıştır. Sınıflandırıcı olarak, zamansal veriyi olasılıksal olarak modelleyebilen, Saklı Markov Modeli (SMM) tabanlı bir yöntem önerilmiştir. İlk aşamada her sensör, tek kipli SMM ile modellenmiştir. Sensörden elde edilen anlık ham veri diğer sensörlerden bağımsız olarak işlenerek ikili yüklemler (binary predicate) oluşturulur. Bu yüklemler sınıflandırma algoritmasının girdilerini oluştururlar. İç algı iş hattında, nesne etkileşim senaryolarına ilişkin robot durumunu belirten yüklemler oluşturulur. Bu yüklemler, tutucuya ait parmak konumları ve uygulanan kuvvet bilgisi kullanılarak tutucu açık, tutucu kapalı, tutucu hareketli, tutucu dolu isimleriyle oluşturulur. Görsel algı için Violet [5] sahne yorumlama sistemi kullanılarak; sahnede bulunan nesnelerin fiziksel özelliklerini (boyut, şekil, 3B konum v.b.) içeren bir dünya modeli oluşturulur. Sahne yorumlama çıktısı üzerinden eylem sırasında sahnede meydana gelen değişimler hesaplanarak konum ve alan değişimi ile ilgili yüklemler oluşturulur. İşitsel algı iş hattında ise, mikrofondan elde edilen ses sinyalleri temel ön işleme adımları uygulandıktan sonra Mel Frekans Kepstal Katsayıları (Mel Frequency Ceptrum Coefficiients) ve ses olayının süresi öznitelikleri kullanılarak robot gürültüsü, düşme ve çarpma yüklemleri oluşturulur. Bu yüklemler tümleştirme için değerlendirilir. Sensör tümleştirme birden fazla aşamada gerçekleştirilebilir. Erken tümleştirmede ham veri üzerinde hesaplanan öznitelikler, geç tümleştirmede zayıf sınıflandırıcılardan gelen kararlar, ara tümleştirmede ise erken ve geç tümleştirmenin hibrid kombinasyonu kullanılacak şekilde bir tümleştirme mimarisi oluşturulabilir. Bu tezde ara seviyede robotun yürüttüğü eyleme bağlı bir tümleştirme yapısı önerilmiştir. Tek kipli SMM'lerden elde edilen ara çıktılar birleştirilerek eylemin başarımı hakkında son karar verilmektedir. Yapılan deneyler sonucunda bazı temel çıkarımlar şu şekilde sıralanabilir: Tutma eylemi için baskın sensör kipi iç algıdır. Bırakma ve itme eylemleri için iç algı eylemin sonucu hakkında faydalı bir gözlem üretememektedir. Robotun bir eylemi yürütmesi sırasında, robot kolunun kamera önüne geçmesi (self occlusion) sebebiyle görsel algı, eylemin alt aşamalarında anlamlı bir gözlem üretememektedir. Eylem sonunda, robot kolunun kenara çekilmesi sağlanarak sahnenin tümüyle gözlenmesi mümkün olmakta ve sahnenin görsel değerlendirilmesi yapılabilmektedir. İşitsel algı, iç algı ve görsel algıya kıyasla çarpma düşme gibi durumları anlık olarak tespit edebilmektedir. Ses verisinin işlenmesindeki zorluklar sebebiyle ses kaynağının doğru bir şekilde tespit edilmesi ve anlamlandırılması, hata sezme başarımı için kritik öneme sahiptir. Sonuç olarak farklı eylemler için ve eylem aşamaları için farklı sensör kiplerinin kullanımına ihtiyaç duyulmaktadır. Sensör kiplerinin birbirlerini tamamlayıcı olduğu durumlarda sensör tümleştirme ile hata sezme başarımının artırılabileceği gözlemlenmiştir.
Özet (Çeviri)
Service robots have become more capable of performing daily tasks as their cognitive skills are improved. However, safety still remains almost an unsolved issue in autonomous manipulation. Ideally, robots are desired to accomplish given tasks with no or minimum damage to their environments and themselves. However, unexpected outcomes are inevitable while operating in unstructured physical environments due to sensory and motor failures or external factors. For example, a service robot may fail in manipulating an object due to sensor/motor misalignments, drop the object after grasping due to an instable grasp or collide with other objects during transportation due to perception errors; all of which may result in undesired effects. The robot state and the environment should be continuously monitored in order to detect anomalies or failures during task execution. To achieve this, an execution monitoring system is needed that can detect failures or anomalies in an observed state. Then, recoveries are possible after detecting failures if they are unavoidable. The focus of the thesis is on multi-modal failure detection methods. Proposed failure detection system uses past observations acquired from different sensors as a training set to create models of success and failure cases, and detects failures during object manipulation actions. Rather than relying only on a single sensor modality, it is proposed to fuse visual, auditory and proprioceptive sensory data to achieve a better detection performance in different failure cases. High level proprioceptive, auditory and visual predicates are extracted by processing each modality separately. Then, the extracted predicates are fused. In order to benefit from integrating multiple information sources, some critical issues must be addressed. In particular, difference in data formats, asynchrony between sensors, correlation or independency of modalities, and varying confidence levels of sensors make the fusion process challenging [1]. The contributions of this thesis are two fold. (1) Visual, auditory and proprioceptive sensor modalities are combined for failure detection. This is the first time that these modalities are used together for failure detection in object manipulation domains. (2) A Hidden Markov Model (HMM)-based fusion method is adopted to create temporal and probabilistic failure models on extracted novel sensory predicates. We evaluate our system on real-time tabletop manipulation tasks with a humanoid robot. Experiments on a humanoid robot for tabletop manipulation scenarios indicate that the contribution of each modality is different depending on the action in execution, and fusion results in an overall performance increase in detecting failures compared to the performance attained in all unimodal scenarios.
Benzer Tezler
- A multimodal sensor analysis framework for vehicular mobile applications
Araç içi mobil uygulamar için çok-kipli algılayıcı analiz alt yapısı
FATİH ORHAN
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
YRD. DOÇ. DR. PEKİN ERHAN EREN
- Integrating mobile psychometrics with wearable physiological sensing in longitudinal studies: Design, testing, and clinical benefits
Başlık çevirisi yok
MUHSİN ZAHİD UĞUR
- Land cover and land use classification of multi-modal high-resolution satellite images using multi-task deep learning approach
Çok görevli derin öğrenme tekniği ile çok kipli yüksek çözünürlüklü uydu görüntülerinin arazi örtüsü ve arazi kullanımı sınıflandırılması
BURAK EKİM
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. ELİF SERTEL
- Human muscle structure-function relation in-vivo using magnetic resonance imaging modalities
İnsan kasının yapı ve fonksiyon ilişkisinin manyetik rezonans görüntüleme modaliteleri kullanılarak in-vivo değerlendirilmesi
AGAH KARAKUZU
Doktora
İngilizce
2022
Bilim ve TeknolojiBoğaziçi ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
PROF. DR. CAN ALİ YÜCESOY
- A mobile sensing framework for audience emotion analysis
İzleyici algılarının analizi için bir mobil algılama sistemi çerçevesi
ELDJON KEPUCKA
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. ALPTEKİN TEMİZEL