Anticipating robot manipulation failures using knowledge distillation
Bilgi damıtma ile robot-nesne etkileşim hatalarını tahminleme
- Tez No: 961150
- Danışmanlar: PROF. DR. SANEM SARIEL UZER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 75
Özet
Bu tez çalışması, otonom robotların insanlarla aynı fiziksel ortamlarda güvenli ve etkili biçimde görev alabilmeleri için ihtiyaç duydukları sezgisel hata öngörme yeteneklerini, bilgi damıtma temelli bir video dönütleyici mimarisiyle sağlayan çok kipli bir sistem önermektedir. Günümüzde robotik sistemler, karmaşık çevresel koşullarda çalışmakta, insanlar ve nesnelerle etkileşime geçmekte, çok sayıda sensörden gelen veri akışını değerlendirmekte ve gerçek zamanlı kararlar almaktadır. Ancak bu sistemlerin çoğunda herhangi bir hata oluşması durumunda, bu durum oluştuktan sonra tepki verecek mekanizmalar geliştirilmiştir. Oysa hatanın oluşmasından önceki sinyallerin doğru biçimde analiz edilmesi ve önleyici stratejilerin geliştirilebilmesi, robotların hem işlevselliğini hem de güvenliğini doğrudan artırabilecek temel bir ihtiyaçtır. Bu gereksinimden hareketle geliştirilen model, robotun sensörlerinden alınan video akışlarını analiz ederek, manipülasyon görevlerinde meydana gelebilecek olası başarısızlıkları daha olay gerçekleşmeden önce tahmin edebilmeyi amaçlamaktadır. Sistem, öğretmen-öğrenci yapısına dayalı bir bilgi damıtma (knowledge distillation) yöntemi üzerine kuruludur. Öğretmen model, robotun tüm görev sürecini kapsayan video verisini kullanarak eğitilmekte; öğrenci model ise yalnızca hatadan önceki sınırlı sayıda çerçeve bilgisini kullanarak öğrenimini gerçekleştirmektedir. Bu yapı, klasik bilgi damıtma yaklaşımlarından farklı olarak, yalnızca çıktı düzeyinde değil, temsili düzeyde bir bilgi aktarımı gerçekleştirmeyi amaçlamaktadır. Öğretmen ve öğrenci modellerin mimarisi birebir aynı yapıdadır ve bu yapı Video Vision Transformer (ViViT) modeline dayanmaktadır. ViViT, video verisinin hem zamansal hem de uzamsal ilişkilerini dikkat mekanizmaları aracılığıyla analiz ederek, robotik etkileşimler sırasında meydana gelen değişimleri etkin biçimde temsil etme kapasitesine sahiptir. Bu nedenle, ViViT bu tez kapsamında yalnızca görsel bilgiyi işlemek için değil, aynı zamanda öngörüsel kararlar almak için de temel yapı taşı olarak konumlandırılmıştır. Modelin girdi verisi; RGB, derinlik ve optik akış olmak üzere üç temel kipten oluşmaktadır. RGB görüntüler, renk ve doku bilgilerini temsil ederken; derinlik verileri nesnelerin üç boyutlu mekânsal konumları hakkında bilgi sunmakta, optik akış verileri ise zaman içinde meydana gelen hareket değişimlerini vurgulamaktadır. Özellikle optik akış verileri, hata oluşmadan hemen önceki hızlanma, dengesizlik veya beklenmeyen yönelme gibi dinamik özellikleri yakalamada önemli rol oynamaktadır. Bu üç kip, modelin üç ayrı kolu tarafından ViViT temelli olarak işlenmekte; her bir kol, kendi kipine özel uzamsal-zamansal temsiller üretmektedir. Ardından bu temsiller geç tümletme (late fusion) yöntemi ile birleştirilmekte ve ortak bir karar düzlemine taşınmaktadır. Geç tümletme, her kip üzerinde gerçekleşen öğrenme sürecini birbirinden bağımsızlaştırarak bilgi kaybını azaltmakta ve kipler arası parazitlenmeyi en aza indirmektedir. Bu yapı sayesinde sistem, her kipten maksimum bilgi kazanımı sağlayabilmektedir. ViViT modelinde her video dizisi sabit uzunlukta çerçevelere bölünmekte, her çerçeve sabit boyutlu yamalara (patch) ayrılmakta ve bu yamalar pozisyonel kodlamalarla birlikte modele aktarılmaktadır. Dönütleyici blokları içerisinde hem zamansal hem uzamsal dikkat katmanları yer almakta ve bu sayede hareket örüntüleri ile nesne yerleşimleri eşzamanlı olarak analiz edilebilmektedir. Özellikle video etkileşimlerinde, bir nesnenin yön değiştirmesi, yavaşlaması veya aniden yer değiştirmesi gibi zaman bağlı olayların modellenmesi kritik olduğundan, sistemin zamansal dikkat katmanları hem öğretmen hem de öğrenci için ayrı ayrı optimize edilmiştir. Bu sayede öğretmen model, olayın tamamını görerek global bağlamı öğrenirken; öğrenci model yalnızca geçmiş çerçevelerle sınırlı olmasına rağmen, zamansal dikkat düzlemi üzerinden öğretmenin davranışlarını taklit edebilmekte ve olayın nereye evrileceğini tahmin edebilmektedir. Eğitim süreci iki aşamada gerçekleştirilmiştir. İlk aşamada, öğretmen modeli çapraz entropi kaybı ile tam video dizileri kullanılarak eğitilmiştir. Her video dizisi 8 çerçeveden oluşmakta, dizinin son çerçevesi hata (başarı ya da başarısızlık) durumunu içermektedir. İkinci aşamada öğretmenin ağırlıkları dondurularak öğrenci modeli eğitilmiş; öğrenci yalnızca ilk 7 çerçeveyi gözlemleyerek hem çapraz entropi kaybı hem de öğretmenin ara katman çıktılarıyla hesaplanan maksimum ortalama farklılık (MMD) kaybı üzerinden güncellenmiştir. MMD kaybı, her bir kipin temsil düzleminde öğretmen ve öğrenci arasındaki dağılım farkını minimize etmeyi amaçlar. Ayrıca bu iki kaybın (CCE ve MMD) denge katsayıları sabit olarak belirlenmemiş, doğrudan model tarafından öğrenilmiştir. Böylece sistem, örnek bazlı olarak hangi kaybın daha önemli olduğuna karar verebilmiş, dinamik ağırlıklandırma yoluyla öğrenme sürecini optimize edebilmiştir. Deneyler FAILURE veri seti üzerinde gerçekleştirilmiştir. Bu veri seti Baxter robotunun günlük görevlerdeki etkileşimlerini içermekte ve her video, 1 FPS oranında örneklenmiş 8 çerçeveden oluşmaktadır. Görevler arasında dökme, bırakma, yerleştirme ve üst üste koyma gibi fiziksel etkileşimler yer almaktadır. Her görev başarı veya başarısızlık etiketiyle işaretlenmiştir. RGB ve derinlik görüntüleri doğrudan veri setinde mevcutken, optik akış görüntüleri, FlowNet2 modeli kullanılarak RGB çerçevelerden elde edilmiştir. Tüm kipler normalize edilerek ViViT modellerine aktarılmıştır. Modelin başarımı, çevrimdışı (offline) ve gerçek zamanlı (online) senaryolar altında ölçülmüştür. Çevrimdışı deneylerde öğrenci model, hata oluşmadan 1 saniye önce %82.12 F1 skoru; 2 saniye önce %79.79 F1 skoru elde etmiştir. Gerçek zamanlı testlerde kayan pencere (sliding window) stratejisi uygulanmış, her 0.11 saniyede bir yeni karar verilmiş ve %97.8 F1 skoruna ulaşılmıştır. Gerçek zamanlı tahminlerde modelin karar alma süresi milisaniyeler düzeyinde gerçekleşmiş ve bu durum modelin gerçek robot sistemlerine entegrasyon potansiyelini doğrulamıştır. Sistem, düşük gecikme ve yüksek doğrulukla çalışarak hata gerçekleşmeden önce robot kontrol birimlerine uyarı gönderebilecek kapasitede tasarlanmıştır. Modelin genelleme yeteneği, eğitim sırasında hiç görülmemiş görev türleri üzerinde test edilerek analiz edilmiştir. Bu görevlerde öğrenci model %73.4 F1 skoru elde etmiş ve öğretmenden aldığı temsilleri yeni senaryolara aktarabildiğini kanıtlamıştır. Özellikle dikkat düzlemleri analiz edildiğinde, öğrenci modelin son çerçeveyi görmemesine rağmen öğretmenin zaman dikkat noktalarını taklit edebildiği; kritik anları vurgulayan zaman dilimlerini kendiliğinden keşfettiği gözlemlenmiştir. Bu durum, bilgi damıtma sürecinin yalnızca çıktı düzeyinde değil, yapısal temsil düzeyinde de etkili olduğunu ortaya koymaktadır. Kip karşılaştırmalarında RGB verisinin tek başına yetersiz olduğu; optik akış ve özellikle derinlik ile desteklenen yapıların daha yüksek doğruluk sağladığı belirlenmiştir. Özellikle optik akış kipi, hata öncesi dönemde ani hareketleri yakalamada yüksek başarı göstermiştir. Kiplerin geç füzyonla birleştirilmesi, her bir koldan gelen bilginin baskılanmasını engellemiş ve karar düzleminde zenginleşme sağlamıştır. Kip çıkarma deneyleri sonucunda herhangi bir kipin çıkarılmasının sistem başarımını düşürdüğü görülmüş; üç kipin birlikte kullanılmasının en iyi performansı verdiği görülmüştür. Sonuç olarak, bu tez çalışması robotik hata öngörüsü konusunda bilgi damıtma stratejisini dönüştürücü temsillerle birleştiren bir yaklaşım sunmaktadır. ViViT tabanlı çok kipli yapı, öğretmen-öğrenci stratejisiyle derinleştirilmiş; öğrenci modelin hem hızlı, hem doğru, hem de genellenebilir kararlar verebilmesi sağlanmıştır. Bu yapı yalnızca akademik bir katkı değil, aynı zamanda gerçek robotik sistemlere doğrudan entegre edilebilecek bir altyapı da sunmaktadır. Tez kapsamında geliştirilen sistem, gelecekte sembolik planlama ve açık dünya algılama sistemleriyle bütünleştirilebilir; daha sezgisel, güvenli ve insan merkezli robotik asistanların temel yapı taşı hâline gelebilir. Bilgi damıtma yalnızca model sıkıştırma aracı olmaktan çıkarılarak, yüksek düzey temsil aktarımı için yapısal bir öğrenme paradigması olarak konumlandırılmıştır. Bu yönüyle çalışma, robotik öngörü sistemlerinde hem teorik hem uygulamalı olarak önemli bir boşluğu doldurmaktadır.
Özet (Çeviri)
In this thesis, a novel framework is proposed to anticipate robot-object manipulation failures before their occurrance by using knowledge distillation and transformer-based multimodal learning. The motivation behind this study is to move beyond traditional failure detection methods, which identify errors after they happen, and instead focus on predicting them in advance to ensure robot safety and autonomy in real-world environments. The framework adopts a teacher-student architecture. The teacher model is trained on complete video sequences on manipulation task execution, including the failure moment, while the student model observes only the initial part of the sequence, without seeing the failure itself. The knowledge gained by the teacher is distilled into the student, enabling it to anticipate failures with limited temporal input. Both teacher and student models share the same architecture, which is based on ViViT (Video Vision Transformer) [2]. To enhance temporal reasoning, the framework incorporates RGB, depth, and optical flow modalities. Each modality is processed through a separate transformer stream, and its features are fused using late fusion. The optical flow is extracted from RGB frames using FlowNet2 [3], and added to the FAILURE dataset, which consists of 324 different manipulation episodes recorded with the Baxter robot. Tasks include pouring, pushing, placing, and stacking. The student model is trained with a hybrid loss that includes cross-entropy for classification and Maximum Mean Discrepancy (MMD) for distillation. The performance of different loss strategies (MMD, MSE, Jaccard) and fusion methods is analysed. The results show that the student model, when trained with RGB-D-F modalities and MMD-based modality-wise distillation, achieves an F1-score of 82.12% for 1-second anticipation and 79.79% for 2-second anticipation. These scores outperform unimodal setups and non-distilled baselines. In addition to offline experiments, the system is evaluated under real-time conditions using a sliding window over streaming video frames. The RGB-D-F student model performs consistently during pouring manipulation execution and achieves a 97.8% F1-score in real-time failure anticipation, and the duration of two successive predictions is 0.11 seconds. To measure the model's robustness, generalization experiments are conducted on manipulation actions that were excluded from training. The student model achieves an F1-score of 73.4% on unseen actions, confirming that the proposed system can generalize learned failure patterns to novel manipulation scenarios. In conclusion, this thesis presents a transformer-based multimodal anticipation system that can predict manipulation failures early, operate in real time, and generalize across tasks, contributing to safer and more adaptive robotic systems.
Benzer Tezler
- Otobüs kapak üretim prosesinin robotik otomasyonla optimizasyonu ve triz metodolojisine uygulanması
Optimisation bus lid production with robotics automation and triz implementation
ÖMER ZURNALI
Yüksek Lisans
Türkçe
2019
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. CEVAT ERDEM İMRAK
- Action Estimation Using a Theory of Mind as Applied on the Humanoid Robot SURALP
İnsansı Robot SURALP Üzerinde Uygulanan Zihin Teorisi Tabanlı Hareket Tahmini
SELİM ÖZEL
Yüksek Lisans
İngilizce
2013
Mekatronik MühendisliğiSabancı ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. KEMALETTİN ERBATUR
- Enhancing follow the gap method with memory aid and with prediction component
Boşluğu takip et yönteminin hafıza desteği ile ve öngörü bileşeni ile geliştirilmesi
EMRE CAN CONTARLI
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. VOLKAN SEZER
- Le bonheur le travail et les choix dans l'ethique
Etikte mutluluk iş ve seçimler
YILDIZ GÜL HACIEVLİYAGİL CÜCELOĞLU
- Farklı kanal patlarının kök kanal tedavisi sonrası post operatif ağrıya olan etkisinin incelenmesi: Bir randomize klinik araştırma
Investigation of the effect of different root canal sealer on post operative pain after root canal treatment: A randomized clinical study
ALPEREN DOĞAN
Diş Hekimliği Uzmanlık
Türkçe
2024
Diş HekimliğiAfyonkarahisar Sağlık Bilimleri ÜniversitesiEndodonti Ana Bilim Dalı
PROF. DR. MEHMET SİNAN EVCİL