Geri Dön

Grounding language in motor space: Exploring robot action learning and control from proprioception

Dil öğrenimini robot motor alanında temellendirme: Propriyosepsiyondan robot eylem öğrenimi ve kontrolünü keşfetmek

  1. Tez No: 904947
  2. Yazar: EMRE CAN ACİKGOZ
  3. Danışmanlar: PROF. DR. DENİZ YURET, DOÇ. DR. MEHMET ERKUT ERDEM, DR. ÖĞR. ÜYESİ BARIŞ AKGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka Bilim Dalı
  13. Sayfa Sayısı: 80

Özet

Dil gelişimi, özellikle erken evrelerinde, duyusal-motor deneyimlerle derinden ilişkilidir. Örneğin, bebekler denetimsiz keşif ve aşamalı öğrenme yoluyla aşamalı olarak gelişir; ilk önce deneme yanılma yoluyla bacaklarını hareket ettirmeyi keşfederek“yürüme”eylemini etiketlemek gibi. Bu gelişim sürecinden ilham alan çalışmamız, özellikle 7 serbestlik dereceli bir robot kolu için otonom robotlarda dilsel anlamı dilsel olmayan deneyimlerle eşleştirmeye çalışarak robot eylem öğrenimini araştırmaktadır. Robotik alandaki mevcut Temellendirilmiş Dil Öğrenimi (TDÖ) genelde görsel temellendirmeyi vurgularken, bizim odak noktamız dili bir robotun iç motor alanında temellendirmektir. Bunu iki temel açıdan araştırıyoruz: Robot Eylem Sınıflandırması ve Dil Kılavuzlu Robot Kontrolü, her ikisi de piksel uzayında herhangi bir görsel girdi olmadan yalnızca propriyoseptif bilgilere dayanarak bir 'Kör Robot' senaryosu içinde inceleniyor. Robot Eylem Sınıflandırmasında, daha iyi durum temsili için bir Eylem Çözücünün ön-eğitimi yoluyla Kendi Kendine Denetimli Öğrenmeden (KKDÖ) yararlanarak robotların duyusal verilerini kullanarak eylemlerini anlamalarını ve kategorize etmelerini sağlıyoruz. KKDÖ tabanlı yaklaşımımız, özellikle sınırlı veriye sahip senaryolarda diğer temel kalıpları önemli ölçüde aşmaktadır. Buna karşılık, Dil Güdümlü Robot Kontrolü, robotların doğal dil talimatlarını takip etmesini, dilsel komutları yorumlamasını, bir dizi eylemi oluşturmasını ve çevre ile sürekli etkileşimde bulunmasını gerektirerek daha büyük bir zorluk teşkil etmektedir.

Özet (Çeviri)

Language development, particularly in its early stages, is deeply correlated with sensory-motor experiences. For instance, babies develop progressively via unsupervised exploration and incremental learning, such as labeling the action of“walking”by first discovering to move their legs via trial and error. Drawing inspiration from this developmental process, our study explores robot action learning by trying to map linguistic meaning onto non-linguistic experiences in autonomous agents, specifically for a 7-DoF robot arm. While current grounded language learning (GLL) in robotics emphasizes visual grounding, our focus is on grounding language in a robot's internal motor space. We investigate this through two key aspects: Robot Action Classification and Language-Guided Robot Control, both within a“Blind Robot”scenario by relying solely on proprioceptive information without any visual input in pixel space. In Robot Action Classification, we enable robots to understand and categorize their actions using internal sensory data by leveraging Self-Supervised Learning (SSL) through pretraining an Action Decoder for better state representation. Our SSL-based approach significantly surpasses other baselines, particularly in scenarios with limited data. Conversely, Language-Guided Robot Control poses a greater challenge by requiring robots to follow natural language instructions, interpret linguistic commands, generate a sequence of actions, and continuously interact with the environment. To achieve that, we utilize another Action Decoder pre-trained on sensory state data and then fine-tune it alongside a Large Language Model (LLM) for better linguistic reasoning abilities. This integration enables the robot arm to execute language-guided manipulation tasks in real time. We validated our approach using the popular CALVIN Benchmark, where our methodology based on SSL significantly outperformed traditional architectures, particularly in low-data scenarios on action classification. Moreover, in the instruction following tasks, our Action Decoder-based framework achieved on-par results with large Vision-Language Models (VLMs) in the CALVIN table-top environment. Our results underscore the importance of robust state representations and the potential of the robot's internal motor space for learning embodied tasks.

Benzer Tezler

  1. MRP II ve bir MRP II yazılım sistemi

    Başlık çevirisi yok

    GÜNAL HAKAN ERDİK

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Y.DOÇ.DR. COŞKUN ÖZKAN

  2. İnfantil hemanjiyom tanili, süt çocukluğu döneminde propranolol tedavisi almiş okul öncesi çocuklarda nörogelişimsel değerlendirme

    Neurodevelopmental assessment in preschool children diagnosed with infantile hemangioma whom received propranolol treatment during infancy

    CENK BAYKAN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Çocuk Sağlığı ve Hastalıklarıİstanbul Üniversitesi

    Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı

    DOÇ. DR. HİKMET GÜLŞAH TANYILDIZ

  3. Stratejik kalite planlaması

    Strategic quality planning

    AYNUR ÖZYILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. M. BÜLENT DURMUŞOĞLU

  4. Torna tezgâhlarında ayna ile döner tabla hızını senkronize eden bir sistemin tasarımı ve gerçeklenmesi

    Design and implementation of a system that synchronizes the chuck and rotary table speed on lathe machines

    MUSTAFA ÖMER GÜLER

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mekatronik MühendisliğiSakarya Uygulamalı Bilimler Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MÜCAHİT SOYASLAN

  5. 1,5-2,0 ve 4,5-5,0 yaş çocuklarında oyun yöntemi ile büyük-küçük ve uzun-kısa kavramlarının işlev ve dil düzeylerinde değerlendirilmesi

    Başlık çevirisi yok

    Z.SİNEM KAVSAOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    1990

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Çocuk Sağlığı ve Eğitimi Ana Bilim Dalı

    DOÇ. DR. NECATE DÖNMEZ(BAYKOÇ)