Geri Dön

Robot skill acquisition via representation sharing and reward conditioning

Robotların temsil paylaşımı ve ödül koşullanması yoluyla beceri kazanmaları

  1. Tez No: 693078
  2. Yazar: METE TULUHAN AKBULUT
  3. Danışmanlar: DOÇ. DR. EMRE UĞUR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 67

Özet

Beceri kazanımı zeki davranışın karakteristik özelliklerinden biridir ve robot öğrenmesi bu özelliği robotlara kazandırmayı amaçlar. Etkili yöntemlerden birisi becerinin basit halini örnekleyerek, gözetimli öğrenmenin bir çeşidi şeklinde, robota öğret-mek ve daha sonra robotun kendi kendine beceriyi geliştirmesini ve yeni görevlere pekiştirmeli öğrenme ile uygun hale getirmesini sağlamaktır. Biz bu tezde ilk olarak Uyarlanır Koşullu Nöral Hareket Primitifleri (ACNMP) adlı, güdümlü ve pekiştirmeli öğrenmeyi uyarlama esnasında eşzamanlı kullanarak örneklemeler ve keşif hareketlerini aynı temsil uzayına kodlayan yapıyı sunacağız. Simulasyon deneylerimiz bize (I) ACNMP'nin en gelişmiş yapılara göre en az on kat daha verimli olduğunu; (II) eş zamanlı öğrenme yönteminin örnekleme özelliklerini yeni hareketlerde koruduğunu; (III) vücut yapıları farklı robotlar arasında beceri aktarımına olanak sağladığını gösterdi. Gerçek robot deneyleri de ACNMP'nin daha yüksek boyutlu ve karmaşık gerçek dünya koşullarına uyum sağlayabildiğini gösterdi. Daha sonra güdümlü öğrenmeyi ödül bazlı uyarlama görevlerinde kullanma fikrini ilerleterek oluşturduğumuz Ödülle Koşullu Nö-ral Hareket Primitifleri (RC-NMP) adlı ikinci yapıyı sunacağız. Bu yapı ödülleri girdi olarak alarak, istenen ödülü veren hareket güzergahları oluşturabilmektedir. RC-NMP varyasyon çıkarımı yöntemiyle olasılıksal bir temsil uzayı oluşturup, bu uzaydan çeşitli hareket güzergahları çekerek bir populasyon oluşturmaktadır. Son olarak bu populasyonun çeşitliliği seyrek ödüllü, birden fazla çözümlü veya lokal çözümlere sahip ortamlarla başa çıkmak için evrimsel stratejilerden krosover ve mutasyon yöntemleriyle arttırılmaktadır. Simulasyon ve gerçek dünya deneylerimiz RC-NMP'nin ACNMP ve diğer iki robotik pekiştirmeli öğrenme yöntemlerine göre daha istikrarlı ve verimli olduğunu gösterdi.

Özet (Çeviri)

Skill acquisition is a character trait of intelligent behavior, which Robot Learning aims to give to robots. An effective approach is to teach an initial version of the skill by demonstrating as a form of Supervised Learning (SL), called Learning from Demonstrations (LfD), then let the robot improve it and adapt to novel tasks via Reinforcement Learning (RL). In this thesis, we first propose a novel LfD+RL framework, Adaptive Conditional Neural Movement Primitives (ACNMP), that simultaneously utilizes LfD and RL together during adaptation and makes demonstrations and RL guided trajectories share the same latent representation space. We show through simulation experiments that (i) ACNMP successfully adapts the skill using order of magnitude fewer trajectory samples than baselines; (ii) its simultaneous training method preserves the demonstration characteristics; (iii) ACNMP enables skill transfer between robots with different morphologies. Our real-world experiments verify the suitability of ACNMP in real-world applications where non-linearity and the number of dimensions increases. Next, we extend the idea of using SL in reward-based skill learning tasks and propose our second framework called Reward Conditioned Neural Movement Primitives (RC-NMP), where learning is done using only SL. RC-NMP takes rewards as input, generates trajectories conditioned on desired rewards. The model uses variational inference to create a stochastic latent representation space from where varying trajectories are sampled to create a trajectory population. Finally, the diversity of the population is increased using crossover and mutation operations from Evolutionary Strategies to handle environments with sparse rewards, multiple solutions, or local minima. Our simulation and real-world experiments show that RC-NMP is more stable and efficient than ACNMP and two other robotic RL algorithms.

Benzer Tezler

  1. Accelerating robot learning via human-in-the-loop shared control

    İnsan yönlendirmeli paylaşımlı kontrol ile robot öğrenimini hızlandırma

    DENİZ YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. REGAİP BARKAN UĞURLU

    PROF. DR. ERHAN ÖZTOP

  2. Robotik programlama ile bilgi-işlemsel düşünme becerisine yönelik öğretim sürecinde öğretmenlerin pedagojik alan bilgisi gelişimi

    Teachers' pedagogical content knowledge developments in the ınstructional process for computational thinking skill via robot programming

    SERVET KILIÇ

    Doktora

    Türkçe

    Türkçe

    2020

    Eğitim ve ÖğretimTrabzon Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    PROF. DR. ÜNAL ÇAKIROĞLU

  3. Mobil kontrol-görüntü aktarımı ve lazer savunma gücüne sahip tank robot tasarımı

    Tank robot design with mobile control-image transfer and laser defense power

    BURAK KAPUSIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Mekatronik MühendisliğiNecmettin Erbakan Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF UZUN

  4. Context-aware remote sensing data processing for improvement of agricultural predictions

    Bağlam farkındalıklı uzaktan algılama veri entegrasyonu ile tarımsal tahminlerin iyileştirilmesi

    AYDA FITRIYE AKTAŞ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. BURAK BERK ÜSTÜNDAĞ

  5. CERN large hadron collider compact muon solenoid hadronic calorimeter upgrade works

    CERN büyük hadron çarpıştırıcısı kompakt muon solenoidi hadron kalorimetresi yükseltme işleri

    SERHAT ATAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Fizik ve Fizik Mühendisliğiİstanbul Teknik Üniversitesi

    Fizik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. KEREM CANKOÇAK