Robot skill acquisition via representation sharing and reward conditioning
Robotların temsil paylaşımı ve ödül koşullanması yoluyla beceri kazanmaları
- Tez No: 693078
- Danışmanlar: DOÇ. DR. EMRE UĞUR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 67
Özet
Beceri kazanımı zeki davranışın karakteristik özelliklerinden biridir ve robot öğrenmesi bu özelliği robotlara kazandırmayı amaçlar. Etkili yöntemlerden birisi becerinin basit halini örnekleyerek, gözetimli öğrenmenin bir çeşidi şeklinde, robota öğret-mek ve daha sonra robotun kendi kendine beceriyi geliştirmesini ve yeni görevlere pekiştirmeli öğrenme ile uygun hale getirmesini sağlamaktır. Biz bu tezde ilk olarak Uyarlanır Koşullu Nöral Hareket Primitifleri (ACNMP) adlı, güdümlü ve pekiştirmeli öğrenmeyi uyarlama esnasında eşzamanlı kullanarak örneklemeler ve keşif hareketlerini aynı temsil uzayına kodlayan yapıyı sunacağız. Simulasyon deneylerimiz bize (I) ACNMP'nin en gelişmiş yapılara göre en az on kat daha verimli olduğunu; (II) eş zamanlı öğrenme yönteminin örnekleme özelliklerini yeni hareketlerde koruduğunu; (III) vücut yapıları farklı robotlar arasında beceri aktarımına olanak sağladığını gösterdi. Gerçek robot deneyleri de ACNMP'nin daha yüksek boyutlu ve karmaşık gerçek dünya koşullarına uyum sağlayabildiğini gösterdi. Daha sonra güdümlü öğrenmeyi ödül bazlı uyarlama görevlerinde kullanma fikrini ilerleterek oluşturduğumuz Ödülle Koşullu Nö-ral Hareket Primitifleri (RC-NMP) adlı ikinci yapıyı sunacağız. Bu yapı ödülleri girdi olarak alarak, istenen ödülü veren hareket güzergahları oluşturabilmektedir. RC-NMP varyasyon çıkarımı yöntemiyle olasılıksal bir temsil uzayı oluşturup, bu uzaydan çeşitli hareket güzergahları çekerek bir populasyon oluşturmaktadır. Son olarak bu populasyonun çeşitliliği seyrek ödüllü, birden fazla çözümlü veya lokal çözümlere sahip ortamlarla başa çıkmak için evrimsel stratejilerden krosover ve mutasyon yöntemleriyle arttırılmaktadır. Simulasyon ve gerçek dünya deneylerimiz RC-NMP'nin ACNMP ve diğer iki robotik pekiştirmeli öğrenme yöntemlerine göre daha istikrarlı ve verimli olduğunu gösterdi.
Özet (Çeviri)
Skill acquisition is a character trait of intelligent behavior, which Robot Learning aims to give to robots. An effective approach is to teach an initial version of the skill by demonstrating as a form of Supervised Learning (SL), called Learning from Demonstrations (LfD), then let the robot improve it and adapt to novel tasks via Reinforcement Learning (RL). In this thesis, we first propose a novel LfD+RL framework, Adaptive Conditional Neural Movement Primitives (ACNMP), that simultaneously utilizes LfD and RL together during adaptation and makes demonstrations and RL guided trajectories share the same latent representation space. We show through simulation experiments that (i) ACNMP successfully adapts the skill using order of magnitude fewer trajectory samples than baselines; (ii) its simultaneous training method preserves the demonstration characteristics; (iii) ACNMP enables skill transfer between robots with different morphologies. Our real-world experiments verify the suitability of ACNMP in real-world applications where non-linearity and the number of dimensions increases. Next, we extend the idea of using SL in reward-based skill learning tasks and propose our second framework called Reward Conditioned Neural Movement Primitives (RC-NMP), where learning is done using only SL. RC-NMP takes rewards as input, generates trajectories conditioned on desired rewards. The model uses variational inference to create a stochastic latent representation space from where varying trajectories are sampled to create a trajectory population. Finally, the diversity of the population is increased using crossover and mutation operations from Evolutionary Strategies to handle environments with sparse rewards, multiple solutions, or local minima. Our simulation and real-world experiments show that RC-NMP is more stable and efficient than ACNMP and two other robotic RL algorithms.
Benzer Tezler
- Accelerating robot learning via human-in-the-loop shared control
İnsan yönlendirmeli paylaşımlı kontrol ile robot öğrenimini hızlandırma
DENİZ YILMAZ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. REGAİP BARKAN UĞURLU
PROF. DR. ERHAN ÖZTOP
- Robotik programlama ile bilgi-işlemsel düşünme becerisine yönelik öğretim sürecinde öğretmenlerin pedagojik alan bilgisi gelişimi
Teachers' pedagogical content knowledge developments in the ınstructional process for computational thinking skill via robot programming
SERVET KILIÇ
Doktora
Türkçe
2020
Eğitim ve ÖğretimTrabzon ÜniversitesiBilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
PROF. DR. ÜNAL ÇAKIROĞLU
- Mobil kontrol-görüntü aktarımı ve lazer savunma gücüne sahip tank robot tasarımı
Tank robot design with mobile control-image transfer and laser defense power
BURAK KAPUSIZ
Yüksek Lisans
Türkçe
2023
Mekatronik MühendisliğiNecmettin Erbakan ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF UZUN
- Context-aware remote sensing data processing for improvement of agricultural predictions
Bağlam farkındalıklı uzaktan algılama veri entegrasyonu ile tarımsal tahminlerin iyileştirilmesi
AYDA FITRIYE AKTAŞ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. BURAK BERK ÜSTÜNDAĞ
- CERN large hadron collider compact muon solenoid hadronic calorimeter upgrade works
CERN büyük hadron çarpıştırıcısı kompakt muon solenoidi hadron kalorimetresi yükseltme işleri
SERHAT ATAY
Yüksek Lisans
İngilizce
2016
Fizik ve Fizik Mühendisliğiİstanbul Teknik ÜniversitesiFizik Mühendisliği Ana Bilim Dalı
DOÇ. DR. KEREM CANKOÇAK