Robotic skill learning from very few demonstrations
Başlık çevirisi mevcut değil.
- Tez No: 604509
- Danışmanlar: DR. ÖĞR. ÜYESİ BARIŞ AKGÜN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 65
Özet
Bu tezde, c ̧ok az go ̈sterimden o ̈du ̈l o ̈gˇrenip, bu o ̈du ̈lleri politika aramasında, be- ceriyi geli ̧stirmek i ̧cin kullanan bir robotik beceri o ̈gˇrenme sistemi tanıtılmaktadır. Go ̈sterimlerden c ̧ıkartılan hareket ve algı verisi, beceriyi ger ̧cekle ̧stirmek i ̧cin kul- lanılan polic ̧e ve hareketi go ̈zlemek ic ̧in kullanilan hedef modeli parametrelerinin o ̈ˇgrenimi i ̧cin kullanılmı ̧stır. Beceriler, Dinamik Hareket Pirimitivleri (DHP) ile parametrize edilirken, Saklı Markov Modeli (SMM) hedef modeli olarak kullanılmı ̧stır. O ̈duller ise SMM'in yapısı ve go ̈zlem kabiliyerleri vasıtası ile ogrenilmistir. Bir son- raki adım olarak SMM, sonlu ufka sahip Markov O ̈du ̈l Su ̈reci'ne (MO ̈S) ̧cevrilmi ̧stir. Monte Carlo yo ̈ntemi ile SMM'in saklı durumlarının ̈odul deˇgerleri hesaplanmı ̧stır ve bu deˇgerler SMM'i Kısmen Go ̈zlenebilir MO ̈S'e (KGMO ̈S) ̧cevirmek i ̧cin kul- lanılmı ̧stır. KGMO ̈S sayesinde robot, polic ̧e aramasında kullanılmak u ̈zere do ̈nu ̈tler elde etmi ̧stir. O ̈du ̈l o ̈ˇgreniminin yanı sıra, bu tezde, kara kutu en iyilemesi tabanlı bir poli ̧ce araması metoduna adaptif ke ̧sif stratejisi uygulanmı ̧stır. Ortaya ̧cıkan poli ̧ce araması yapısının performansı, robotik simu ̈lasyon ortamında be ̧s farkli poli ̧ce araması metodu kullanılarak iki tane beceri ile o ̈l ̧cu ̈lmu ̈ ̧stu ̈r. Bu beceriler robotun bir kutu a ̧ctıgˇı A ̧cma ve bir kutu kapadıgˇı Kapama becerileridir. Sonu ̧clar g ̈ostermektedir ki, KGMO ̈S'den ̧cıkartılan o ̈du ̈ller, hedef modelinden elde edilen aralıklı go ̈zlem sinyal- lerine go ̈re daha iyi performans sergilemektedir. Buna ek olarak, bu tezde tanıtılan poli ̧ce araması metodu digˇer poli ̧ce araması metodlarına go ̈re daha hızlı ve daha az varyans ile yakınsamaktadır. Son olarak, simu ̈lasyonda g ̈ozlemlenen sonu ̧clar, gerek robotta u ̈ ̧c tane beceri ile test edilmi ̧stir. Bu beceriler Ac ̧ma, Kapama ve robotun tahta bir ̧cekmeceyi c ̧ekerek a ̧ctıgˇı C ̧ekme becerisidir. Robot, bu ̈tu ̈n becerileri tam ba ̧sarısızlıktan tamamen ba ̧sarılı olacak ̧sekilde o ̈gˇrenmi ̧stir.
Özet (Çeviri)
In this thesis, a novel skill learning framework that learns rewards from very few demonstrations and uses them in a policy search setting to improve the skill is intro- duced. The action and perceptual data that are extracted from the demonstrations are used to learn a parameterized policy to execute the skill and a goal model to monitor the executions respectively. The skills are parameterized with Dynamical Movement Primitives (DMP) and a Hidden Markov Model (HMM) is used as the goal model. The rewards are learned from the HMM structure and its monitoring capability. The HMM is then converted to a finite horizon Markov Reward Process (MRP). A Monte Carlo approach is used to calculate the values corresponding to each hidden state of the HMM. Then, the HMM and the extracted values are merged into a Partially Observable MRP (POMRP). POMRP enabled us to obtain execution returns that are then used in policy search to improve the policy. In addition to reward learning, an adaptive exploration strategy is introduced to a black box opti- mization based PS method. The resulting framework is evaluated with five different policy search methods in a robotic simulation environment for two skills: Open in which robot learns to open a box and Close in which robot learns to close a box. The results show that the returns extracted from the POMRP lead to better performance compared to sparse monitoring signals, and the introduced policy search approach converges faster with higher success rates and lower variance than the rest. Finally, the efficacy of the framework is validated in a real robot setting with the introduced policy search method for three skills: Open, Close and Draw in which robot learns to pull to open a wooden drawer. We show that, in the real robot, the three skills are improved to complete success from complete failure.
Benzer Tezler
- A deep learning approach to surface reconstruction for surgical navigation during laparoscopic, endoscopic or robotic surgery
Laparoskopik, endoskopik ve robotik cerrahide navigasyon (yön bulma) amacıyla derin öğrenme yaklaşımıyla organ yüzeyi oluşturma
AMIN ZABARDAST
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiSağlık Bilişimi Ana Bilim Dalı
PROF. DR. ÜNAL ERKAN MUMCUOĞLU
- İşletmelerde verimlilik arttırma teknikleri
Productivity improvement techniques in organizations
MUHAMMED BAMYACI
Yüksek Lisans
Türkçe
1990
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiDOÇ.DR. M. NAHİT SERASLAN
- Yapay zeka ve uygulamaları
Artificial intelligence and its applications
A.SEMİH ÖZKUL
Yüksek Lisans
Türkçe
1991
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiY.DOÇ.DR. ORHAN KURUÜZÜM
- Olasılıksal sembolik motif tanıma
Probabilistic symbolic pattern recognition
OĞUZ AKBİLGİÇ
Doktora
Türkçe
2022
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. EYLEM DENİZ HOWE
- Multi-resolution model plus correction paradigm for task and skill refinement on autonomous robots
Özerk robotlar üzerinde görev ve beceri iyileştirme için çoklu-çözünürlüklü model artı düzeltme paradigması
ÇETİN MERİÇLİ
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. H. LEVENT AKIN
PROF. DR. MANUELA VELOSO