Geri Dön

Keyframe demonstration seeded and Bayesian optimized policy search

Anahtar nokta gösterimlerinden desteklenerek başlatılmış ve Bayessel optimize edilmiş politika öğrenimi

  1. Tez No: 774228
  2. Yazar: ONUR BERK TÖRE
  3. Danışmanlar: DR. ÖĞR. ÜYESİ BARIŞ AKGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Pekiştirmeli öğrenme (PÖ), robotlara beceriler kazandırmak için gelecek vaadeden bir yaklaşımdır. Bununla birlikte, PÖ kullanarak iyi sonuçlar elde etmek için birçok deneme yapmak gerekir. Gösterimlerden Öğrenme (GÖ) destekli PÖ, insan gösterimlerinden başlangıç becerisi öğrenerek bu sorunun etkisini azaltır. Ne yazık ki, GÖ destekli PÖ hala daha robotların beceri öğrenmesi için fazla denebilecek miktarda deneme gerektirir. Bu çalışmada, bu deneme sayısını daha da azaltmak için bir yaklaşım geliştirdik. Başlıca katkılarımız, (1) keşfe odaklanan bir algoritma ve (2) Yol İntegralleriyle Politika İyileştirme yöntemini geliştiren kapalı kutu politika bulma yöntemi olan Bayessel Optimize Edilmiş Politika Öğrenimi methodur (BO-PI$^{2}$). GÖ yapımız, becerinin hareketini (robot kol pozu) ve hedefini (nesneye özgü algısal veriler) birlikte modellemek için anahtar nokta gösterimlerini ve bunlardan öğrenilen bir Dinamik Bayessel Ağ'dan (DBA) yararlanır. Bu ağın hareket bölümü robot hareketini modellemek için, hedef bölümü ise hareketin başarısını izlemek ve Kısmen Gözlenebilir Markov Ödül Modeli oluşturarak ödül sinyali oluşturmaya yarar. BO-PI$^{2}$, öğrenilen ödül sinyali sayesinde DBA'nın hareket bölümünü geliştirir. BO-PI$^{2}$'nin yeniliği, keşif stratejisinden gelir. Hareket ve hedef arasındaki bağlantı deneme miktarını azaltmak için yeteneğin odaklanılacak kısmını seçmek için kullanılır. Bu yaklaşım, bir anlamda kredi atama sorununu çözmeye benzer. Odaklanacak kısım seçildikten sonra, BO-PI$^{2}$, PÖ yaklaşımlarının tipik olarak kullandığı denemeleri üretmek için hareket modelini kullanır. BO-PI$^{2}$, bu işlem sırasında yürütülen hareketler ile gelişen kümülatif ödülleri öğrenmek için Gaussal Süreç modeli (GS) kullanır. BO-PI$^{2}$ bir sonraki hareket noktalarını Üst Güven Sınırı (ÜSB) algoritmasını kullanarak seçer. Bu algoritma adayların tahmin edilen ödül ve belirsizliğine dayanır. Bu, çoğu PÖ yaklaşımında kullanılan rastgele hareket yaratmaktan farklıdır. BO-PI$^{2}$ ayrıca yeteneği öğrendiğinde erken durmak için hedef modeline dayanan bir sonlandırma kriterinden faydalanır. Bu çalışmada BO-PI$^{2}$'yi 3 beceri için uzman ve uzman olmayanlar alınmış anahtar nokta gösterimleriyle test ettik. Uzmanlar tarafından verilmiş gösterimlerden öğrenilen hareket modelleri başarılı oldukları için, elle yapılan müdahalelerle başarısız hale getirdik. Uzman olmayan kişilerden alınmış gösterimlerde ise başlangıçta başarısız olan haraket modellerini seçtik. Yaklaşımımızı şu zamana kadar ki en başarılı sonuçları elde etmiş PI$^{2}$-ES-Cov algoritmasına karşı üç metrikde karşılaştırdık, bunlar: (1) beceri başarı oranı, (2) toplam birikmiş ödül ve (3) deneme sayısı. Hem uzman, hem de uzman olmayan durumlarda, yaklaşımımız ortalama olarak her üç metrikte de PI$^{2}$-ES-Cov dan daha iyi performans gösterdi. Sonuçlarımız, anahtar nokta gösterimlerinin bütün gezingeden ziyade başarısız olan kısımlara odaklanmamıza izin verdiğini ve bunun ödül tahminine dayalı keşif stratejileriyle birleştirildiğinde, PÖ performansını iyileştirdiğini ve robot kollarını gerçek hayatta kullanılacak yeteneklerle donatmak için deneme sayısını azaltmaya faydalı olduğunu gösteriyor.

Özet (Çeviri)

Reinforcement learning (RL) is a promising approach to endow robots with skills. However, RL requires many trials to get satisfactory results. Learning from Demonstration (LfD) seeded RL alleviates this problem by learning an initial skill from human demonstrations. Nevertheless, this approach still requires robots to perform a non-trivial amount of trials. In this thesis, we develop an approach to further reduce these for manipulation skills with perceptual goals. Our main contributions are (1) an algorithm to focus the exploration by using the learned relationship between action and perception and a (2) Black-Box RL Policy Search (PS) method that improves upon the popular Policy Improvement with Path Integral (PI²) algorithm, called the Bayesian Optimized PI² (BO-PI²), that uses reward predictive UCB-type exploration. Our underlying LfD framework utilizes a Dynamic Bayesian Network (DBN) learned from keyframe demonstrations to jointly model the action (end-effector pose) and the goal (object-specific perceptual data) of the skill. The action part is used to generate robot trajectories, and the goal part is used to monitor the success of trajectory executions and to create a Partially Observable Markov Reward Model in order to learn rewards. BO-PI$^{2}$ is used to improve the action part of the DBN with trial-and-error using the learned returns. The novelty of BO-PI$^{2}$ comes from its exploration strategy. The coupling between the action and the goal is used to pick the part of the model to focus on to reduce the effort, in a sense to solve the credit attribution problem. After picking the part to focus on, BO-PI$^{2}$ samples trajectories from the action model to get rollouts, which is typical of PS approaches. In addition, BO-PI$^{2}$ uses a Gaussian Process (GP) to learn local returns from these rollouts, which is improved with each executed trajectory. The next samples are selected by utilizing an Upper Confidence Bound (UCB) approach, using the predicted return and uncertainty of the possible candidate points. This is in contrast to random sampling, used in most PS approaches. BO-PI$^{2}$ also utilizes a skill success based termination criteria, using the goal model to monitor success autonomously. We evaluate BO-PI$^{2}$ with expert and non-expert keyframe demonstrations for three skills. In the expert case, the models are perturbed so that the initial skill execution starts from a failure condition. In the non-expert case, we pick skill models that fail to begin with. We test our approach against the current state-of-the-art PI$^{2}$-ES-Cov algorithm using three metrics: (1) skill success rate, (2) total accumulated reward, and (3) number of trials. In both the expert case and the non-expert case, on average, our approach performed better than the baseline on all three metrics. Our results show that utilization of keyframes allows us to focus on failed sub-goals rather than the entire trajectory, and combined with reward predictive exploration strategies, are beneficial to improve RL performance and reduce the number of trials to endow robot arms with real-life manipulation skills.

Benzer Tezler

  1. Normalizing flows as HMM emissions for learning from demonstration

    Gösterimlerden öğrenme için normalleştiren akış emisyonlu saklı markov modelleri

    FARZIN NEGAHBANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. BARIŞ AKGÜN

  2. Keyframe extraction using linear rotation invariant coordinates

    Rotasyondan bağımsız doğrusal koordinatlar kullanılarak anahtar kare çıkarımı

    HASAN MUTLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ UFUK ÇELİKCAN

  3. Anahtar çerçeve seçimi ile video özetleme

    Video summarization by keyframe selection

    SERCAN PARLAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. M. ELİF KARSLIGİL

  4. Combined filtering and keyframe reduction for motion capture data

    Birleşik olarak hareket yakalama verilerinin filtrelenmesi ve ana çerçevelerin azaltılması

    ONUR ÖNDER

    Yüksek Lisans

    İngilizce

    İngilizce

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BÜLENT ÖZGÜÇ

    DOÇ. DR. UĞUR GÜDÜKBAY