Geri Dön

Normalizing flows as HMM emissions for learning from demonstration

Gösterimlerden öğrenme için normalleştiren akış emisyonlu saklı markov modelleri

  1. Tez No: 731091
  2. Yazar: FARZIN NEGAHBANI
  3. Danışmanlar: YRD. DOÇ. DR. BARIŞ AKGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 65

Özet

Robotlar birçok farklı endüstride kullanılmalarının yanı sıra fabrikalardan çıkıp günlük yaşamlarımıza karşılama robotları, uzaktan bulunma robotları, oyuncaklar, otonom araçlar ve belki de en yaygın olarak elektrikli süpürgeler şeklinde girmektedir. Yakın zamanda mobil manipülatörler gibi daha yetenekli robotların, evlerimizde bize yardımcı olduğunu görebiliriz. Sabit ve kontrol altındaki endüstriyel ortamlarda robotları belirli görevler için uzmanlar aracılığı ile programlamak ve kontrol etmek, onları günlük ortamlarda kullanmaktan önemli ölçüde farklıdır. Bir robotu, herhangi bir uzman olmadan istenilen görevleri gerçekleştirecek şekilde programlayabilmek yakın gelecek için önem arz etmektedir. Gösterimlerdenden Öğrenme (GÖ) alanı, robotların insanlardan öğrenmesini sağ-lamayı amaçlar. Bu çerçevede, bir beceriyi analitik olarak türetip elle programlamak yerine robot, istenen beceriyi insan gösterimlerinden öğrenir. İnsan etkileşimi yönleri nedeniyle, GÖ'nün düşük miktarda veri ile başarılı olması gerekir. Deneme yanılma için kurulum bir yana, ödül fonksiyonu tasarlayacak bir uzman olmadığında, pekiştirmeli öğrenme yapmak gerçekçi değildir. Bu nedenle, sınırlı bir dizi gösterimden mümkün olduğunca fazla bilgi çıkarmak ve daha önce öğrenilen becerileri aktarım yoluyla kullanmak çekici bir seçenektir. Bu tezin GÖ çerçevesinde, önemli noktalardan hareket ve hedef/algısal beceri modelleri öğrenilir. Beceriyi yürütmek için eylem modelleri ve yürütmeyi izlemek için hedef modelleri kullanılır. Saklı Markov Modelleri (SMM'ler) ve türevleri, düşük miktarda önemli nokta gösteriminden eylem ve hedef modellerini öğrenmek için uygundur. Tezin ilk kısmı, tek bir kullanıcı için becerilerin aktarma yoluyla öğrenimini kolaylaştırmak için Durum Geçişi Aktarımı algoritmasını tanıtmaktadır. Bu algoritmanın, hedef modeller için sıfırdan öğrenmeye kıyasla daha başarılı olduğunu ancak eylem modeli performansını önemli ölçüde artırmadığını gösterilmiştir. Bununla birlikte, SMM'lerin, özellikle algısal durumlar için, aktarımlı öğrenim ve çoklu veri kaynakları (örneğin birden çok kullanıcı, aynı beceri için birden çok nesne, vb.) kullanımı konularında bazı sınırlamaları vardır. Bu sınırlamalar kısmen çok değişkenli Gauss emisyonlarının kullanılmasından ve doğru sayıda gizli durum seçmenin zorlu-ğundan kaynaklanmaktadır. Bu amaçla daha esnek hedef modelleri öğrenmek için, SMM'leri, normalleştiren akış modellerini, ve robotlara özel uyarlamaları birleştirererek Koşullu Akış Saklı Markov Modeli (C-FlowHMM) adı verilen bir üretici model tasarlanmıştır. Buradaki fikir, daha genel bir emisyon modelinin öğrenilebilmesi için Gauss emistonları yerine gizli durumlara göre koşullandırılmış tek bir normalleştiren akış modeli kullanmaktır. Gizli durumlar, tek bir model kullanıldığı için bilgi paylaşmış olurlar ki bu düşük veri rejimine uygundur. Ayrıca, sinir ağı modelleri, aktarımlı öğrenme için daha uygundur. İnsan gösterimlerinden C-FlowHMM öğrenmek için bir“expectation-maximization (EM)”tabanlı algoritma türetilmiştir. Yapılan hedef modeli öğrenme deneylerinde, C-FlowHMM'nin, SMM'lere kıyasla daha iyi yürütme izleme performansına yol açtığı gösterilmiştir. Ayrıca, veriler daha çeşitli olduğunda C-FlowHMM'lerin daha iyi aktarım öğrenme performansı olduğu gözlemlenmiştir. Son olarak, C-FlowHMM'nin geleneksel SMM'lere kıyasla gizli durumların sayısında-ki değişime daha dayanıklı olduğu bulunmuştur.

Özet (Çeviri)

On top of being used in many different industries, robots are getting out of factories and into our everyday lives in the form of greeter robots, telepresence robots, toys, autonomous cars and perhaps most ubiquitously vacuum cleaners. Soon we may see more capable robots, such as mobile manipulators, helping us in our homes. Programming and controlling robots to achieve certain tasks in controlled industrial environments with field experts is significantly different than using them in everyday environments. Being able to program a robot to achieve desired tasks without the presence of an expert is of importance for the near future. Imitation learning or Learning from Demonstration (LfD) field aims to enable robots to learn from humans. In this framework, instead of analytically deriving and manually programming a skill, the robot learns the desired skill from human demonstrations. Due to the human-interaction aspects, LfD needs to contend with a low amount of demonstrations which leads to a low amount of data. Using reinforcement learning on top of demonstrations is not feasible when there is no one to engineer a reward function, let alone have the setup for trial and error. Thus, extracting as much information as possible from a limited set of demonstrations and utilizing previously learned skills via transfer is an attractive option. In the LfD framework of this thesis, action and goal/perceptual models of skills are learned from keyframes. Action models are used to execute the skill and goal models are used to monitor this execution. Hidden Markov Models (HMMs) and their derivatives are suitable to learn action and goal models from a low amount of keyframe demonstrations. The first part of the thesis introduces the State Traversal Transfer algorithm to facilitate transfer learning of skills for a single user. We show that this algorithm leads to successful transfer compared to learning from scratch for goal models but do not significantly increase action model performance. However, HMMs have some limitations with transfer learning and multiple sources of data (e.g. multiple users, multiple objects for the same skill, etc.), especially about dealing with perceptual states. These limitations partially stem from using multivariate Gaussian emissions and the difficulty of choosing the correct number of hidden states. Towards this end, a generative model called Conditional Flow Hidden Markov Model (C-FlowHMM) is designed by combining conventional HMMs, normalizing flows, and robotic specific adaptations to improve model flexibility in learning goal/perceptual models of skills. The idea is to use a single normalizing flow model, conditioned on hidden states, instead of Gaussians so that a more general emission model can be learned. By using a single model, states share information which is suitable in a low data regime. Furthermore, a neural network model is more amenable to transfer learning. We develop an expectation-maximization (EM) algorithm to train C-FlowHMMs from human demonstrations which lead to better execution monitoring performance compared to HMMs. We also show that C-FlowHMMs result in better transfer learning performance when data is more varied. Finally, we demonstrate that C-FlowHMM is more robust to change in the number of hidden states compared to conventional HMMs.

Benzer Tezler

  1. End-to-end learned image compression with normalizing flows for latent space enhancement

    Normalize eden akışlar ile geliştirilen saklı uzay kullanılarak uçtan uca öğrenilmiş görüntü sıkıştırma

    FATİH YAVUZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FATİH KAMIŞLI

  2. Normalizing flows for bayesian statistical inference posterioranalysis

    Bayesian istatistiksel çıkarım sonsal analizi için normalleştirme akımları

    KUTAY NAZLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Pomona College California

    Astronomi ve Astrofizik Ana Bilim Dalı

    DR. ELENA SELLENTİN

  3. Improved image generation in normalizing flows through a multi-scale architecture and variational training

    Normalleştirici akım modellerinde çok-ölçekli mimari ve değişimsel eğitim ile geliştirilmiş resim üretimi

    DENİZ SAYIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ

  4. Faiz swapı ve Türk bankacılık sektörü açısından bir değerlendirme

    Approach of interest rate swaps in Turkish banking sector

    BERK TİMUR ALVER

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    BankacılıkMarmara Üniversitesi

    Bankacılık Ana Bilim Dalı

    PROF. DR. NAZIM EKREN

  5. Türbülansa bir gurup teorik yaklaşım

    A Group theoretical approach to turbulance

    GAZANFER ÜNAL

    Doktora

    Türkçe

    Türkçe

    1991

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    PROF.DR. ERDOĞAN ŞUHUBİ