Geri Dön

Markov chain Monte Carlo Algorithm for Bayesian Policy Search

Bayes Politika Arama için Markov Zinciri Monte Carlo Algoritması

  1. Tez No: 563516
  2. Yazar: VAHID TAVAKOL AGHAEI
  3. Danışmanlar: Assoc. Prof. Dr. AHMET ONAT, DR. SİNAN YILDIRIM
  4. Tez Türü: Doktora
  5. Konular: Mekatronik Mühendisliği, Mechatronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 142

Özet

Takviye Öğrenimindeki temel amaç, belirli bir parametrelenmiş kontrol politikanın en uygun parametrelerini aramaktır. Politika arama algoritmaları, ortamın yüksek boyutlu durum ve eylem alanlarından oluştuğu robotik alan gibi karmaşık dinamik sistemlere uygulanmaya uygun hale getirmenin yolunu açmıştır. Birçok politika arama tekniği geniş çaplı politika gradyan yöntemlerine dayanmasına rağmen, bu tür karmaşık ortamlara uygun olmaları nedeniyle performansları yavaş yakınsama veya yerel optima komplikasyonlarından etkilenebilir. Bunun nedeni, parametreleştirilmiş politikanın gradyan bileşenlerinin hesaplanma dürtüsünden kaynaklanmaktadır. Bu çalışmada, Takviye Öğrenme çerçevesine uygun politika arama problemi için bir Bayesian yaklaşımı elde ettik. İlgilendiğimiz konu, sürekli durum ve eylem alanları ile ayrık zaman bir Markov karar sürecini (MDP) kontrol etmektir. Gradyan yaklaştırmaları yerine, bir Posterior Dağılımından politika parametreleri için numune üretme yöntemi olarak bir Parçacık Markov Zinciri Monte Carlo (P-MCMC) algoritması geliştirerek bu alana katkıda bulunuyoruz. Bunu yapmak için, politika parametreleri üzerinde önceden bir yoğunluğu benimsiyoruz ve 'olasılığın' beklenen toplam ödül olduğu varsayılan posterior dağıtımı hedefliyoruz. Politikanın kümülatif muadili yerine performansını ölçmek için çoklayıcı beklenen toplam bir ödülün kullanıldığı riske duyarlı senaryolar açısından, metodolojimiz bir ödül fonksiyonunu çarpımcı bir formda kullanmaktan dolayı amaca uygundur. P-MCMC'nin yinelemelerinde parçacık filtresi olarak bilinen sıralı Monte Carlo'yu (SMC) tamamen kullanılabilir. Bu yöntemlerin son yıllarda istatistik ve mühendislik uygulamalarında yaygın olarak kullanıldığını belirtmekte fayda var. Ayrıca, politika araştırmasının bir başka zorlayıcı sorununu büyük boyutlu uzaylarda ele almak için, bir Uyarlamalı MCMC algoritması önerilecektir.

Özet (Çeviri)

The fundamental intention in Reinforcement Learning (RL) is to seek for optimal parameters of a given parameterized policy. Policy search algorithms have paved the way for making the RL suitable for applying to complex dynamical systems, such as the robotics domain, where the environment comprised of high-dimensional state and action spaces. Although many policy search techniques are based on the widespread policy gradient methods, thanks to their appropriateness to such complex environments, their performance might be affected by slow convergence or local optima complications. The reason for this is due to the urge for computation of the gradient components of the parameterized policy. In this study, we avail a Bayesian approach for policy search problem pertinent to the RL framework, The problem of interest is to control a discrete-time Markov decision process (MDP) with continuous state and action spaces. We contribute to the field by propounding a Particle Markov Chain Monte Carlo (P-MCMC) algorithm as a method of generating samples for the policy parameters from a posterior distribution, instead of performing gradient approximations. To do so, we adopt a prior density over policy parameters and aim for the posterior distribution where the 'likelihood' is assumed to be the expected total reward. In terms of risk-sensitive scenarios, where a multiplicative expected total reward is employed to measure the performance of the policy, rather than its cumulative counterpart, our methodology is fit for purpose owing to the fact that by utilizing a reward function in a multiplicative form, one can fully take sequential Monte Carlo (SMC), known as the particle filter within the iterations of the P-MCMC. it is worth mentioning that these methods have widely been used in statistical and engineering applications in recent years. Furthermore, in order to

Benzer Tezler

  1. İki yönlü kuvvet dağılımına dayalı istatistiksel güvenilirlik analizi

    Statistical reliability analysis based on the two-sided power distribution

    ÇAĞATAY ÇETİNKAYA

    Doktora

    Türkçe

    Türkçe

    2019

    İstatistikÇukurova Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. ALİ İHSAN GENÇ

  2. Karma logaritmik doğrusal modellere Bayesci yaklaşımlar

    Bayesian approaches to the mixed logarithmic linear models

    HAYDAR DEMİRHAN

    Doktora

    Türkçe

    Türkçe

    2009

    MatematikHacettepe Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. DR. CANAN HAMURKAROĞLU

  3. Generalised Bayesian model selection using reversible jump Markov chain Monte Carlo

    Tersine atlamalı Markov zinciri Monte Carlo kullanarak genelleştirilmiş Bayesçi model seçimi

    OKTAY KARAKUŞ

    Doktora

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik Mühendisliğiİzmir Yüksek Teknoloji Enstitüsü

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA AZİZ ALTINKAYA

    DOÇ. DR. ERCAN ENGİN KURUOĞLU