Markov chain Monte Carlo Algorithm for Bayesian Policy Search
Bayes Politika Arama için Markov Zinciri Monte Carlo Algoritması
- Tez No: 563516
- Danışmanlar: Assoc. Prof. Dr. AHMET ONAT, DR. SİNAN YILDIRIM
- Tez Türü: Doktora
- Konular: Mekatronik Mühendisliği, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 142
Özet
Takviye Öğrenimindeki temel amaç, belirli bir parametrelenmiş kontrol politikanın en uygun parametrelerini aramaktır. Politika arama algoritmaları, ortamın yüksek boyutlu durum ve eylem alanlarından oluştuğu robotik alan gibi karmaşık dinamik sistemlere uygulanmaya uygun hale getirmenin yolunu açmıştır. Birçok politika arama tekniği geniş çaplı politika gradyan yöntemlerine dayanmasına rağmen, bu tür karmaşık ortamlara uygun olmaları nedeniyle performansları yavaş yakınsama veya yerel optima komplikasyonlarından etkilenebilir. Bunun nedeni, parametreleştirilmiş politikanın gradyan bileşenlerinin hesaplanma dürtüsünden kaynaklanmaktadır. Bu çalışmada, Takviye Öğrenme çerçevesine uygun politika arama problemi için bir Bayesian yaklaşımı elde ettik. İlgilendiğimiz konu, sürekli durum ve eylem alanları ile ayrık zaman bir Markov karar sürecini (MDP) kontrol etmektir. Gradyan yaklaştırmaları yerine, bir Posterior Dağılımından politika parametreleri için numune üretme yöntemi olarak bir Parçacık Markov Zinciri Monte Carlo (P-MCMC) algoritması geliştirerek bu alana katkıda bulunuyoruz. Bunu yapmak için, politika parametreleri üzerinde önceden bir yoğunluğu benimsiyoruz ve 'olasılığın' beklenen toplam ödül olduğu varsayılan posterior dağıtımı hedefliyoruz. Politikanın kümülatif muadili yerine performansını ölçmek için çoklayıcı beklenen toplam bir ödülün kullanıldığı riske duyarlı senaryolar açısından, metodolojimiz bir ödül fonksiyonunu çarpımcı bir formda kullanmaktan dolayı amaca uygundur. P-MCMC'nin yinelemelerinde parçacık filtresi olarak bilinen sıralı Monte Carlo'yu (SMC) tamamen kullanılabilir. Bu yöntemlerin son yıllarda istatistik ve mühendislik uygulamalarında yaygın olarak kullanıldığını belirtmekte fayda var. Ayrıca, politika araştırmasının bir başka zorlayıcı sorununu büyük boyutlu uzaylarda ele almak için, bir Uyarlamalı MCMC algoritması önerilecektir.
Özet (Çeviri)
The fundamental intention in Reinforcement Learning (RL) is to seek for optimal parameters of a given parameterized policy. Policy search algorithms have paved the way for making the RL suitable for applying to complex dynamical systems, such as the robotics domain, where the environment comprised of high-dimensional state and action spaces. Although many policy search techniques are based on the widespread policy gradient methods, thanks to their appropriateness to such complex environments, their performance might be affected by slow convergence or local optima complications. The reason for this is due to the urge for computation of the gradient components of the parameterized policy. In this study, we avail a Bayesian approach for policy search problem pertinent to the RL framework, The problem of interest is to control a discrete-time Markov decision process (MDP) with continuous state and action spaces. We contribute to the field by propounding a Particle Markov Chain Monte Carlo (P-MCMC) algorithm as a method of generating samples for the policy parameters from a posterior distribution, instead of performing gradient approximations. To do so, we adopt a prior density over policy parameters and aim for the posterior distribution where the 'likelihood' is assumed to be the expected total reward. In terms of risk-sensitive scenarios, where a multiplicative expected total reward is employed to measure the performance of the policy, rather than its cumulative counterpart, our methodology is fit for purpose owing to the fact that by utilizing a reward function in a multiplicative form, one can fully take sequential Monte Carlo (SMC), known as the particle filter within the iterations of the P-MCMC. it is worth mentioning that these methods have widely been used in statistical and engineering applications in recent years. Furthermore, in order to
Benzer Tezler
- İki yönlü kuvvet dağılımına dayalı istatistiksel güvenilirlik analizi
Statistical reliability analysis based on the two-sided power distribution
ÇAĞATAY ÇETİNKAYA
- Karma logaritmik doğrusal modellere Bayesci yaklaşımlar
Bayesian approaches to the mixed logarithmic linear models
HAYDAR DEMİRHAN
Doktora
Türkçe
2009
MatematikHacettepe Üniversitesiİstatistik Ana Bilim Dalı
YRD. DOÇ. DR. CANAN HAMURKAROĞLU
- Generalised Bayesian model selection using reversible jump Markov chain Monte Carlo
Tersine atlamalı Markov zinciri Monte Carlo kullanarak genelleştirilmiş Bayesçi model seçimi
OKTAY KARAKUŞ
Doktora
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİzmir Yüksek Teknoloji EnstitüsüElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA AZİZ ALTINKAYA
DOÇ. DR. ERCAN ENGİN KURUOĞLU
- Comparison between a unique long mcmc chain and short parallel mcmc chains for Bayesian inference
Başlık çevirisi yok
HAZAL BÜLBÜL
Yüksek Lisans
İngilizce
2022
İstatistikCharles III University of Madrid (Universidad Carlos III de Madrid)DR. LUCA MARTINO
- Comparison between multiple try mcmc methods for Bayesian inference
Başlık çevirisi yok
ÖMER YASİN BİREY
Yüksek Lisans
İngilizce
2021
İstatistikCharles III University of Madrid (Universidad Carlos III de Madrid)