Geri Dön

Long-horizon value gradient methods on Stiefel manifold

Stiefel manifoldu üzerinde uzun ufuklu değer gradyanı yöntemleri

  1. Tez No: 772336
  2. Yazar: TOLGA OK
  3. Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 83

Özet

Sıralı karar verme algoritmaları, otonom ve akıllı sistemlerin oluşturulmasında önemli bir rol oynamaktadır. Bu doğrultuda, en önde gelen araştırma alanlarından biri Takviyeli Öğrenmedir (RL). Öğrenen bir etken tarafından gerçekleştirilen eylemler ile çevre tarafından döndürülen ödüller arasındaki uzun vadeli bağımlılıklar, RL algoritmalarında bir zorluk ortaya çıkarmaktadır. Bu zorluğun üstesinden gelmenin yollarından biri, değer fonksiyonu yaklaşımının kullanılmasıdır. Bu, RL algoritmalarında politika optimizasyonunun anlık durum değeri yaklaşımına dayanmasını sağlar ve politika öğrenimini basitleştirir. Ancak pratikte, değer tahmin edicisinin sapması ve varyansı arasında daha iyi bir denge kurmak için TD($\lambda$)'da olduğu gibi içerisinde ödül ve değer fonksiyonları barındıran azalan bir ağırlıklandırma şemasına sahip durum-eylem serilerinin yaklaşımlarını kullanırız. Dolayısıyla, durum değeri yaklaşımları politika optimizasyonundaki yüksek varyans problemini tamamen çözmez. RL alanında en önemli paradigmalardan biri olan Politika Gradyanı (PG) methodları, durum değer fonksiyonunun politika parametrelerine göre gradyanının tahmincisini oluşturmak için durum-eylem serisi parçasında yapılan eylemler ve onların peşinden alınan ödüller arasındaki korelasyona dayanır. Ancak, kesilmiş durum-eylem serilerinin uzunluğu arttıkça veya $\lambda$ parametresi 1'e yaklaştıkça, Monte Carlo (MC) örneklemesinin kullanımına benzer şekilde, PG optimizasyon fonksiyonun gradyan tahmincisindeki varyans büyük ölçüde artar. PG yöntemlerinde gradyan tahmincisi sıfır sapmaya sahip olsa da, varyanstaki artış örneklem verimsizliğine yol açar, çünkü bir eylemin yaklaşık değeri, kesilen durum-eylem serisi içinde o eylemle ilgili olmayan ve onun ardından alınmış ödülleri içerebilir. Politika optimizasyonu sırasında gradyan tahminleyicisi için yüksek varyans getirmeyen ve PG algoritmalarına alternatif olan yöntemlerden biri de, bir durum-eylem serisi içinde eylemler ile ardından oluşan durum değerleri arasındaki fonksiyonel ilişkiyi kullanan Değer Gradyanı (VG) algoritmalarıdır. Bu tahmin türevlenebilir bir model fonksiyonu gerektirir ve VG algoritmaları çoğunlukla model tabanlı Takviyeli Öğrenme (MBLR) yaklaşımları olarak bilinir. Çoğu MBLR yaklaşımında olduğu gibi, VG optimizasyon fonksiyonunu simüle edilmiş durum-eylem serileri üzerinde uygulamak mümkündür. Ancak bu durumda model fonksiyonu gelecekteki durum-eylem serilerini simüle etmek için kendisini yinelemeli olarak çağırdığından bileşik hatalar sorununu ortaya çıkar ve bu yaklaşımın kullanımını zorlaşır. VG algoritmalarını örneklenmiş durum-eylem serilerinde kullanmak için Heess et al. Stokastik Değer Gradyanı (SVG) algoritmasını önermiştir. SVG'de simüle edilmiş geçişler yerine örneklenmiş geçişlerin kullanılmasını sağlayan ana mekanizma yeniden parametrelendirmedir. SVG, örneklenmiş durum-eylem serileri üzerinde bir hesaplama grafiği (CG) oluşturur ve her durumda yeniden parametrelendirme, model fonksiyonunun yaklaşım hatasını düzelttiğinden, ileri geçişteki bileşik hata sorununu ortadan kaldırır. Buna ek olarak SVG, örneklenen durum-eylem serilerinin uzunluğuna göre değişen bir politika gradyanı tahmincileri spektrumu sağlar. Bu spektrumun bir ucunda Deterministik Politika Gradyanı (DPG) algoritmalarını kapsayan anlık değer ve eylem üzerine inşa edilen VG algoritmaları vardır. DPG algoritmaları, bir model fonksiyonu gerektirmedikleri için bu spektrumda benzersizdir, bu nedenle modelsiz yaklaşımlar olarak kategorize edilirler, çünkü durum-eylem değer fonksiyonunun anlık eyleme göre gradyanı model fonksiyonundan bağımsızdır. Bu spektrumun diğer ucu SVG($\infty$) olarak adlandırılır ve burada bir durum değerinin gradyanı geri yayılım esnasında geriye doğru tüm durum-eylem serisi boyunca yayılır. SVG ileri geçişte bileşik hata sorununu çözmesine rağmen, VG optimizasyon fonksiyonun oluşturulduğu hesaplama grafiğinin geri geçişi sırasında durum değerlerinin gradyanı patlama veya sıfırlanma eğilimindedir. Bu sorunu hafifletmek için durum tahmini yapan fonksiyonun bağımsız çıkışlarının olması veya geçitli mimariler kullanmak gibi çeşitli öneriler yapılmıştır. Ancak bunlar bu sorunu çözmede başarısız olmuştur ve bu nedenle pratikte SVG algoritmaları yalnızca kısa durum-eylem serileri üzerinde kullanılmaktadır. Bu tez, geriye doğru geçiş sırasında gradyan normunu koruyan özel bir model fonksiyonu ailesi önermektedir. Bu tezde, lineer katmanların ağırlık parametrelerinin bir Stiefel manifold (St) üzerinde yer aldığı bir sinir ağı tarafından temsil edilen bir model fonksiyonu öneriyoruz, öyle ki lineer katmanların Jacobian matrisi her durum-eylem çiftinde üniter bir matristir. Model optimizasyon adımı sırasında, bu özelliği koruyabilmek için Riemannian Gradient Descent (RGD) kullanıyoruz. Bu sayede optimizasyon süreci boyunca ağrılık matrisleri Stiefel manifoldu üzerinde kalır. Ağırlık matrislerini Euclidean uzaydan Stiefel manifolduna matris exponansiyeli yardımı ile mapleyen bir parametrizasyon ile RGD'yi Derin Öğrenme'de kullanılan birçok optimizasyon yönteminde bir değişiklik yapmadan kullanmamıza izin veriyor. Aynı şekilde lineer katmanlar arasında kullanılan aktivasyon fonksiyonlarını da gradyan normunu koruma özelliğini sağlayanlar arasından seçiyoruz. Böylece bu aktivasyon ve lineer katmanlardan oluşan model fonksiyonunu kullanan VG yöntemi gradyanların patlaması veya sıfırlanması sorunu yaşamıyor. Bu yaklaşım, doğrudan ve matematiksel olarak temellendirilmiş bir çözüm sağlayarak, yalnızca kısa durum-eylem serileri için işe yaradıkları gösterilen ve sıfırlanan veya patlayan gradyan problemini sadece hafifletmeyi amaçlayan daha önce önerilen tekniklerden daha farklı bir yöntem izlemektedir. Bu çalışmada, uzun durum-eylem serileri üzerinde VG tabanlı algoritmaların gradyan sapması sorunu yaşadığını gösterdik ve önerdiğimiz yöntemin bu sorunu ne kadar çözebildiğini görmek için yeni ortamlar yarattık. Bu nedenle, ödüllerin sadece geciktirilmediği, aynı zamanda eylemler arasındaki ilişkilerin bire bir olduğu, dolayısıyla ödül-eylem bağımlılığının basit olmadığı bir ortam geliştirdik. Bu ortama Gecikmeli Ödül Arama (DRL) adını veriyoruz. Bu tezde kullandığımız ikinci kıyaslama ortamı, bir MuJoCo kontrol görevi olan Walker2D'dir. Burada görev, bir yön boyunca ilerledikçe daha yüksek ödül elde eden ve düşerse cezalandırılan bir robotu kontrol etmektir. Bu deneylerde Proximal Policy Optimization (PPO) algoritmasını VG yöntemi ile birleştirerek önerdiğimiz VG-PPO algoritmasını Stiefel manifold üzerine kurduğumuz model fonksiyonu ile kullanarak modelsiz algoritmalar ile karşılaştırdık. Ayrıca, korelasyon temelli politika gradyanı tahmini ile yeniden parametrelendirme temelli politika gradyan tahmininin bir karşılaştırmasını da gösteriyoruz. Dağılım verildiğinde, yeniden parametrelendirmenin tahminleyiciye bir sapma eklemeden gradyan tahmincisinde önemli ölçüde daha düşük varyansa sebep olduğunu gösteriyoruz. VG tabanlı politika gradyan tahminleyicisinin verimliliğini daha iyi gözlemlemek için, her ayrık durumda ajanın iki karar verdiği labirent benzeri bir ayrık ortam da oluşturduk. Bu kararlardan biri dört olası seçimden oluşan navigasyon eylemi, diğeri de hedef duruma ulaştığında ödülü belirleyen bir anahtar eylemidir. Anahtar eylem labirent ortam içerisinde sadece bir durumda durumun ödül mekanizması tarafından kullanılan değerini etkiliyor. Bu sayede uzun vadeli bir eylem-ödül ilişkisi oluşturuyoruz. Bu ortamda da ortamın ayrık dinamiklerinden ve Markov matrisleri kümesinin çarpma altında kapalılık özelliğinden yararlanarak model fonksiyonu olarak gradyan sapmasına neden olmayan Markov Matrislerini kullanmayı önerdik. Hem ortamın gerçek modelinin Markov matrisi ile hem de yaklaşık Markov matrisi ile model fonksiyonları yarattık. Hem yaklaşık hem de gerçek model fonksiyonlarının ödülü belirleyen temel kararı tek bir örnek ile belirleyebildiğini gösterdik. Sonuç olarak VG yöntemlerinin model yaklaşımındaki sapmaya duyarlı olduğu, ancak bu çalışmada önerdiğimiz gibi uygun bir model ailesiyle birleştirildiğinde politika optimizasyonu için düşük varyanslı bir gradyan tahmincisi sağladığını gösteriyoruz. Ayrıca, altta yatan model fonksiyonu bu çalışmada önerdiğimiz gibi ıraksak değilse, VG yöntemlerinin uzun ufuklu bağımlılıkları yakalayabildiğini de gösteriyoruz.

Özet (Çeviri)

Sequential decision-making algorithms play an essential role in building autonomous and intelligent systems. In this direction, one of the most prominent research fields is Reinforcement Learning (RL). The long-term dependencies between the actions performed by a learning agent and the rewards returned by the environment introduce a challenge in RL algorithms. One of the ways of overcoming this challenge is the introduction of the value function approximation. This allows policy optimization in RL algorithms to rely on immediate state value approximation and simplifies policy learning. In practice, however, we use value approximations that involve future rewards and values from the truncated future trajectories with a decaying weighting scheme, such as in TD($\lambda$), to make a better trade between the bias and variance of the value estimator. Policy Gradients (PG), a prominent approach in model-free paradigm, rely on the correlation between past actions and the future rewards within truncated trajectories to form a gradient estimator of the objective function with respect to the policy parameters. However, as the length of the truncated trajectories increases or the $\lambda$ parameter approaches 1, akin to the use of Monte Carlo (MC) sampling, the variance in the gradient estimator of the PG objective increases drastically. Although the gradient estimator in PG methods has zero bias, the increase in variance leads to sample inefficiency, since the approximated value of an action may contain future rewards within the truncated trajectory that are not related to that action. One of the alternatives to the PG algorithms that do not introduce high variance during policy optimization is the Value Gradient (VG) algorithm which utilizes the functional relation between the past actions and the future state values on a trajectory. This estimation requires a differentiable model function; hence, VG algorithms are known as model-based Reinforcement Learning (MBLR) approaches. Although it is possible to apply the VG objective on simulated sub-trajectories, as is the case for most MBLR approaches, the most effective way approach is to apply the VG objective on observed trajectories via the means of reparameterization. If the observed trajectories are used, VG algorithms avoid the issue of compounding errors that occur when the model function is called iteratively with its previous prediction to simulate future trajectories. However, reparameterization does not solve the compounding error problem during the backward pass if the model being used by the VG objective is approximated by an unconstrained function. In this thesis, we propose a model function represented by a neural network where the parameters of the affine layers lie on Stiefel manifold (St) such that the Jacobian matrices of the affine layers are unitary matrices at every state-action pair. During the model optimization step, we employ Riemannian Gradient Descent (RGD) through parameterization with a matrix exponential function as the submersion to maintain the unitary characteristics of the parameters. We combine the affine layers with non-linearities that preserve the gradient norm so that the VG objective does not suffer from vanishing or exploding gradient issues. This approach differs from previously proposed techniques that aim to relax the vanishing or exploding gradient problem, which tends to make the optimization unstable for longer trajectories by providing a direct and mathematically grounded solution. We built a benchmarking environment where the actions are deliberately set to contain only long-term relations with the future state values. Here, we show that the proposed model function surpasses the previously applied techniques during policy optimization with VG objective on long trajectories. We further propose the VG-PPO algorithm, which combines Proximal Policy Optimization (PPO) with the VG approach that is equipped with the proposed family of model functions. We apply VG-PPO on the MuJoCo benchmark and obtained comparable results to that of PPO even when the value approximation is performed by the MC method over long trajectories. We conclude that the VG methods are sensitive to the bias in the model approximation, yet, they provide a low variance gradient estimator for policy optimization when combined with a suitable model family. Moreover, we show that VG methods are able to capture long term dependencies if the underlying model function is not divergent such as we proposed in this work.

Benzer Tezler

  1. Makine öğrenmesi yöntemleriyle rüzgâr santrali üretim tahmini

    Wind power forecasting with machine learning methods

    MEHMET ALİ YELGEÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik MühendisliğiIsparta Uygulamalı Bilimler Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. OKAN BİNGÖL

  2. Güney Afrika Cumhuriyeti'nde west Driefontein ve Kloof işletmelerinde Ocak ikliminin incelenmesi

    The Search about the mining climate at West Driefontein and Kloof gold mines in South Africa

    D.HALİT DÖVER

    Yüksek Lisans

    Türkçe

    Türkçe

    1991

    Maden Mühendisliği ve Madencilikİstanbul Teknik Üniversitesi

    DOÇ.DR. GÜNDÜZ ÖKTEN

  3. Reduced-order modelling of shallow water equations

    Sığ sularda dalga denklemleri için model indirgeme yöntemleri

    SÜLEYMAN YILDIZ

    Doktora

    İngilizce

    İngilizce

    2021

    Fizik ve Fizik MühendisliğiOrta Doğu Teknik Üniversitesi

    Bilimsel Hesaplama Ana Bilim Dalı

    PROF. DR. BÜLENT KARASÖZEN

  4. Vektör ve skalar alanlı bir şişme modeli

    An Inlationary model with vector and scalar fields

    TEVFİK AÇIKTEPE