Geri Dön

Novel experience replay mechanisms to improve the performance of the deep deterministic policy gradients algorithms

Yeni tecrübe tekrarı mekanizmalarıyla derin deterministik politika gradyanı algoritmalarının performansını artırma

  1. Tez No: 761998
  2. Yazar: DOĞAN CAN ÇİÇEK
  3. Danışmanlar: PROF. DR. SÜLEYMAN SERDAR KOZAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

Tecrübe tekrar mekanizması, ajanların tecrübelerini birden çok kez kullanmasını sağlar. Daha önceki çalışmalarda, her bir tecrübenin örnekleme olasılığı, önemlerine göre ayarlanmıştır. Her yinelemeden sonra yeniden oynatma arabelleğindeki her geçiş için örnekleme olasılıklarını yeniden atamak oldukça verimsizdir. Bu nedenle, tecrübe tekrarı önceliklendirme algoritmaları, hesaplama verimliliği elde etmek için karşılık gelen tecrübe örneklendiğinde o tecrübenin önemini yeniden hesaplar. Ancak, ajanın politika ve değer fonksiyonu güncellendikçe geçişlerin önem düzeyi dinamik olarak değişmektedir. Ek olarak, tecrübe tekrarı, ajanın en son politikasından önemli ölçüde sapabilecek olan ajanın önceki politikaları tarafından oluşturulan tecrübeleri depolar. Ajanın en son politikasından daha yüksek sapma, ajan için zararlı olan daha fazla politika dışı güncellemelere yol açar. Bu tezde, her tecrübeye doğrudan öncelik vermek yerine toplu halde örneklenen tecrübelere öncelik veren, KL Iraksaması aracılığıyla Öncelikli Tecrübe Oynatma(KLPER) adında yeni bir algoritma geliştiriyoruz. Ayrıca, literatürdeki önceki deneyim tekrarlama algoritmaları, Derin Deterministik Politika Gradyanları algoritmalarının Aktör ve Kritik Ağlarına aynı tecrübe gruplarını sağlar. Ancak, bir derin deterministik politika gradyan algoritmasının bu iki kademeli bileşeninin öğrenme ilkeleri, parametre güncelleme stratejileri açısından farklılıklar içerir. Bu nedenle, derin deterministik politika gradyan algoritmalarının Aktör ve Kritiğinin eğitimini, ağların eğitimi sırasında kullandıkları tecrübe yığınları açısından ayırmaya çalışıyoruz. Aracının, Derin Deterministik Politika Gradyan Algoritmalarının Aktör ve Kritik için bağımsız olarak örneklenmiş tecrübe yığınlarını kullanmasını sağlayan, Ayrılmış Öncelikli Tecrübe Tekrarı (DPER) adlı yeni bir algoritma geliştiriyoruz. DPER, sırasıyla Kritik ve Aktörün öğrenme süreçlerini ayırmak için Öncelikli Tecrübe Tekrarı, PER ve KLPER kullanır. Algoritmalarımız olan KLPER ve DPER, mevcut son derin deterministik politika gradyan algoritmaları, DDPG ve TD3 ile birleştiriyor ve sürekli kontrol görevlerinde değerlendiriyoruz. KLPER, eğitim sırasında örnek verimliliği, nihai performans ve politikanın kararlılığı açısından derin deterministik sürekli kontrol algoritmaları için umut verici iyileştirmeler sağlar. Öte yandan, DPER, sürekli kontrol görevlerinin çoğunda PER, KLPER ve Vanilla Experience Replay'den daha iyi performans gösterir. DPER, önemli miktarda hesaplama karmaşıklığı eklemeden geleneksel deneyim tekrar oynatma stratejilerinden daha iyi performans gösterir.

Özet (Çeviri)

The experience replay mechanism allows agents to use the experiences multiple times. In prior works, the sampling probability of the transitions was adjusted according to their importance. Reassigning sampling probabilities for every transition in the replay buffer after each iteration is highly inefficient. Therefore, experience replay prioritization algorithms recalculate the significance of a transition when the corresponding transition is sampled to gain computational efficiency. However, the importance level of the transitions changes dynamically as the policy and the value function of the agent are updated. In addition, experience replay stores the transitions generated by the previous policies of the agent that may significantly deviate from the most recent policy of the agent. Higher deviation from the most recent policy of the agent leads to more off-policy updates, which is detrimental for the agent. In this thesis, we develop a novel algorithm, Batch Prioritizing Experience Replay via KL Divergence (KLPER), which prioritizes a batch of transitions rather than directly prioritizing each transition. Moreover, to reduce the off-policiness of the updates, our algorithm selects one batch among a certain number of batches and forces the agent to learn through the batch that is most likely generated by the most recent policy of the agent. Also, previous experience replay algorithms in the literature provide the same batches of transitions to the Actor and the Critic Networks of the Deep Deterministic Policy Gradients algorithms. However, the learning principles of these two cascaded components of a deep deterministic policy gradient algorithm contain dissimilarities in terms of their parameter updating strategies. Due to this fact, we attempt to decouple the training of the Actor and the Critic of the deep deterministic policy gradient algorithms in terms of the batches of transitions that they use during the training of the networks. We develop a novel algorithm, Decoupled Prioritized Experience Replay, DPER, that enables the agent to use independently sampled batches of transition for the Actor and the Critic of the Deep Deterministic Policy Gradient Algorithms. DPER utilizes Prioritized Experience Replay, PER, and Batch Prioritizing Experience Replay via KL Divergence, KLPER, to decouple the learning processes of the Critic and the Actor, respectively. We combine our algorithms, KLPER and DPER, with the current state-of-the-art Deep Deterministic Policy Gradient algorithm, DDPG, and TD3, and evaluate it on continuous control tasks. KLPER provides promising improvements for deep deterministic continuous control algorithms in terms of sample efficiency, final performance, and stability of the policy during the training. Moreover, DPER outperforms PER, KLPER, and Vanilla Experience Replay on most of the continuous control tasks. DPER outperforms conventional experience replay strategies without adding a significant amount of computational complexity.

Benzer Tezler

  1. Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms

    Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri

    FURKAN BURAK MUTLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN SERDAR KOZAT

    PROF. DR. SİNAN GEZİCİ

    DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ

  2. Novel deep reinforcement learning algorithms for continuous control

    Sürekli kontrol için yeni derin pekiştirmeli öğrenme algoritmaları

    BATURAY SAĞLAM

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. SÜLEYMAN SERDAR KOZAT

  3. Improving sample efficiency in reinforcement learning control using autoencoders

    Pekiştirmeli öğrenme kontrolde otokodlayıcılar ile örnekleme verimliliğini arttırma

    BURAK ER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA DOĞAN

  4. Deep Q-Network based cryptocurrency investment strategies using transformer function approximator

    Transformer fonksiyon yaklaşımcısını kullanarak derin Q-Ağı tabanlı kripto para yatırım stratejileri

    TUNA ALAYGUT

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SEFER

  5. Onay kodlu güvenli M-kupon algoritmasının geliştirilmesi ve biçimsel analizi

    Development of a secure M-coupon scheme with confirmation code and formally analization of the scheme

    KERİM YILDIRIM

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEVCİHAN DURU