Geri Dön

Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms

Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri

  1. Tez No: 892602
  2. Yazar: FURKAN BURAK MUTLU
  3. Danışmanlar: PROF. DR. SÜLEYMAN SERDAR KOZAT, PROF. DR. SİNAN GEZİCİ, DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 67

Özet

Deneyim tekrarı, pekiştirmeli öğrenme ajanlarının geçmiş deneyimlerini tekrar tekrar kullanarak öğrenme performansını etkili bir şekilde geliştirmesini sağlar. Varsayılan deneyim tekrarı gibi geleneksel stratejiler, tekrar oynatma arabelleğinden rastgele örnekler almayı içerir, bu da farklı geçişlerin değişen önemini hesaba katmadıkları için verimsizliklere yol açabilir. Öncelikli Deneyim Tekrarı (PER) gibi daha gelişmiş yöntemler, her geçişin örnekleme olasılığını algılanan önemine göre ayarlayarak bu sorunu çözmeyi amaçlar. Ancak, her yineleme sonrasında arabellekteki her geçiş için bu olasılıkları sürekli olarak yeniden hesaplamak, hesaplama açısından maliyetlidir ve büyük ölçekli uygulamalar için pratik değildir. Ayrıca, bu yöntemler genellikle Geçici Fark (TD) hatası gibi önceden tanımlanmış metriklere dayandıkları için, aktör-kritik tabanlı pekiştirmeli öğrenme algoritmalarının performansını doğrudan artırmazlar ve bir geçişin ajanın politikasına olan önemini doğrudan temsil etmezler. Bir geçişin önemi eğitim süresince dinamik olarak değişebilir, ancak mevcut yaklaşımlar hesaplama sınırlamaları nedeniyle buna uyum sağlamakta zorlanır. Hem varsayılan örnekleme stratejileri hem de PER gibi gelişmiş yöntemler belirli geçişlere karşı yanlılıklar getirir. Varsayılan deneyim tekrarı, genellikle başlangıçta rastgele bir politika tarafından oluşturuldukları için artık faydalı olmayabilecek eski geçişleri tercih etme eğilimindedir. Öte yandan, PER, yüksek TD hatalarına sahip geçişlere karşı yanlıdır; bu da genellikle kritik ağındaki hataları yansıtır ve TD hatası ile politika geliştirme arasında doğrudan bir ilişki olmadığı için politika ağı iyileştirmelerine karşılık gelmeyebilir. Bu zorluklar göz önüne alındığında, öğrenim sırasında yanlılığı azaltmak ve her geçişin güncellemelerde eşit sayıda kullanılmasını sağlamak için yeni bir örnekleme stratejisi öneriyoruz. Yöntemimiz, Düzeltici Sabit Deneyim Tekrarı (CUER), tüm geçişler için adil örnekleme sayılarına ulaşmak amacıyla verimli bir toplam-ağaç yapısını kullanır. CUER'in performansını çeşitli sürekli kontrol görevlerinde değerlendiriyoruz ve bunun, TD3 ve SAC gibi en gelişmiş politika dışı derin pekiştirmeli öğrenme algoritmalarına uygulandığında hem geleneksel hem de gelişmiş tekrar mekanizmalarından daha iyi performans gösterdiğini gösteriyoruz. Deneysel sonuçlar, CUER'in önemli bir hesaplama yükü getirmeden örnekleme verimliliğini sürekli olarak artırdığını, bu da daha hızlı yakınsama ve daha kararlı öğrenme performansına yol açtığını gösteriyor.

Özet (Çeviri)

Experience replay enables agents to effectively utilize their past experiences repeatedly to improve learning performance. Traditional strategies, such as vanilla experience replay, involve uniformly sampling from the replay buffer, which can lead to inefficiencies as they do not account for the varying importance of different transitions. More advanced methods, like Prioritized Experience Replay (PER), attempt to address this by adjusting the sampling probability of each transition according to its perceived importance. However, constantly recalculating these probabilities for every transition in the buffer after each iteration is computationally expensive and impractical for large-scale applications. Moreover, these methods do not necessarily enhance the performance of actor-critic-based reinforcement learning algorithms, as they typically rely on predefined metrics, such as Temporal Difference (TD) error, which do not directly represent the relevance of a transition to the agent's policy. The importance of a transition can change dynamically throughout training, but existing approaches struggle to adapt to this due to computational constraints. Both vanilla sampling strategies and advanced methods like PER introduce biases toward certain transitions. Vanilla experience replay tends to favor older transitions, which may no longer be useful since they were often generated by a random policy during initialization. Meanwhile, PER is biased toward transitions with high TD errors, which primarily reflects errors in the critic network and may not correspond to improvements in the policy network, as there is no direct correlation between TD error and policy enhancement. Given these challenges, we propose a new sampling strategy designed to mitigate bias and ensure that every transition is used in updates an equal number of times. Our method, Corrected Uniform Experience Replay (CUER), leverages an efficient sum-tree structure to achieve fair sampling counts for all transitions. We evaluate CUER on various continuous control tasks and demonstrate that it outperforms both traditional and advanced replay mechanisms when applied to state-of-the-art off-policy deep reinforcement learning algorithms like TD3 and SAC. Empirical results indicate that CUER consistently improves sample efficiency without imposing a significant computational burden, leading to faster convergence and more stable learning performance.

Benzer Tezler

  1. Novel experience replay mechanisms to improve the performance of the deep deterministic policy gradients algorithms

    Yeni tecrübe tekrarı mekanizmalarıyla derin deterministik politika gradyanı algoritmalarının performansını artırma

    DOĞAN CAN ÇİÇEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN SERDAR KOZAT

  2. Göçün lokalizasyonunda nedensellik analizi: İstanbul'da yerelötesi yerleşimler

    Causality analysis in the localization of migration: Translocal settlements in Istanbul

    AHMET TÜREL

    Doktora

    Türkçe

    Türkçe

    2024

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. SİNAN MERT ŞENER

  3. Bankacılık ve finans sektöründe fijital pazarlama iletişimi ve metaverse kullanımı bağlamında yeni yönelimler

    New trends in phygital marketing communication and metaverse usage in the banking and financial sector

    ALİ FUAT KUYUMCU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İletişim BilimleriOndokuz Mayıs Üniversitesi

    İletişim Bilimleri Ana Bilim Dalı

    DOÇ. DR. ÖMER ÇAKIN

  4. Sosyal medyada bedenin yeniden üretimi: Geç ergenlik dönemi üzerine nitel bir araştırma

    Body reproduction in social media: A qualitative study on late adolescence

    KÜBRA TÜRKEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Sosyal HizmetGümüşhane Üniversitesi

    Sosyal Hizmet Yönetimi Ana Bilim Dalı

    DOÇ. DR. SEFA ERBAŞ

  5. Tekerlekli bir askeri taşıt için otomatik yangın söndürme ve infilak bastırma sistemi tasarımı

    Automatic fire suppression and extinguishing system design for a wheeled military vehicle

    FATİH AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. CEMAL BAYKARA