Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms
Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri
- Tez No: 892602
- Danışmanlar: PROF. DR. SÜLEYMAN SERDAR KOZAT, PROF. DR. SİNAN GEZİCİ, DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 67
Özet
Deneyim tekrarı, pekiştirmeli öğrenme ajanlarının geçmiş deneyimlerini tekrar tekrar kullanarak öğrenme performansını etkili bir şekilde geliştirmesini sağlar. Varsayılan deneyim tekrarı gibi geleneksel stratejiler, tekrar oynatma arabelleğinden rastgele örnekler almayı içerir, bu da farklı geçişlerin değişen önemini hesaba katmadıkları için verimsizliklere yol açabilir. Öncelikli Deneyim Tekrarı (PER) gibi daha gelişmiş yöntemler, her geçişin örnekleme olasılığını algılanan önemine göre ayarlayarak bu sorunu çözmeyi amaçlar. Ancak, her yineleme sonrasında arabellekteki her geçiş için bu olasılıkları sürekli olarak yeniden hesaplamak, hesaplama açısından maliyetlidir ve büyük ölçekli uygulamalar için pratik değildir. Ayrıca, bu yöntemler genellikle Geçici Fark (TD) hatası gibi önceden tanımlanmış metriklere dayandıkları için, aktör-kritik tabanlı pekiştirmeli öğrenme algoritmalarının performansını doğrudan artırmazlar ve bir geçişin ajanın politikasına olan önemini doğrudan temsil etmezler. Bir geçişin önemi eğitim süresince dinamik olarak değişebilir, ancak mevcut yaklaşımlar hesaplama sınırlamaları nedeniyle buna uyum sağlamakta zorlanır. Hem varsayılan örnekleme stratejileri hem de PER gibi gelişmiş yöntemler belirli geçişlere karşı yanlılıklar getirir. Varsayılan deneyim tekrarı, genellikle başlangıçta rastgele bir politika tarafından oluşturuldukları için artık faydalı olmayabilecek eski geçişleri tercih etme eğilimindedir. Öte yandan, PER, yüksek TD hatalarına sahip geçişlere karşı yanlıdır; bu da genellikle kritik ağındaki hataları yansıtır ve TD hatası ile politika geliştirme arasında doğrudan bir ilişki olmadığı için politika ağı iyileştirmelerine karşılık gelmeyebilir. Bu zorluklar göz önüne alındığında, öğrenim sırasında yanlılığı azaltmak ve her geçişin güncellemelerde eşit sayıda kullanılmasını sağlamak için yeni bir örnekleme stratejisi öneriyoruz. Yöntemimiz, Düzeltici Sabit Deneyim Tekrarı (CUER), tüm geçişler için adil örnekleme sayılarına ulaşmak amacıyla verimli bir toplam-ağaç yapısını kullanır. CUER'in performansını çeşitli sürekli kontrol görevlerinde değerlendiriyoruz ve bunun, TD3 ve SAC gibi en gelişmiş politika dışı derin pekiştirmeli öğrenme algoritmalarına uygulandığında hem geleneksel hem de gelişmiş tekrar mekanizmalarından daha iyi performans gösterdiğini gösteriyoruz. Deneysel sonuçlar, CUER'in önemli bir hesaplama yükü getirmeden örnekleme verimliliğini sürekli olarak artırdığını, bu da daha hızlı yakınsama ve daha kararlı öğrenme performansına yol açtığını gösteriyor.
Özet (Çeviri)
Experience replay enables agents to effectively utilize their past experiences repeatedly to improve learning performance. Traditional strategies, such as vanilla experience replay, involve uniformly sampling from the replay buffer, which can lead to inefficiencies as they do not account for the varying importance of different transitions. More advanced methods, like Prioritized Experience Replay (PER), attempt to address this by adjusting the sampling probability of each transition according to its perceived importance. However, constantly recalculating these probabilities for every transition in the buffer after each iteration is computationally expensive and impractical for large-scale applications. Moreover, these methods do not necessarily enhance the performance of actor-critic-based reinforcement learning algorithms, as they typically rely on predefined metrics, such as Temporal Difference (TD) error, which do not directly represent the relevance of a transition to the agent's policy. The importance of a transition can change dynamically throughout training, but existing approaches struggle to adapt to this due to computational constraints. Both vanilla sampling strategies and advanced methods like PER introduce biases toward certain transitions. Vanilla experience replay tends to favor older transitions, which may no longer be useful since they were often generated by a random policy during initialization. Meanwhile, PER is biased toward transitions with high TD errors, which primarily reflects errors in the critic network and may not correspond to improvements in the policy network, as there is no direct correlation between TD error and policy enhancement. Given these challenges, we propose a new sampling strategy designed to mitigate bias and ensure that every transition is used in updates an equal number of times. Our method, Corrected Uniform Experience Replay (CUER), leverages an efficient sum-tree structure to achieve fair sampling counts for all transitions. We evaluate CUER on various continuous control tasks and demonstrate that it outperforms both traditional and advanced replay mechanisms when applied to state-of-the-art off-policy deep reinforcement learning algorithms like TD3 and SAC. Empirical results indicate that CUER consistently improves sample efficiency without imposing a significant computational burden, leading to faster convergence and more stable learning performance.
Benzer Tezler
- Novel experience replay mechanisms to improve the performance of the deep deterministic policy gradients algorithms
Yeni tecrübe tekrarı mekanizmalarıyla derin deterministik politika gradyanı algoritmalarının performansını artırma
DOĞAN CAN ÇİÇEK
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
- Göçün lokalizasyonunda nedensellik analizi: İstanbul'da yerelötesi yerleşimler
Causality analysis in the localization of migration: Translocal settlements in Istanbul
AHMET TÜREL
Doktora
Türkçe
2024
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. SİNAN MERT ŞENER
- Bankacılık ve finans sektöründe fijital pazarlama iletişimi ve metaverse kullanımı bağlamında yeni yönelimler
New trends in phygital marketing communication and metaverse usage in the banking and financial sector
ALİ FUAT KUYUMCU
Yüksek Lisans
Türkçe
2024
İletişim BilimleriOndokuz Mayıs Üniversitesiİletişim Bilimleri Ana Bilim Dalı
DOÇ. DR. ÖMER ÇAKIN
- Sosyal medyada bedenin yeniden üretimi: Geç ergenlik dönemi üzerine nitel bir araştırma
Body reproduction in social media: A qualitative study on late adolescence
KÜBRA TÜRKEL
Yüksek Lisans
Türkçe
2022
Sosyal HizmetGümüşhane ÜniversitesiSosyal Hizmet Yönetimi Ana Bilim Dalı
DOÇ. DR. SEFA ERBAŞ
- Tekerlekli bir askeri taşıt için otomatik yangın söndürme ve infilak bastırma sistemi tasarımı
Automatic fire suppression and extinguishing system design for a wheeled military vehicle
FATİH AKGÜN
Yüksek Lisans
Türkçe
2017
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. CEMAL BAYKARA