Experience replay strategies for improving performance of deep off-policy actor-critic reinforcement learning algorithms
Derin politika dışı aktör-kritik pekiştirmeli öğrenme algoritmalarının performansını artırmak için deneyim tekrarı stratejileri
- Tez No: 955161
- Danışmanlar: PROF. DR. SÜLEYMAN SERDAR KOZAT
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 64
Özet
Sürekli kontrol altında derin deterministik politika gradyan algoritmalarında, kritik öğrenimini hızlandırmak amacıyla kullanılan deneyim tekrar stratejilerinin, aktör tarafında dengesizliğe yol açtığını gözlemliyoruz. Öncelikli Deneyim Tekrarı gibi geleneksel yöntemler, hem aktör hem de kritik ağlarını güncellemek için aynı geçiş verilerini kullanır. Ancak bu ortak veri yaklaşımı, yüksek zamansal fark hatasına sahip geçişlerin, kritiğin değer fonksiyonunu öğrenmesi için faydalı olsa da, aktör açısından politikadan sapmış eylemleri temsil edebileceğini ve bu durumun yanıltıcı gradyanlar ile politikanın bozulmasına neden olabileceğini göz ardı etmektedir. Bu sorunu çözmek için Ayrıştırılmış Öncelikli Deneyim Tekrarı adını verdiğimiz yeni bir metot öneriyoruz. Bu yöntem, aktör ve kritik için geçiş örneklemeyi açıkça birbirinden ayırarak, her birinin farklı öğrenme hedeflerine hizmet etmektedir. Kritik tarafında, geleneksel önceliklendirme şemasını kullanarak, yüksek zamansal fark hatasına sahip geçişleri seçer ve değer fonksiyonunun verimli bir şekilde öğrenilmesini destekler. Aktör için ise, Ayrıştırılmış Öncelikli Deneyim Tekrarı yeni bir örnekleme stratejisi getirir. Bu strateji, bellekteki eylemler ile mevcut politikanın önerdiği eylemler arasındaki Kullback–Leibler uzaklığını minimize ederek, daha çok politika içi geçişleri seçer. Ayrıştırılmış Öncelikli Deneyim Tekrarı'nı, güncel en iyi yöntemlerden biri olan Twin Delayed Deep Deterministic Policy Gradient algoritması ile entegre ediyor ve OpenAI Gym ile MuJoCo'nun altı standart sürekli kontrol problemlerinde değerlendiriyoruz. Sonuçlar, Ayrıştırılmış Öncelikli Deneyim Tekrarı'nın öğrenmeyi sürekli olarak hızlandırdığını ve hem klasik hem de öncelikli deneyim tekrar yöntemlerine kıyasla daha yüksek performansa ulaştığını göstermektedir. Daha da önemlisi, Ayrıştırılmış Öncelikli Deneyim Tekrarı, Öncelikli Deneyim Tekrarı'nın başarısız olduğu görevlerde dahi öğrenme stabilitesini koruyarak güçlü politikalarla sonuçlanmaktadır. Yaptığımız ayrıntılı analizler, bu dayanıklılığın ana sebebinin örnekleme ayrıştırması olduğunu doğrulamakta ve Ayrıştırılmış Öncelikli Deneyim Tekrarı'nın sağladığı faydaların, hesaplama açısından ucuz bir optimizasyon ile elde edilebildiğini ortaya koymaktadır. Bu da Ayrıştırılmış Öncelikli Deneyim Tekrarı'nı politika dışı öğrenmeyi geliştirmek için pratik ve etkili bir çözüm haline getirmektedir.
Özet (Çeviri)
We investigate an important conflict in deep deterministic policy gradient algorithms where experience replay strategies designed to accelerate critic learning can destabilize the actor. Conventional methods, including Prioritized Experience Replay, sample a single batch of transitions to update both networks. This shared data approach ignores the fact that transitions with high temporal difference error, while beneficial for the critic's value function estimation, may correspond to off-policy actions that can introduce misleading gradients and degrade the actor's policy. To resolve this, we introduce Decoupled Prioritized Experience Replay, a novel framework that explicitly separates the transition sampling for the actor and critic to serve their distinct learning objectives. For the critic, it employs a conventional prioritization scheme, sampling transitions with high temporal difference error to promote efficient learning of the value function. For the actor, however, Decoupled Prioritized Experience Replay introduces a new sampling strategy. It selects batches that are more on-policy by minimizing the Kullback–Leibler divergence between the actions stored in the buffer and those proposed by the current policy. We integrate Decoupled Prioritized Experience Replay with the state-of-the-art Twin Delayed Deep Deterministic policy gradient algorithm and conduct an evaluation on six standard continuous control benchmarks from OpenAI Gym and MuJoCo. The results show that Decoupled Prioritized Experience Replay consistently accelerates learning and achieves superior final performance compared to both vanilla and prioritized replay. More critically, Decoupled Prioritized Experience Replay maintains learning stability and converges to strong policies in tasks where standard prioritized replay failed to learn. Further ablation studies indicate that the decoupling mechanism is an important factor in this robustness and that the benefits of Decoupled Prioritized Experience Replay are achievable with a computationally inexpensive search, making it a practically effective solution for improving off-policy learning.
Benzer Tezler
- Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms
Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri
FURKAN BURAK MUTLU
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
PROF. DR. SİNAN GEZİCİ
DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ
- Novel experience replay mechanisms to improve the performance of the deep deterministic policy gradients algorithms
Yeni tecrübe tekrarı mekanizmalarıyla derin deterministik politika gradyanı algoritmalarının performansını artırma
DOĞAN CAN ÇİÇEK
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
- Deep Q-Network based cryptocurrency investment strategies using transformer function approximator
Transformer fonksiyon yaklaşımcısını kullanarak derin Q-Ağı tabanlı kripto para yatırım stratejileri
TUNA ALAYGUT
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE SEFER
- Wind-optimized route planning with deep reinforcement learning
Derin pekiştirmeli öğrenme ile rüzgar optimizasyonlu rota planlaması
MELİH SAFA CENGİZ
Yüksek Lisans
İngilizce
2025
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. BARIŞ BAŞPINAR
- Hazır giyim sektöründe üretim kalitesini arttırmaya yönelik işlem bilgi kartı geliştirme model önerisi (kadın pantolonu örneği)
A development model proposal for process information cards to increase production quality in ready to wear sector
NALAN GÜRŞAHBAZ