Novel deep reinforcement learning algorithms for continuous control
Sürekli kontrol için yeni derin pekiştirmeli öğrenme algoritmaları
- Tez No: 828191
- Danışmanlar: PROF. SÜLEYMAN SERDAR KOZAT
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yapay Zeka ve Veri Bilimi Bilim Dalı
- Sayfa Sayısı: 100
Özet
Sürekli kontrol altında derin pekiştirmeli öğrenme algoritmaları, ham duyusal girdilerden doğrudan karmaşık ve yüksek boyutlu politikalar öğrenebilme kapasitesine sahiptir. Ancak, genellikle örnekleme verimliliği ve keşif ile ilgili zorluklarla karşılaşırlar, bu da gerçek dünya görevleri için uygulanabilinirliklerini sınırlar. Bu bağlamda, sürekli kontrol altında derin pekiştirmeli öğrenme algoritmalarının performansını geliştiren iki yeni teknik sunuyoruz. İlk teknik, aktör-eleştirmen metotlarında deneyleri örneklemek için yeni bir yaklaşım sunmaktadır. Öncelikli Deneyim Tekrar algoritması tarafından neden olunan kararsızlık ve ayrışmayı önlemek ve stabilize etmek için özel olarak tasarlanan tekniğimiz, zamansal-fark hatası ve politika gradyanı arasında denge sağlayarak hem aktör hem de eleştirmen ağlarını etkili bir şekilde eğitebilmektedir. Teorik analizler ve deneysel çalışmalar, yöntemimizin sürekli kontrol altında derin pekiştirmeli öğrenme algoritmalarının performansını iyileştirmede etkili olduğunu göstermektedir. İkinci teknik, içsel motivasyona dayalı yönlendirilmiş bir keşif stratejisini içermektedir. Hayvan motivasyon sistemleri üzerine kurulu kuramlardan esinlenerek ve bunları sürekli kontrol ortamına adapte ederek, stratejimiz, bilgilendirici ve çeşitlilik gösteren keşif davranışları oluşturmada etkinliğini sergilemektedir. Bunun, değer fonksiyonunun hatasını maksimize ederek ve mevcut literatürde bulunan içsel keşif hedeflerini birleştirerek gerçekleştiğini gösteriyoruz. Sunulan yöntemleri çeşitli sürekli kontrol testlerinde değerlendiriyor ve derin pekiştirmeli öğrenmede yeni performans seviyelerine ulaşarak mevcut en iyi yöntemleri geride bıraktığımızı gösteriyoruz.
Özet (Çeviri)
Continuous control deep reinforcement learning (RL) algorithms are capable of learning complex and high-dimensional policies directly from raw sensory inputs. However, they often face challenges related to sample efficiency and exploration, which limit their practicality for real-world applications. In light of this, we introduce two novel techniques that enhance the performance of continuous control deep RL algorithms by refining their experience replay and exploration mechanisms. The first technique introduces a novel framework for sampling experiences in actor-critic methods. Specifically designed to stabilize and prevent divergence caused by Prioritized Experience Replay (PER), our framework effectively trains both actor and critic networks by striking a balance between temporal-difference error and policy gradient. Through both theoretical analysis and empirical investigations, we demonstrate that our framework is effective in improving the performance of continuous control deep RL algorithms. The second technique encompasses a directed exploration strategy that relies on intrinsic motivation. Drawing inspiration from established theories on animal motivational systems and adapting them to the actor-critic setting, our strategy showcases its effectiveness by generating exploratory behaviors that are both informative and diverse. It achieves this by maximizing the error of the value function and unifying the existing intrinsic exploration objectives in the literature. We evaluate the presented methods on various continuous control benchmarks and demonstrate that they outperform state-of-the-art methods while achieving new levels of performance in deep RL.
Benzer Tezler
- Transfer learning for continuous control
Sürekli kontrol için öğrenme aktarımı
SUZAN ECE ADA
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. HÜSEYİN LEVENT AKIN
- Deep reinforcement learning for partially observable markov decision processes
Kısmi gözlemlenebilir markov karar süreçleri için derin pekiştirmeli öğrenme
MEHMET HAKLIDIR
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN TEMELTAŞ
- Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms
Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri
FURKAN BURAK MUTLU
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
PROF. DR. SİNAN GEZİCİ
DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ
- Deep reinforcement learning approach for trading automation in the stock market
Hisse senetlerinde işlem otomasyonu için derin güçlendirme öğrenme yaklaşımı
TAYLAN KABBANİ
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiVeri Bilimi Ana Bilim Dalı
Prof. Dr. EKREM DUMAN
- Object-aware interactive perception
Nesne farkındalıklı etkileşimli algılama
ÇAĞATAY KOÇ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SANEM SARIEL UZER
PROF. DR. SİNAN KALKAN