Geri Dön

Novel deep reinforcement learning algorithms for continuous control

Sürekli kontrol için yeni derin pekiştirmeli öğrenme algoritmaları

  1. Tez No: 828191
  2. Yazar: BATURAY SAĞLAM
  3. Danışmanlar: PROF. SÜLEYMAN SERDAR KOZAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka ve Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 100

Özet

Sürekli kontrol altında derin pekiştirmeli öğrenme algoritmaları, ham duyusal girdilerden doğrudan karmaşık ve yüksek boyutlu politikalar öğrenebilme kapasitesine sahiptir. Ancak, genellikle örnekleme verimliliği ve keşif ile ilgili zorluklarla karşılaşırlar, bu da gerçek dünya görevleri için uygulanabilinirliklerini sınırlar. Bu bağlamda, sürekli kontrol altında derin pekiştirmeli öğrenme algoritmalarının performansını geliştiren iki yeni teknik sunuyoruz. İlk teknik, aktör-eleştirmen metotlarında deneyleri örneklemek için yeni bir yaklaşım sunmaktadır. Öncelikli Deneyim Tekrar algoritması tarafından neden olunan kararsızlık ve ayrışmayı önlemek ve stabilize etmek için özel olarak tasarlanan tekniğimiz, zamansal-fark hatası ve politika gradyanı arasında denge sağlayarak hem aktör hem de eleştirmen ağlarını etkili bir şekilde eğitebilmektedir. Teorik analizler ve deneysel çalışmalar, yöntemimizin sürekli kontrol altında derin pekiştirmeli öğrenme algoritmalarının performansını iyileştirmede etkili olduğunu göstermektedir. İkinci teknik, içsel motivasyona dayalı yönlendirilmiş bir keşif stratejisini içermektedir. Hayvan motivasyon sistemleri üzerine kurulu kuramlardan esinlenerek ve bunları sürekli kontrol ortamına adapte ederek, stratejimiz, bilgilendirici ve çeşitlilik gösteren keşif davranışları oluşturmada etkinliğini sergilemektedir. Bunun, değer fonksiyonunun hatasını maksimize ederek ve mevcut literatürde bulunan içsel keşif hedeflerini birleştirerek gerçekleştiğini gösteriyoruz. Sunulan yöntemleri çeşitli sürekli kontrol testlerinde değerlendiriyor ve derin pekiştirmeli öğrenmede yeni performans seviyelerine ulaşarak mevcut en iyi yöntemleri geride bıraktığımızı gösteriyoruz.

Özet (Çeviri)

Continuous control deep reinforcement learning (RL) algorithms are capable of learning complex and high-dimensional policies directly from raw sensory inputs. However, they often face challenges related to sample efficiency and exploration, which limit their practicality for real-world applications. In light of this, we introduce two novel techniques that enhance the performance of continuous control deep RL algorithms by refining their experience replay and exploration mechanisms. The first technique introduces a novel framework for sampling experiences in actor-critic methods. Specifically designed to stabilize and prevent divergence caused by Prioritized Experience Replay (PER), our framework effectively trains both actor and critic networks by striking a balance between temporal-difference error and policy gradient. Through both theoretical analysis and empirical investigations, we demonstrate that our framework is effective in improving the performance of continuous control deep RL algorithms. The second technique encompasses a directed exploration strategy that relies on intrinsic motivation. Drawing inspiration from established theories on animal motivational systems and adapting them to the actor-critic setting, our strategy showcases its effectiveness by generating exploratory behaviors that are both informative and diverse. It achieves this by maximizing the error of the value function and unifying the existing intrinsic exploration objectives in the literature. We evaluate the presented methods on various continuous control benchmarks and demonstrate that they outperform state-of-the-art methods while achieving new levels of performance in deep RL.

Benzer Tezler

  1. Transfer learning for continuous control

    Sürekli kontrol için öğrenme aktarımı

    SUZAN ECE ADA

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. HÜSEYİN LEVENT AKIN

  2. Deep reinforcement learning for partially observable markov decision processes

    Kısmi gözlemlenebilir markov karar süreçleri için derin pekiştirmeli öğrenme

    MEHMET HAKLIDIR

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. HAKAN TEMELTAŞ

  3. Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms

    Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri

    FURKAN BURAK MUTLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN SERDAR KOZAT

    PROF. DR. SİNAN GEZİCİ

    DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ

  4. Deep reinforcement learning approach for trading automation in the stock market

    Hisse senetlerinde işlem otomasyonu için derin güçlendirme öğrenme yaklaşımı

    TAYLAN KABBANİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Veri Bilimi Ana Bilim Dalı

    Prof. Dr. EKREM DUMAN

  5. Object-aware interactive perception

    Nesne farkındalıklı etkileşimli algılama

    ÇAĞATAY KOÇ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SANEM SARIEL UZER

    PROF. DR. SİNAN KALKAN