Prioritized experience deep deterministic policy gradient method for dynamic systems

Dinamik sistemler için öncelikli deneyimli derin deterministik politika gradyan yöntemi

PDF İndir

Tez No: 566186
Yazar: SERHAT EMRE CEBECİ
Danışmanlar: DOÇ. DR. AHMET ONAT
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mekatronik Mühendisliği, Computer Engineering and Computer Science and Control, Mechatronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 47

Özet

Bu çalışmada, pekiştirmeli öğrenme yoluyla dinamik sistemlerin kontrolünü öğrenme problemi ele alınmıştır. Dinamik sistemlerin kontrolünün öğrenmesi hususunda iki önemli problem vardır: ilintili örnek uzay ve çok boyutluluğun laneti: İlk problem, öğrenmek için kullanılan ardışık örneklerin, birbiriyle ilintili olmasından dolayı dinamik sistem kontrolünü öğrenmek için yeterli zengin veri setini sunamaması anlamına gelmektedir. İkinci problemse, büyük sayıda durum boyutuna sahip dinamik sistemler için durum uzayını niceliklerine ayırarak betimleme yaparak öğrenmek, öğrenilmesi gereken durum sayısını çok artıracağı için, öğrenmenin imkansız veyahut çok zor hale gelmesi anlamına gelir. Son zamanlarda, bu iki problem, güncel olan en iyi çalışma olan Derin Deterministik Politika Gradyan (DDPG) yoluyla çözülmeye çalışılmıştır. Bu çalışmada, Derin Deterministik Politika Gradyan yönteminin örnekleme yöntemini daha verimli bir yol olarak, Öncelikli Deneyimli Derin Deterministik Politika Gradyanı yöntemi öne sürülmüştür. Bu yöntem Derin Deterministik Politika Gradyanı yöntemine, Öncelikli Deneyim Tekrarı (Prioritized Experience Replay) yöntemindeki örnekleme yönteminin entegrasyonu olarak düşünülebilir. Bu yöntem ile, öğrenmenin her deneyimden eşit derece olmasının yerine, hatalı olan deneyimleri tekrar tekrar örnekleyerek, daha verimli öğrenmenin sağlanması amaçlanmıştır. Öncelikli Deneyimli Derin Deterministik Politika Gradyanı (PE-DDPG) yöntemi öne sürülmüş olup, bu yöntem OpenAI Gym aracındaki Ters Sarkaç problemi üzerinde test edilmiştir. Sonuçlar göstermektedir ki, önerilen yöntem öğrenme zamanını kısaltmış ve öğrenme sırasındaki varyansı da düşürerek daha kararlı bir öğrenme süreci sağlamıştır.

Özet (Çeviri)

In this thesis, the problem of learning to control a dynamic system through reinforcement learning is taken up. There are two important problems in learning to control dynamic systems under this framework: correlated sample space and curse of dimensionality: The first problem means that samples sequentially taken from the plant are correlated, and fail to provide a rich data set to learn from. The second problem means that plants with a large state dimension are untractable if states are quantized for the learning algorithm. Recently, these problems have been attacked by state-of-the-art algorithm called Deep Deterministic Policy Gradient method (DDPG). In this thesis, we propose a new algorithm Prioritized Experience DDPG (PE-DDPG) that improves the sample efficiency of DDPG, through a Prioritized Experience Replay mechanism integrated into the original DDPG. It allows the agent experience some samples more frequently depending on their novelty. PE-DDPG algorithm is tested on OpenAI Gym's Inverted Pendulum task. The results of experiment show that the proposed algorithm can reduce training time and it has lower variance which implies more stable learning process.

Benzer Tezler

Tez No
761998
Novel experience replay mechanisms to improve the performance of the deep deterministic policy gradients algorithms
Yeni tecrübe tekrarı mekanizmalarıyla derin deterministik politika gradyanı algoritmalarının performansını artırma
DOĞAN CAN ÇİÇEK
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliği İhsan Doğramacı Bilkent Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
Tez No
712817
Order dispatching via deep reinforcement learning
Başlık çevirisi yok
ERAY MERT KAVUK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE TOSUN KÜHN
Tez No
892602
Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms
Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri
FURKAN BURAK MUTLU
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliği İhsan Doğramacı Bilkent Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
PROF. DR. SİNAN GEZİCİ
DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ
Tez No
828191
Novel deep reinforcement learning algorithms for continuous control
Sürekli kontrol için yeni derin pekiştirmeli öğrenme algoritmaları
BATURAY SAĞLAM
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliği İhsan Doğramacı Bilkent Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. SÜLEYMAN SERDAR KOZAT
Tez No
584975
Playing the Turkish tile game okey with deep reinforcement learning
Türk taş oyunu okeyi derin pekiştirmeli öğrenmeyle oynamak
İLKE UYGUN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET ONUR DURAHİM

Geri Dön