Prioritized experience deep deterministic policy gradient method for dynamic systems
Dinamik sistemler için öncelikli deneyimli derin deterministik politika gradyan yöntemi
- Tez No: 566186
- Danışmanlar: DOÇ. DR. AHMET ONAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mekatronik Mühendisliği, Computer Engineering and Computer Science and Control, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 47
Özet
Bu çalışmada, pekiştirmeli öğrenme yoluyla dinamik sistemlerin kontrolünü öğrenme problemi ele alınmıştır. Dinamik sistemlerin kontrolünün öğrenmesi hususunda iki önemli problem vardır: ilintili örnek uzay ve çok boyutluluğun laneti: İlk problem, öğrenmek için kullanılan ardışık örneklerin, birbiriyle ilintili olmasından dolayı dinamik sistem kontrolünü öğrenmek için yeterli zengin veri setini sunamaması anlamına gelmektedir. İkinci problemse, büyük sayıda durum boyutuna sahip dinamik sistemler için durum uzayını niceliklerine ayırarak betimleme yaparak öğrenmek, öğrenilmesi gereken durum sayısını çok artıracağı için, öğrenmenin imkansız veyahut çok zor hale gelmesi anlamına gelir. Son zamanlarda, bu iki problem, güncel olan en iyi çalışma olan Derin Deterministik Politika Gradyan (DDPG) yoluyla çözülmeye çalışılmıştır. Bu çalışmada, Derin Deterministik Politika Gradyan yönteminin örnekleme yöntemini daha verimli bir yol olarak, Öncelikli Deneyimli Derin Deterministik Politika Gradyanı yöntemi öne sürülmüştür. Bu yöntem Derin Deterministik Politika Gradyanı yöntemine, Öncelikli Deneyim Tekrarı (Prioritized Experience Replay) yöntemindeki örnekleme yönteminin entegrasyonu olarak düşünülebilir. Bu yöntem ile, öğrenmenin her deneyimden eşit derece olmasının yerine, hatalı olan deneyimleri tekrar tekrar örnekleyerek, daha verimli öğrenmenin sağlanması amaçlanmıştır. Öncelikli Deneyimli Derin Deterministik Politika Gradyanı (PE-DDPG) yöntemi öne sürülmüş olup, bu yöntem OpenAI Gym aracındaki Ters Sarkaç problemi üzerinde test edilmiştir. Sonuçlar göstermektedir ki, önerilen yöntem öğrenme zamanını kısaltmış ve öğrenme sırasındaki varyansı da düşürerek daha kararlı bir öğrenme süreci sağlamıştır.
Özet (Çeviri)
In this thesis, the problem of learning to control a dynamic system through reinforcement learning is taken up. There are two important problems in learning to control dynamic systems under this framework: correlated sample space and curse of dimensionality: The first problem means that samples sequentially taken from the plant are correlated, and fail to provide a rich data set to learn from. The second problem means that plants with a large state dimension are untractable if states are quantized for the learning algorithm. Recently, these problems have been attacked by state-of-the-art algorithm called Deep Deterministic Policy Gradient method (DDPG). In this thesis, we propose a new algorithm Prioritized Experience DDPG (PE-DDPG) that improves the sample efficiency of DDPG, through a Prioritized Experience Replay mechanism integrated into the original DDPG. It allows the agent experience some samples more frequently depending on their novelty. PE-DDPG algorithm is tested on OpenAI Gym's Inverted Pendulum task. The results of experiment show that the proposed algorithm can reduce training time and it has lower variance which implies more stable learning process.
Benzer Tezler
- Novel experience replay mechanisms to improve the performance of the deep deterministic policy gradients algorithms
Yeni tecrübe tekrarı mekanizmalarıyla derin deterministik politika gradyanı algoritmalarının performansını artırma
DOĞAN CAN ÇİÇEK
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
- Order dispatching via deep reinforcement learning
Başlık çevirisi yok
ERAY MERT KAVUK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE TOSUN KÜHN
- Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms
Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri
FURKAN BURAK MUTLU
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
PROF. DR. SİNAN GEZİCİ
DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ
- Novel deep reinforcement learning algorithms for continuous control
Sürekli kontrol için yeni derin pekiştirmeli öğrenme algoritmaları
BATURAY SAĞLAM
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. SÜLEYMAN SERDAR KOZAT
- Playing the Turkish tile game okey with deep reinforcement learning
Türk taş oyunu okeyi derin pekiştirmeli öğrenmeyle oynamak
İLKE UYGUN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET ONUR DURAHİM