Improving sample efficiency in reinforcement learning control using autoencoders
Pekiştirmeli öğrenme kontrolde otokodlayıcılar ile örnekleme verimliliğini arttırma
- Tez No: 894523
- Danışmanlar: PROF. DR. MUSTAFA DOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Kontrol ve Otomasyon Mühendisliği Bilim Dalı
- Sayfa Sayısı: 101
Özet
Bu tez, pekiştirmeli öğrenme kontrolünün örnek verimliliğini artırmak için otomatik kodlayıcıları kullanma konusunu ele almaktadır. Bu yaklaşım, denetimsiz öğrenme (otomatik kodlayıcılar) ve pekiştirmeli öğrenme tekniklerini birleştirerek öğrenme sürecini geliştirmeyi amaçlamaktadır. Pekiştirmeli öğrenme bir ajanın çevre veya bir sistemle etkileşime geçerek sıralı karar vermesini öğrenmesini sağlayan makine öğrenmesi tekniklerinin alt kümesidir. Bu ajanlar optimal karar ve aksiyonlarını, çevre ile etkileşime geçtikten sonra biriken ödüllerini maksimize ederek öğrenirler. Bu kavram, oyun oynamada, kaynak yönetiminde ve kontrol görevlerinde dahil olmak üzere birçok alanda özellikle etkili olmuştur. Pekiştirmeli öğrenme (RL), model öngörülü kontrol (MPC) ve optimal kontrol gibi geleneksel kontrol yöntemlerine kıyasla birkaç avantaj sunar. İlk olarak, RL, çevre ile etkileşimler aracılığıyla doğrudan kontrol politikalarını öğrenebilir, bu da bilinmeyen veya karmaşık dinamiklere sahip problemler için uygundur. Bu, genellikle sistem dinamiklerinin doğru modellerine dayanan model tabanlı yöntemlerle karşılaştırıldığında farklılık gösterir. RL, genellikle geleneksel kontrol yöntemleri için zorlu olan yüksek boyutlu durum ve eylem alanlarını ele alabilir. Derin sinir ağları gibi fonksiyon yaklaşım tekniklerinin kullanımı, RL'nin büyük durum ve eylem alanlarına sahip karmaşık kontrol problemlerine ölçeklenmesine olanak tanır. Ayrıca, RL çevre veya sistem dinamiklerindeki değişikliklere uyum sağlayabilir ve bu da kararlı olmayan veya belirsiz dinamiklere sahip kontrol problemleri için uygundur. Pekiştirmeli öğrenmenin avantajları göz önüne alındığında kontrol sistemlerinde bu yöntemi kullanmak çekici gelebilir. Ancak, dinamik sistem kontrolüne pekiştirmeli öğrenmenin uygulanmasında karşılaşılan önemli bir zorluk, örneklem verimliliği sorunudur. RL yöntemleri genellikle etkili bir politika öğrenmek için ortamla büyük bir etkileşim sayısı gerektirir. Bu durum özellikle her etkileşimin maliyetli, zaman alıcı ve riskli olabileceği dinamik sistemlerde sorun oluşturur. Örnekleme verimliliği, RL ajanlarının çevreyle sınırlı sayıda etkileşimden etkili politikalar öğrenebilme yeteneğini ifade etmektedir. Gerçek dünya uygulamalarında, veri toplama süreci zaman alıcı, maliyetli ve hatta tehlikeli olabilmektedir. Bu nedenle, sınırlı sayıda örneklemden etkili bir şekilde öğrenme yapabilen algoritmalara ihtiyaç duyulmaktadır. Bu çalışma, örnekleme verimliliğini iyileştirmek için derin otokodlayıcılar olarak adlandırılan bir tür denetimsiz öğrenme modelin potansiyelini incelemektedir. Derin kodlayıcılar, yüksek boyutlu durum uzaylarını daha düşük boyutlu bir gizli uzaya etkili bir şekilde sıkıştırabilme yeteneğine sahiptir. Bu yetenek, RL ajanları için öğrenme sürecini basitleştirebilir. Araştırmanın hedefleri, RL kontrol problemleri için derin kodlayıcılar geliştirmek ve uygulamak, örnekleme verimliliğini iyileştirmedeki etkinliklerini araştırmak, OpenAI Gym ortamlarında kapsamlı deneyler yapmak ve derin kodlayıcıların RL kontrol problemlerindeki avantajlarını ve sınırlamalarını anlamaktır. Mevcut yaklaşımlar incelendiğinde model tabanlı RL ve Bayes Tabanlı RL, daha az örnekle daha iyi kararlar vermek için önceden bilgiyi ve belirsizlik tahminlerini kullanmaktadır. Öncelikli deney tekrarlaması ve geriye dönük deney tekrarlaması gibi teknikler, geçmiş deneyimlerden öğrenme sürecini geliştirmeye odaklanmaktadır. Ancak, karmaşık ve dinamik ortamlarda yüksek örnek verimliliğine ulaşmak hala zorlu bir sorundur. Otomatik kodlayıcılar, verimli temsiller öğrenme yetenekleri sayesinde, RL'nin örnek verimliliğini artırmak için son zamanlarda ilgi görmektedir. Bununla birlikte, dinamik sistem kontrolü için RL yöntemlerine entegrasyonları hala yeterince araştırılmamış bir problemdir. Ayrıca, çoğu uygulama sadece gizli alanı kullanırken, bu yaklaşım bilgi kaybına, gizli alanın yorumlanmasında zorluğa, dinamik ortamların yönetilmesinde zorluğa ve güncellenmeyen temsillemeye neden olabilir. Bu çalışmada, önerilen yaklaşım, öğrenme sırasında hem durumları hem de gizli alanlarını kullanarak bu sorunları aşmaktadır. Öncelikle, gürültüyü azaltan sözleşmeli bir otomatik kodlayıcı, ortamın rastgele örneklenmiş durumları kullanılarak eğitilir. Bu otomatik kodlayıcı, giriş verilerini daha düşük boyutlu bir gizli uzaya kodlar ve daha sonra bu gizli temsilleri orijinal giriş verilerini yeniden oluşturmak için kullanır. Otomatik kodlayıcı, giriş verilerindeki gürültüyü filtrelemek ve verilerin önemli özelliklerini öğrenmek için kullanılır. Daha sonra, derin pekiştirmeli öğrenme eğitimi sırasında, durumlar önceden eğitilmiş bir kodlayıcıdan kodlanır ve gizli durumlar elde edilir. Bu gizli durumlar, mevcut durumlarla birleştirilerek artırılmış bir durum vektörü oluşturulur. Bu artırılmış durum vektörü, DQN ağına giriş olarak verilir ve bu ağ, bu girişleri kullanarak bir eylem politikası öğrenir. Örneğin, temel DQN'de, Q ağı durum vektörünü [s] giriş olarak alırken, önerilen algoritmada Q ağı [s, z] vektörünü alır, burada z, daha önceden eğitilen kodlayıcı kullanarak kodlanmış durumlardır. Bu, DQN'nin durum hakkında daha fazla bilgiye sahip olmasını ve bu bilgiyi daha etkili bir politika öğrenmek için kullanmasını sağlar. Bu çalışmada, bir otomatik kodlayıcı (AE) modeli, OpenAI Gym Lunar Lander oyununun durumları üzerinde eğitilir. Lunar Lander, bir uzay aracının Ay'a inişini simüle eden bir oyun olup, oyuncunun uzay aracını güvenli bir şekilde iniş yapacak şekilde kontrol etmesi gerekmektedir. AE modeli, Lunar Lander'ın durumlarını gizli bir uzayda temsil eder ve bu gizli temsiller, DQN ağına ek bilgi sağlar. Bu, DQN'nin daha genel bir politika öğrenmesine ve daha hızlı bir şekilde yakınsamasına yardımcı olur. Bu çalışmada ilk olarak çalışmanın motivasyonu ve amacı ile kapsamı ve kısıtlamaları anlatılmıştır. Daha sonra pekiştirmeli öğrenme, pekiştirmeli öğrenmede örnekleme verimliliğini arttırma ve pekiştirmeli öğrenmede otokodlayıcıların kullanımı ile ilgili literatür taraması sunulmuştur. Daha sonrasında pekiştirmeli öğrenme ve otokodlayıcılar ile ilgili matematiksel temeller verilmiştir. Daha sonra çalışmada kullanılan yöntembilim ve uygulaması anlatılıp çıkan sonuçlar irdelenmiş ve çalışma netice ile bitirilmiştir. Bu çalışma, derin kodlayıcıların RL kontrol problemlerinde örnekleme verimliliğini artırma potansiyeline dair önemli bir anlayış sağlamaktadır. Yapılan deneyler, derin kodlayıcıların RL ajanlarının daha az sayıda örnek kullanarak etkili politikalar öğrenebilme yeteneğini artırabileceğini göstermiştir. Ancak, derin kodlayıcıların performansı, hiperparametrelerin, model yapılarının ve eğitim prosedürlerinin seçimine duyarlı olabilir. Bu nedenle, optimal yapılandırmaların belirlenmesi ve genelleştirilebilirliğin sınırları dikkate alınmalıdır. Ayrıca, derin kodlayıcıların diğer RL paradigmalarına uygulanabilirliği ve gerçek dünya dinamik sistemlerindeki performansı da dikkate alınmalıdır. Bununla birlikte, derin kodlayıcılar, RL kontrol problemlerinde örnekleme verimliliğini iyileştirmek için umut vadeden bir yöntem olarak ortaya çıkmaktadır ve gelecekteki araştırmalar için bir temel sağlamaktadır. Bu çalışma, RL ve kontrol alanındaki örnekleme verimliliği sorunlarına yönelik pratik çözümleri ilerletme potansiyeline sahip olup, derin kodlayıcıların güçlü yönlerine dayanan yeni tekniklerin ve metodolojilerin geliştirilmesine yönelik öneriler sunmaktadır.
Özet (Çeviri)
Through the use of autoencoders, this study proposes a novel method for enhancing the sample effectiveness of reinforcement learning (RL) control of dynamic systems. The primary goal of this study is to determine how well autoencoders can facilitate learning and enhance the resultant policies in RL control situations. The literature review provides an overview of the existing approaches to improving sample efficiency in RL. Model-based RL and Bayesian RL leverage prior knowledge and uncertainty estimates to make better decisions with fewer samples. Techniques such as prioritized experience replay and hindsight experience replay focus on improving the learning process from past experiences. Despite these advances, achieving high sample efficiency in complex and dynamic environments remains challenging. Autoencoders, with their ability to learn efficient representations, have recently gained interest in enhancing the sample efficiency of RL. However, their integration into RL methods for dynamic system control is an underexplored problem. Also most of the applications use only latent space while learning. This approach can cause loss of information, difficulty in interpreting latent space, difficulty in handling dynamic environments and outdated representation. In this study, proposed novel approach overcomes these problems using both states and their latent space while learning. The methodology consists of two main steps. First, a denoising-contractive autoencoder is developed and implemented for RL control problems, with a specific focus on its applicability to state representation and feature extraction. The autoencoder is pretrained using uniformly randomly selected states from the environment. The states are augmented with latent states generated by the encoder, providing additional information to the RL agent. The second step involves training a Deep Reinforcement Learning algorithm using the augmented states generated by the autoencoder. The algorithm is compared against a baseline DQN algorithm in the LunarLander environment, where observations from the environment are subject to zero mean Gaussian noise with standard deviation of 0.01. Different encoder architectures are explored and evaluated in terms of learning performance. The outcomes show that, in terms of average reward and speed to high rewards, the suggested algorithm consistently outperforms the baseline method. The experiments conducted on the OpenAI Gym's LunarLander environment provide valuable insights into the advantages of using autoencoders for RL control problems. The findings highlight the ability of autoencoders to improve the sample efficiency of RL algorithms by providing enhanced state representations and feature extraction capabilities. The results of this research contribute to the field of reinforcement learning and control by demonstrating the potential of autoencoders in addressing the challenges of sample efficiency in dynamic systems. The findings also encourage further exploration of different encoder architectures and their impact on RL performance. Overall, this study provides a comprehensive investigation into the effectiveness of autoencoders in improving sample efficiency in RL control problems. The proposed approach offers a promising avenue for future research and development of algorithms that leverage autoencoders to enhance the learning process in dynamic systems.
Benzer Tezler
- Imagining alternative actions for improved sample efficiency during policy learning
Politika öğrenimi sırasında artırılmış örnek verimliliği için alternatif eylemlerin hayal edilmesi
MUHAMMET HATİPOĞLU
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE UĞUR
- A comparative study of nonlinear model predictive control and reinforcement learning for path tracking
Yol izleme için doğrusal olmayan model öngörülü kontrol ve pekiştirmeli öğrenmenin karşılaştırmalı çalışması
GAMZE TÜRKMEN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. OVSANNA SETA ESTRADA
- Data efficient offline reinforcement learning & reinforcement learning with imitation learning applications to autonomous driving and robotics
Veri verimli çevrimdışı pekiştirmeli öğrenme & taklit öğrenmeyle pekiştirmeli öğrenme otonom sürüş ve robotik uygulamaları
FEYZA NUR EKSEN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
- Modifiye q-öğrenme yöntemi ile elektrik dağıtım sistemlerinin kendi kendini iyileştirme uygulaması
Self healing of electrical distribution systems by using modified q-learning method
BEYZA NUR DİLBER
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA BAĞRIYANIK
- Addressing parametric uncertainties in autonomous cargo ship heading control
Otonom kargo gemisi yön kontrolündeki parametrik belirsizliklerin ele alınması
AHMAD IRHAM JAMBAK
Yüksek Lisans
İngilizce
2023
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. İSMAİL BAYEZİT