Hierarchical reinforcement learning on non-stationary environments
Devingen ortamlarda sıradüzensel pekiştirmeli öğrenme
- Tez No: 390690
- Danışmanlar: DOÇ. DR. MUSTAFA BORAHAN TÜMER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 63
Özet
Pekiştirmeli Öğrenme (PÖ), bir etmenin belirli bir ortam ile bulunduğu etkileşimler sonucunda aldığı ödül veya cezaya göre öğrenmenin gerçekleştiği davranışsal öğrenme tekniğidir. Etmenin yaptığı etkileşim sonucunda ortamdan, ödül (veya ceza) ve etmenin bulunduğu yeni durumu olmak üzere iki gözlem yapılır. Etmenin amacı, gerçekleştirdiği eylemler ile alınan ödüllerin toplamını olabildiğince düzeye çıkaran davranış modelini yani politikayı bulmaktır. Klasik PÖ yaklaşımı ortamın durağan olduğunu varsayımından yola çıkar. Oysa genel olarak devingen ortamları içeren gerçek uygulamalarda bu varsayım geçerli değildir. Bu yaklaşımla geliştirilmiş PÖ algoritmaları arasında, ortamın devingenliğine uyum sağlayanlar, bunu ancak önceden kazanılan deneyimi yitirerek (unutarak) yapabilirler. Fakat bu yaklaşım ortamın önceki durumunun yinelenmesi durumunda öğrenilmiş ama unutulmuş deneyimin yeniden öğrenilmesini zorunlu kılar. Pekiştirmeli Öğrenme-İçerik Algılama (PÖ-İA) tekniği; etmenin, ortamda oluşan değişimin algılayabilmesi ve buna uygun olarak ortamın her bir durumu için farklı parçalı modeller oluşturmasını sağlar. Böylece kazanılan deneyimler saklanıp uygun koşullar sağlandığında yine kullanılabilir. Her bir parçalı model için, ortamın o andaki durumunu ne kadar iyi yansıttığını belirleyen bir nitelik ölçütü hesaplanır ve bu değere göre bu modellerden hangisinin etkin olacağı kararlaştırılır veya bütün değerlerin bir eşik değerinin altında kalması durumunda, diğer bir deyişle hiç bir modelin ortamı yeterince doğru ifade edememesi durumunda yeni bir parçalı model oluşturulur. Bunun yanında, devingen bir ortamda PÖ-İA tarafından oluşturulan her bir parçalı model, birbirinden ayrı problemler olarak ele alınır; bu nedenle ortam büyüdükçe problemin çözülmesi daha da zorlaşır. Bu zorluğu aşabilmek için PÖ-İA yaklaşımının başarımı sıradüzensel PÖ (SPÖ) öğrenme kullanılarak iyileştirilebilir. Sıradüzensel yapı sayesinde problem daha basit alt problemlere bölünebilir. Bulunan alt problemler kendi çözümlerine sahip, zamanda uzatılmış eylemlere veya becerilere dönüştürülür. Böylece ana problem bu yeteneklerin kullanılması ile çok daha hızlı çözülebilmektedir. Bu çalışmada, devingen ortamda SPÖden yararlanan, tümüyle kendi kendine bir öğrenme tekniği sunulmuş ve en iyi çözümün bulunmasını hızlandırmak için PÖ-İA tekniğine sıradüzensel yapının nasıl tümleneceği gösterilmiştir. Sıradüzensel PÖ-İA tekniğinin klasik PÖ-İA yaklaşımına üstünlüğünü göstermek amacıyla eğitim amaçlı bir uygulama örneği üzerinde, farklı ortam boyutlarıyla deneyler yapılmış ve sonuçları sunulmuştur.
Özet (Çeviri)
Reinforcement Learning (RL) is a learning paradigm from the interaction of an agent with an environment where the agent makes two observations: an immediate reward that characterizes a crisp or smooth degree of how favorably the agent finds the action and sometimes a full, but most probably a partial representation of the environment's state. The agent, by repetitively executing this action-response loop, seeks to attain a goal state in an attempt to accrue the maximum total reward; a remark that specifies both the concept of a“better”policy and the way the goal state should be defined. In the above setting, the environment is assumed stationary which is usually considered to be an optimistic assumption in the context of real world problems. Classical RL approaches are able to adapt to a new state of the environment with a penalty of forgetting previous condition of the environment which must be learned all over again in case of the same condition emerges. Reinforcement Learning-Context Detection (RL-CD) is a technique helps determining changes of the environment's nature which provides constructing different partial models for every condition of the environment. For each partial model a prediction quality evaluated continuously to decide which partial model to be activated or to create a new partial model when there is no better choice. On the other hand, on a dynamic environment partial models created by RL-CD are handled as distinct problems. On a large dynamic environment finding the optimum policy becomes challenging. In order to overcome this problem, RL-CD can be enhanced by implementing Hierarchical Reinforcement Learning (HRL) which accelerates the convergence to the optimum policy. Once the problem divided into smaller tasks and the optimum policy can be discovered by using the solutions of these smaller tasks. In this study we propose an autonomous agent that learns a dynamic environment by taking advantage of HRL and show how the hierarchical structure can be integrated into RL-CD to speed up the convergence of the optimum policy. Effectiveness of hierarchical RL-CD is compared with classical RL-CD on a grid world problem with various environment sizes.
Benzer Tezler
- Hierarchical reinforcement learning in complex wargame environments
Kompleks savaş oyunu ortamlarında hiyerarşik pekiştirmeli öğrenme
KUBİLAY KAĞAN KÖMÜRCÜ
Yüksek Lisans
İngilizce
2024
Astronomi ve Uzay Bilimleriİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
- Development of an autonomous sailor: An application of hierarchical reinforcement learning to sailing
Yelken yapmayı öğrenen sanal etmenlerin pekiştirmeli öğrenme yöntemleri kullanılarak benzetim ortamındaki eğitimi
HÜSEYİN ŞENCAN
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BORAHAN TÜMER
- Reinforcement learning in fighting games
Dövüş oyunlarında pekiştirmeli öğrenme
MUHAMMET SADIK UĞURSOY
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
DOÇ. DR. SANEM SARIEL UZER
- Hiyerarşik başlangıç pozisyonlu derin Q-ağı algoritması ile mobil robot uygulaması
Mobile robot application with hierarchical start position deep Q-network algorithm
EMRE ERKAN
Doktora
Türkçe
2022
Elektrik ve Elektronik MühendisliğiDicle ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMET ALİ ARSERİM
- Hierarchical nevro-fuzzy controller for call admission control in ATM networks
Başlık çevirisi yok
AMER CATOVIC
Yüksek Lisans
İngilizce
1999
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜNHAN DÜNDAR
DOÇ. DR. SEMA OKTUĞ