Hierarchical reinforcement learning on non-stationary environments

Devingen ortamlarda sıradüzensel pekiştirmeli öğrenme

PDF İndir

Tez No: 390690
Yazar: YİĞİT EFE YÜCESOY
Danışmanlar: DOÇ. DR. MUSTAFA BORAHAN TÜMER
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2015
Dil: İngilizce
Üniversite: Marmara Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 63

Özet

Pekiştirmeli Öğrenme (PÖ), bir etmenin belirli bir ortam ile bulunduğu etkileşimler sonucunda aldığı ödül veya cezaya göre öğrenmenin gerçekleştiği davranışsal öğrenme tekniğidir. Etmenin yaptığı etkileşim sonucunda ortamdan, ödül (veya ceza) ve etmenin bulunduğu yeni durumu olmak üzere iki gözlem yapılır. Etmenin amacı, gerçekleştirdiği eylemler ile alınan ödüllerin toplamını olabildiğince düzeye çıkaran davranış modelini yani politikayı bulmaktır. Klasik PÖ yaklaşımı ortamın durağan olduğunu varsayımından yola çıkar. Oysa genel olarak devingen ortamları içeren gerçek uygulamalarda bu varsayım geçerli değildir. Bu yaklaşımla geliştirilmiş PÖ algoritmaları arasında, ortamın devingenliğine uyum sağlayanlar, bunu ancak önceden kazanılan deneyimi yitirerek (unutarak) yapabilirler. Fakat bu yaklaşım ortamın önceki durumunun yinelenmesi durumunda öğrenilmiş ama unutulmuş deneyimin yeniden öğrenilmesini zorunlu kılar. Pekiştirmeli Öğrenme-İçerik Algılama (PÖ-İA) tekniği; etmenin, ortamda oluşan değişimin algılayabilmesi ve buna uygun olarak ortamın her bir durumu için farklı parçalı modeller oluşturmasını sağlar. Böylece kazanılan deneyimler saklanıp uygun koşullar sağlandığında yine kullanılabilir. Her bir parçalı model için, ortamın o andaki durumunu ne kadar iyi yansıttığını belirleyen bir nitelik ölçütü hesaplanır ve bu değere göre bu modellerden hangisinin etkin olacağı kararlaştırılır veya bütün değerlerin bir eşik değerinin altında kalması durumunda, diğer bir deyişle hiç bir modelin ortamı yeterince doğru ifade edememesi durumunda yeni bir parçalı model oluşturulur. Bunun yanında, devingen bir ortamda PÖ-İA tarafından oluşturulan her bir parçalı model, birbirinden ayrı problemler olarak ele alınır; bu nedenle ortam büyüdükçe problemin çözülmesi daha da zorlaşır. Bu zorluğu aşabilmek için PÖ-İA yaklaşımının başarımı sıradüzensel PÖ (SPÖ) öğrenme kullanılarak iyileştirilebilir. Sıradüzensel yapı sayesinde problem daha basit alt problemlere bölünebilir. Bulunan alt problemler kendi çözümlerine sahip, zamanda uzatılmış eylemlere veya becerilere dönüştürülür. Böylece ana problem bu yeteneklerin kullanılması ile çok daha hızlı çözülebilmektedir. Bu çalışmada, devingen ortamda SPÖden yararlanan, tümüyle kendi kendine bir öğrenme tekniği sunulmuş ve en iyi çözümün bulunmasını hızlandırmak için PÖ-İA tekniğine sıradüzensel yapının nasıl tümleneceği gösterilmiştir. Sıradüzensel PÖ-İA tekniğinin klasik PÖ-İA yaklaşımına üstünlüğünü göstermek amacıyla eğitim amaçlı bir uygulama örneği üzerinde, farklı ortam boyutlarıyla deneyler yapılmış ve sonuçları sunulmuştur.

Özet (Çeviri)

Reinforcement Learning (RL) is a learning paradigm from the interaction of an agent with an environment where the agent makes two observations: an immediate reward that characterizes a crisp or smooth degree of how favorably the agent finds the action and sometimes a full, but most probably a partial representation of the environment's state. The agent, by repetitively executing this action-response loop, seeks to attain a goal state in an attempt to accrue the maximum total reward; a remark that specifies both the concept of a“better”policy and the way the goal state should be defined. In the above setting, the environment is assumed stationary which is usually considered to be an optimistic assumption in the context of real world problems. Classical RL approaches are able to adapt to a new state of the environment with a penalty of forgetting previous condition of the environment which must be learned all over again in case of the same condition emerges. Reinforcement Learning-Context Detection (RL-CD) is a technique helps determining changes of the environment's nature which provides constructing different partial models for every condition of the environment. For each partial model a prediction quality evaluated continuously to decide which partial model to be activated or to create a new partial model when there is no better choice. On the other hand, on a dynamic environment partial models created by RL-CD are handled as distinct problems. On a large dynamic environment finding the optimum policy becomes challenging. In order to overcome this problem, RL-CD can be enhanced by implementing Hierarchical Reinforcement Learning (HRL) which accelerates the convergence to the optimum policy. Once the problem divided into smaller tasks and the optimum policy can be discovered by using the solutions of these smaller tasks. In this study we propose an autonomous agent that learns a dynamic environment by taking advantage of HRL and show how the hierarchical structure can be integrated into RL-CD to speed up the convergence of the optimum policy. Effectiveness of hierarchical RL-CD is compared with classical RL-CD on a grid world problem with various environment sizes.

Benzer Tezler

Tez No
944874
Multi-agent planning with automated curriculum learning
Otomatik müfredat öğrenmesi ile çoklu ajan planlaması
ONUR AKGÜN
Doktora
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
Tez No
854254
Hierarchical reinforcement learning in complex wargame environments
Kompleks savaş oyunu ortamlarında hiyerarşik pekiştirmeli öğrenme
KUBİLAY KAĞAN KÖMÜRCÜ
Yüksek Lisans
İngilizce
2024
Astronomi ve Uzay Bilimleri İstanbul Teknik Üniversitesi
Uçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
Tez No
935517
Çok ürünlü çok aşamalı tedarik zincirlerinde talep ve temin süresi belirsizliği altında ileri seviye stok yönetimi için yeni bir yaklaşım
A new approach for advanced inventory management under demand and lead time uncertainty in multi product multi echelon supply chains
SENA KESKİN SEVER
Doktora
Türkçe
2025
Endüstri ve Endüstri Mühendisliği Yıldız Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALEV TAŞKIN
Tez No
238790
Development of an autonomous sailor: An application of hierarchical reinforcement learning to sailing
Yelken yapmayı öğrenen sanal etmenlerin pekiştirmeli öğrenme yöntemleri kullanılarak benzetim ortamındaki eğitimi
HÜSEYİN ŞENCAN
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BORAHAN TÜMER
Tez No
714508
Reinforcement learning in fighting games
Dövüş oyunlarında pekiştirmeli öğrenme
MUHAMMET SADIK UĞURSOY
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı
DOÇ. DR. SANEM SARIEL UZER

Geri Dön