Geri Dön

Hierarchical reinforcement learning on non-stationary environments

Devingen ortamlarda sıradüzensel pekiştirmeli öğrenme

  1. Tez No: 390690
  2. Yazar: YİĞİT EFE YÜCESOY
  3. Danışmanlar: DOÇ. DR. MUSTAFA BORAHAN TÜMER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

Pekiştirmeli Öğrenme (PÖ), bir etmenin belirli bir ortam ile bulunduğu etkileşimler sonucunda aldığı ödül veya cezaya göre öğrenmenin gerçekleştiği davranışsal öğrenme tekniğidir. Etmenin yaptığı etkileşim sonucunda ortamdan, ödül (veya ceza) ve etmenin bulunduğu yeni durumu olmak üzere iki gözlem yapılır. Etmenin amacı, gerçekleştirdiği eylemler ile alınan ödüllerin toplamını olabildiğince düzeye çıkaran davranış modelini yani politikayı bulmaktır. Klasik PÖ yaklaşımı ortamın durağan olduğunu varsayımından yola çıkar. Oysa genel olarak devingen ortamları içeren gerçek uygulamalarda bu varsayım geçerli değildir. Bu yaklaşımla geliştirilmiş PÖ algoritmaları arasında, ortamın devingenliğine uyum sağlayanlar, bunu ancak önceden kazanılan deneyimi yitirerek (unutarak) yapabilirler. Fakat bu yaklaşım ortamın önceki durumunun yinelenmesi durumunda öğrenilmiş ama unutulmuş deneyimin yeniden öğrenilmesini zorunlu kılar. Pekiştirmeli Öğrenme-İçerik Algılama (PÖ-İA) tekniği; etmenin, ortamda oluşan değişimin algılayabilmesi ve buna uygun olarak ortamın her bir durumu için farklı parçalı modeller oluşturmasını sağlar. Böylece kazanılan deneyimler saklanıp uygun koşullar sağlandığında yine kullanılabilir. Her bir parçalı model için, ortamın o andaki durumunu ne kadar iyi yansıttığını belirleyen bir nitelik ölçütü hesaplanır ve bu değere göre bu modellerden hangisinin etkin olacağı kararlaştırılır veya bütün değerlerin bir eşik değerinin altında kalması durumunda, diğer bir deyişle hiç bir modelin ortamı yeterince doğru ifade edememesi durumunda yeni bir parçalı model oluşturulur. Bunun yanında, devingen bir ortamda PÖ-İA tarafından oluşturulan her bir parçalı model, birbirinden ayrı problemler olarak ele alınır; bu nedenle ortam büyüdükçe problemin çözülmesi daha da zorlaşır. Bu zorluğu aşabilmek için PÖ-İA yaklaşımının başarımı sıradüzensel PÖ (SPÖ) öğrenme kullanılarak iyileştirilebilir. Sıradüzensel yapı sayesinde problem daha basit alt problemlere bölünebilir. Bulunan alt problemler kendi çözümlerine sahip, zamanda uzatılmış eylemlere veya becerilere dönüştürülür. Böylece ana problem bu yeteneklerin kullanılması ile çok daha hızlı çözülebilmektedir. Bu çalışmada, devingen ortamda SPÖden yararlanan, tümüyle kendi kendine bir öğrenme tekniği sunulmuş ve en iyi çözümün bulunmasını hızlandırmak için PÖ-İA tekniğine sıradüzensel yapının nasıl tümleneceği gösterilmiştir. Sıradüzensel PÖ-İA tekniğinin klasik PÖ-İA yaklaşımına üstünlüğünü göstermek amacıyla eğitim amaçlı bir uygulama örneği üzerinde, farklı ortam boyutlarıyla deneyler yapılmış ve sonuçları sunulmuştur.

Özet (Çeviri)

Reinforcement Learning (RL) is a learning paradigm from the interaction of an agent with an environment where the agent makes two observations: an immediate reward that characterizes a crisp or smooth degree of how favorably the agent finds the action and sometimes a full, but most probably a partial representation of the environment's state. The agent, by repetitively executing this action-response loop, seeks to attain a goal state in an attempt to accrue the maximum total reward; a remark that specifies both the concept of a“better”policy and the way the goal state should be defined. In the above setting, the environment is assumed stationary which is usually considered to be an optimistic assumption in the context of real world problems. Classical RL approaches are able to adapt to a new state of the environment with a penalty of forgetting previous condition of the environment which must be learned all over again in case of the same condition emerges. Reinforcement Learning-Context Detection (RL-CD) is a technique helps determining changes of the environment's nature which provides constructing different partial models for every condition of the environment. For each partial model a prediction quality evaluated continuously to decide which partial model to be activated or to create a new partial model when there is no better choice. On the other hand, on a dynamic environment partial models created by RL-CD are handled as distinct problems. On a large dynamic environment finding the optimum policy becomes challenging. In order to overcome this problem, RL-CD can be enhanced by implementing Hierarchical Reinforcement Learning (HRL) which accelerates the convergence to the optimum policy. Once the problem divided into smaller tasks and the optimum policy can be discovered by using the solutions of these smaller tasks. In this study we propose an autonomous agent that learns a dynamic environment by taking advantage of HRL and show how the hierarchical structure can be integrated into RL-CD to speed up the convergence of the optimum policy. Effectiveness of hierarchical RL-CD is compared with classical RL-CD on a grid world problem with various environment sizes.

Benzer Tezler

  1. Hierarchical reinforcement learning in complex wargame environments

    Kompleks savaş oyunu ortamlarında hiyerarşik pekiştirmeli öğrenme

    KUBİLAY KAĞAN KÖMÜRCÜ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Astronomi ve Uzay Bilimleriİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NAZIM KEMAL ÜRE

  2. Development of an autonomous sailor: An application of hierarchical reinforcement learning to sailing

    Yelken yapmayı öğrenen sanal etmenlerin pekiştirmeli öğrenme yöntemleri kullanılarak benzetim ortamındaki eğitimi

    HÜSEYİN ŞENCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BORAHAN TÜMER

  3. Reinforcement learning in fighting games

    Dövüş oyunlarında pekiştirmeli öğrenme

    MUHAMMET SADIK UĞURSOY

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. SANEM SARIEL UZER

  4. Hiyerarşik başlangıç pozisyonlu derin Q-ağı algoritması ile mobil robot uygulaması

    Mobile robot application with hierarchical start position deep Q-network algorithm

    EMRE ERKAN

    Doktora

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik MühendisliğiDicle Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMET ALİ ARSERİM

  5. Hierarchical nevro-fuzzy controller for call admission control in ATM networks

    Başlık çevirisi yok

    AMER CATOVIC

    Yüksek Lisans

    İngilizce

    İngilizce

    1999

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜNHAN DÜNDAR

    DOÇ. DR. SEMA OKTUĞ