Geri Dön

Reward shaping for efficient exploration and acceleration of learning in reinforcement learning

Pekiştirmeli öğrenmede verimli keşif ve hızlı öğrenme için ödül şekillendirme

  1. Tez No: 745402
  2. Yazar: MELİS İLAYDA BAL
  3. Danışmanlar: PROF. DR. CEM İYİGÜN, PROF. DR. FARUK POLAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yöneylem Araştırması Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 143

Özet

Bir Pekiştirmeli Öğrenme görevinde, öğrenen etmenin, görevi başarıyla tamamlamak için etkileşim süreci sırasında belirsiz çevresi hakkında yararlı bilgileri verimli bir şekilde çıkarması gerekir. Etmen, stratejik keşif sayesinde çevresi hakkında yeterli bilgiyi elde eder ve bu bilgiyi çevresi ile iletişime girerken akıllıca hareket etmek için davranışlarını ayarlamada kullanır. Bu nedenle, verimli keşif, Pekiştirmeli Öğrenme görevlerinin öğrenme verimliliğinde kilit bir rol oynar. Seyrek ödül yapısına sahip Pekiştirmeli Öğrenme ortamlarının gecikmeli geri bildirim doğasına sahip olması nedeniyle öğrenme için gereken zaman, öğrenme verimsizliğinin ana nedeni haline gelir. Bu sorun, özellikle büyük durum ve eylem uzaylarına sahip karmaşık görevlerde daha da şiddetlenir. Görevi ayrıştırmanın veya etmene sık geri bildirim sağlamak için ödül yapısını değiştirmenin öğrenmeyi hızlandırdığı gösterilmiştir. Bu tez, yukarıda bahsedilen sorunları ele almak için ödül şekillendirme mekanizmasına sahip iki yöntem önermektedir. Verimli keşif problemini ele almak için, tablosal Pekiştirmeli Öğrenme gösterimi kapsamında niteliklilik izlerini kullanan popülasyona dayalı itici ödül şekillendirme mekanizması adlı bir yapı önerilmiştir. Deney sonuçları, önerilen yapı kullanıldığında öğrenme ve durum uzayı keşfindeki iyileşmelerle birlikte verimli keşif elde edildiğini göstermiştir. Ayrıca, bu tez, öğrenmeyi hızlandırmak için bölümlenmiş Q-Cut algoritmasının genişletilmiş versiyonu ile durum-uzayı segmentasyonu kullanarak potansiyele dayalı ödül şekillendirme adlı bir yaklaşım önermektedir. Seyrek ödül yapısına sahip problemlerdeki deneysel sonuçları, önerilen yöntemin, hesaplama zamanından ödün vermeden etmenin öğrenmesini hızlandırdığını göstermiştir.

Özet (Çeviri)

In a Reinforcement Learning task, a learning agent needs to extract useful information about its uncertain environment in an efficient way during the interaction process to successfully complete the task. Through strategic exploration, the agent acquires sufficient information to adjust its behavior to act intelligently as it interacts with the environment. Therefore, efficient exploration plays a key role in the learning efficiency of Reinforcement Learning tasks. Due to the delayed-feedback nature of Reinforcement Learning settings with sparse explicit reward structure, the required time for learning becomes the main cause of learning inefficiency. This problem is exacerbated particularly in complex tasks with large state and action spaces. Decomposing the task or modifying the reward structure to provide frequent feedback to the agent has been shown to accelerate learning. This thesis proposes two methods with a reward shaping mechanism to address the aforementioned problems. To attack the efficient exploration problem, a framework called population-based repulsive reward shaping mechanism using eligibility traces is proposed under the scope of tabular RL representation. The computational study on benchmark problem domains showed that efficient exploration is achieved with a significant improvement in learning and state-space coverage with the proposed framework. Furthermore, to accelerate learning, the thesis also proposes an approach called potential-based reward shaping using state-space segmentation with the extended segmented Q-Cut algorithm. Experimental results on sparse-reward benchmark domains showed that the proposed method indeed speeds up learning of the agent without sacrificing computation time.

Benzer Tezler

  1. Petrol ve gaz tesisi inşaatı projelerinde taraflar arasındaki ihtilaflar: Örnek olay (EPC sözleşme) incelemesi ve öneriler

    Disputes between parties in the oil and gas plants construction projects: Case study (EPC contract) and implications

    İLKAY KADİR ATASEVER

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. HÜSEYİN ATİLLA DİKBAŞ

  2. Deep seabed mining and maritime security

    Deniz güvenliği ve derin deniz yatağı madenciliği

    JAVIER ROZAS PORRAS

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    HukukAnkara Üniversitesi

    Deniz Hukuku Ana Bilim Dalı

    PROF. DR. İSMAİL DEMİR

  3. Makine öğrenmesi tabanlı iç ortam sıcaklık kontrolü için bir simülatör yazılımı tasarımı

    Design of a simulator software for machine learning-based indoor temperature control

    AYDIN BOSTANCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. DEVRİM AKGÜN

  4. Generalized game-testing using reinforcement learning

    Pekiştirmeli öğrenme kullanarak genelleştirilmiş oyun testi

    UĞUR ÖNAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. SANEM SARIEL UZER

    DR. ÖĞR. ÜYESİ HÜSEYİN KUTAY TİNÇ

  5. Çevrim içi platformlarda sunulan ikinci el lüksün tüketici perspektifinden değerlendirilmesi

    Evaluating second-hand luxury on online platforms from a consumer perspective

    FATMA NUR SARIKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İşletmeGalatasaray Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. NİLŞAH CAVDAR AKSOY