Reward shaping for efficient exploration and acceleration of learning in reinforcement learning

Pekiştirmeli öğrenmede verimli keşif ve hızlı öğrenme için ödül şekillendirme

PDF İndir

Tez No: 745402
Yazar: MELİS İLAYDA BAL
Danışmanlar: PROF. DR. CEM İYİGÜN, PROF. DR. FARUK POLAT
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Yöneylem Araştırması Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 143

Özet

Bir Pekiştirmeli Öğrenme görevinde, öğrenen etmenin, görevi başarıyla tamamlamak için etkileşim süreci sırasında belirsiz çevresi hakkında yararlı bilgileri verimli bir şekilde çıkarması gerekir. Etmen, stratejik keşif sayesinde çevresi hakkında yeterli bilgiyi elde eder ve bu bilgiyi çevresi ile iletişime girerken akıllıca hareket etmek için davranışlarını ayarlamada kullanır. Bu nedenle, verimli keşif, Pekiştirmeli Öğrenme görevlerinin öğrenme verimliliğinde kilit bir rol oynar. Seyrek ödül yapısına sahip Pekiştirmeli Öğrenme ortamlarının gecikmeli geri bildirim doğasına sahip olması nedeniyle öğrenme için gereken zaman, öğrenme verimsizliğinin ana nedeni haline gelir. Bu sorun, özellikle büyük durum ve eylem uzaylarına sahip karmaşık görevlerde daha da şiddetlenir. Görevi ayrıştırmanın veya etmene sık geri bildirim sağlamak için ödül yapısını değiştirmenin öğrenmeyi hızlandırdığı gösterilmiştir. Bu tez, yukarıda bahsedilen sorunları ele almak için ödül şekillendirme mekanizmasına sahip iki yöntem önermektedir. Verimli keşif problemini ele almak için, tablosal Pekiştirmeli Öğrenme gösterimi kapsamında niteliklilik izlerini kullanan popülasyona dayalı itici ödül şekillendirme mekanizması adlı bir yapı önerilmiştir. Deney sonuçları, önerilen yapı kullanıldığında öğrenme ve durum uzayı keşfindeki iyileşmelerle birlikte verimli keşif elde edildiğini göstermiştir. Ayrıca, bu tez, öğrenmeyi hızlandırmak için bölümlenmiş Q-Cut algoritmasının genişletilmiş versiyonu ile durum-uzayı segmentasyonu kullanarak potansiyele dayalı ödül şekillendirme adlı bir yaklaşım önermektedir. Seyrek ödül yapısına sahip problemlerdeki deneysel sonuçları, önerilen yöntemin, hesaplama zamanından ödün vermeden etmenin öğrenmesini hızlandırdığını göstermiştir.

Özet (Çeviri)

In a Reinforcement Learning task, a learning agent needs to extract useful information about its uncertain environment in an efficient way during the interaction process to successfully complete the task. Through strategic exploration, the agent acquires sufficient information to adjust its behavior to act intelligently as it interacts with the environment. Therefore, efficient exploration plays a key role in the learning efficiency of Reinforcement Learning tasks. Due to the delayed-feedback nature of Reinforcement Learning settings with sparse explicit reward structure, the required time for learning becomes the main cause of learning inefficiency. This problem is exacerbated particularly in complex tasks with large state and action spaces. Decomposing the task or modifying the reward structure to provide frequent feedback to the agent has been shown to accelerate learning. This thesis proposes two methods with a reward shaping mechanism to address the aforementioned problems. To attack the efficient exploration problem, a framework called population-based repulsive reward shaping mechanism using eligibility traces is proposed under the scope of tabular RL representation. The computational study on benchmark problem domains showed that efficient exploration is achieved with a significant improvement in learning and state-space coverage with the proposed framework. Furthermore, to accelerate learning, the thesis also proposes an approach called potential-based reward shaping using state-space segmentation with the extended segmented Q-Cut algorithm. Experimental results on sparse-reward benchmark domains showed that the proposed method indeed speeds up learning of the agent without sacrificing computation time.

Benzer Tezler

Tez No
511278
Petrol ve gaz tesisi inşaatı projelerinde taraflar arasındaki ihtilaflar: Örnek olay (EPC sözleşme) incelemesi ve öneriler
Disputes between parties in the oil and gas plants construction projects: Case study (EPC contract) and implications
İLKAY KADİR ATASEVER
Yüksek Lisans
Türkçe
2018
İnşaat Mühendisliği İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. HÜSEYİN ATİLLA DİKBAŞ
Tez No
782739
Deep seabed mining and maritime security
Deniz güvenliği ve derin deniz yatağı madenciliği
JAVIER ROZAS PORRAS
Yüksek Lisans
İngilizce
2022
Hukuk Ankara Üniversitesi
Deniz Hukuku Ana Bilim Dalı
PROF. DR. İSMAİL DEMİR
Tez No
898581
Makine öğrenmesi tabanlı iç ortam sıcaklık kontrolü için bir simülatör yazılımı tasarımı
Design of a simulator software for machine learning-based indoor temperature control
AYDIN BOSTANCI
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. DEVRİM AKGÜN
Tez No
840959
Generalized game-testing using reinforcement learning
Pekiştirmeli öğrenme kullanarak genelleştirilmiş oyun testi
UĞUR ÖNAL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı
DOÇ. DR. SANEM SARIEL UZER
DR. ÖĞR. ÜYESİ HÜSEYİN KUTAY TİNÇ
Tez No
910762
Çevrim içi platformlarda sunulan ikinci el lüksün tüketici perspektifinden değerlendirilmesi
Evaluating second-hand luxury on online platforms from a consumer perspective
FATMA NUR SARIKAYA
Yüksek Lisans
Türkçe
2024
İşletme Galatasaray Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. NİLŞAH CAVDAR AKSOY

Geri Dön