Reward shaping for efficient exploration and acceleration of learning in reinforcement learning
Pekiştirmeli öğrenmede verimli keşif ve hızlı öğrenme için ödül şekillendirme
- Tez No: 745402
- Danışmanlar: PROF. DR. CEM İYİGÜN, PROF. DR. FARUK POLAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yöneylem Araştırması Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 143
Özet
Bir Pekiştirmeli Öğrenme görevinde, öğrenen etmenin, görevi başarıyla tamamlamak için etkileşim süreci sırasında belirsiz çevresi hakkında yararlı bilgileri verimli bir şekilde çıkarması gerekir. Etmen, stratejik keşif sayesinde çevresi hakkında yeterli bilgiyi elde eder ve bu bilgiyi çevresi ile iletişime girerken akıllıca hareket etmek için davranışlarını ayarlamada kullanır. Bu nedenle, verimli keşif, Pekiştirmeli Öğrenme görevlerinin öğrenme verimliliğinde kilit bir rol oynar. Seyrek ödül yapısına sahip Pekiştirmeli Öğrenme ortamlarının gecikmeli geri bildirim doğasına sahip olması nedeniyle öğrenme için gereken zaman, öğrenme verimsizliğinin ana nedeni haline gelir. Bu sorun, özellikle büyük durum ve eylem uzaylarına sahip karmaşık görevlerde daha da şiddetlenir. Görevi ayrıştırmanın veya etmene sık geri bildirim sağlamak için ödül yapısını değiştirmenin öğrenmeyi hızlandırdığı gösterilmiştir. Bu tez, yukarıda bahsedilen sorunları ele almak için ödül şekillendirme mekanizmasına sahip iki yöntem önermektedir. Verimli keşif problemini ele almak için, tablosal Pekiştirmeli Öğrenme gösterimi kapsamında niteliklilik izlerini kullanan popülasyona dayalı itici ödül şekillendirme mekanizması adlı bir yapı önerilmiştir. Deney sonuçları, önerilen yapı kullanıldığında öğrenme ve durum uzayı keşfindeki iyileşmelerle birlikte verimli keşif elde edildiğini göstermiştir. Ayrıca, bu tez, öğrenmeyi hızlandırmak için bölümlenmiş Q-Cut algoritmasının genişletilmiş versiyonu ile durum-uzayı segmentasyonu kullanarak potansiyele dayalı ödül şekillendirme adlı bir yaklaşım önermektedir. Seyrek ödül yapısına sahip problemlerdeki deneysel sonuçları, önerilen yöntemin, hesaplama zamanından ödün vermeden etmenin öğrenmesini hızlandırdığını göstermiştir.
Özet (Çeviri)
In a Reinforcement Learning task, a learning agent needs to extract useful information about its uncertain environment in an efficient way during the interaction process to successfully complete the task. Through strategic exploration, the agent acquires sufficient information to adjust its behavior to act intelligently as it interacts with the environment. Therefore, efficient exploration plays a key role in the learning efficiency of Reinforcement Learning tasks. Due to the delayed-feedback nature of Reinforcement Learning settings with sparse explicit reward structure, the required time for learning becomes the main cause of learning inefficiency. This problem is exacerbated particularly in complex tasks with large state and action spaces. Decomposing the task or modifying the reward structure to provide frequent feedback to the agent has been shown to accelerate learning. This thesis proposes two methods with a reward shaping mechanism to address the aforementioned problems. To attack the efficient exploration problem, a framework called population-based repulsive reward shaping mechanism using eligibility traces is proposed under the scope of tabular RL representation. The computational study on benchmark problem domains showed that efficient exploration is achieved with a significant improvement in learning and state-space coverage with the proposed framework. Furthermore, to accelerate learning, the thesis also proposes an approach called potential-based reward shaping using state-space segmentation with the extended segmented Q-Cut algorithm. Experimental results on sparse-reward benchmark domains showed that the proposed method indeed speeds up learning of the agent without sacrificing computation time.
Benzer Tezler
- Petrol ve gaz tesisi inşaatı projelerinde taraflar arasındaki ihtilaflar: Örnek olay (EPC sözleşme) incelemesi ve öneriler
Disputes between parties in the oil and gas plants construction projects: Case study (EPC contract) and implications
İLKAY KADİR ATASEVER
Yüksek Lisans
Türkçe
2018
İnşaat Mühendisliğiİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. HÜSEYİN ATİLLA DİKBAŞ
- Deep seabed mining and maritime security
Deniz güvenliği ve derin deniz yatağı madenciliği
JAVIER ROZAS PORRAS
- Makine öğrenmesi tabanlı iç ortam sıcaklık kontrolü için bir simülatör yazılımı tasarımı
Design of a simulator software for machine learning-based indoor temperature control
AYDIN BOSTANCI
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. DEVRİM AKGÜN
- Generalized game-testing using reinforcement learning
Pekiştirmeli öğrenme kullanarak genelleştirilmiş oyun testi
UĞUR ÖNAL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
DOÇ. DR. SANEM SARIEL UZER
DR. ÖĞR. ÜYESİ HÜSEYİN KUTAY TİNÇ
- Çevrim içi platformlarda sunulan ikinci el lüksün tüketici perspektifinden değerlendirilmesi
Evaluating second-hand luxury on online platforms from a consumer perspective
FATMA NUR SARIKAYA
Yüksek Lisans
Türkçe
2024
İşletmeGalatasaray Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. NİLŞAH CAVDAR AKSOY