Overcoming hard exploration problem in Markov decision process using inverse reinforcement learning and human demonstrations
Markov karar sürecinde zor keşif probleminin ters pekiştirmeli öğrenme ve insan gösterimleri kullanılarak aşılması
- Tez No: 729328
- Danışmanlar: DOÇ. DR. MEHMET FATİH AMASYALI
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 79
Özet
Bu çalışmada, Derin Pekiştirmeli Öğrenme (Deep Reinforcement Learning, DRL) algoritmalarının zorlu keşif ortamlarında dışsal bir ödül sistemi kullanılarak performanslarının iyileştirilmesi önerilmiştir. Bunun için öncelikle insan gösterimleri dışsal bir ödül olarak kullanılmıştır. Algoritmanın insan performansını taklit etmesi ve dışsal ödüllerden yararlanması için insan gösterimlerini içeren bir eğitim aşamasını (Ön eğitim aşaması) tamamlaması gerekmektedir. Bunun ardından, algoritmanın daha iyi performans elde etmesi için ek bir eğitim aşamasında da (Etkileşim aşaması) Ters Pekiştirmeli Öğrenme (Inverse Reinforcement Learning, IRL) ilkeleri kullanılarak bir ödül fonksiyonu kurulmuştur. Bu tez, Ön eğitim aşaması için, dışsal ödüller kullanarak basit ve etkili bir Derin Pekiştirmeli Öğrenme algoritması eğitmeyi önermektedir. İnsan gösterimleri içeren eğitim kümesini oluştururken insan tarafından yapılan eylemler doğru diğer tüm olası eylemler yanlış olarak etiketlenmiştir. Bu veri kümesini eğitmek için Öncelikli Çift Derin Q-Ağları (Prioritized Double Deep Q-Networks, PDDQN) algoritması seçilmiştir. Eğitilen bu modelin zorlu keşif ortamlarında doğru eylemi tahmin etmesi mümkün hale gelmiştir. Buna ek olarak, algoritmanın performansını artırmak için önemli görülen örneklerin seçilme oranı optimize edilmiştir. Sonuç olarak, PDDQN algoritması zorlu keşif ortamlarında tüm temel algoritmalardan daha iyi performans göstermiştir. Bu tez, Etkileşim aşaması için, Ters Pekiştirmeli Öğrenme ilkelerini kullanan bir ödül fonksiyonu önermektedir. İnsan gösterimlerindeki dışsal ödüllerle ortam ödülleri arasındaki farkın etkileşim aşamasında algoritmanın verimliliğinde bir azalmaya yol açtığı belirlenmiştir. Bu sorunu çözmek için son yıllarda geliştirilen yaygın tekniklerden biri olan Ters Pekiştirmeli Öğrenme ile ödüller kullanarak insan/uzman davranışlarını tahmin eden bir ödül fonksiyonu oluşturulmuştur. Ödül fonksiyonu birinci aşama insan gösterimlerinden çıkarılan veriler kümesiyle eğitilmekte ve daha sonra tahmin ettiği ödüller gerçek ortam ödülleriyle birlikte kullanılabilmektedir. Bu özelliği sayesinde yapılan deneylerde, daha iyi performans sağladığı görülmüştür.
Özet (Çeviri)
In this study, performance enhancement of Deep Reinforcement Learning (DRL) algorithms on hard exploration environments have been proposed by using external reward systems. For this, first, human demonstrations were used as an external reward. A complete training phase (Pre-training phase) includes the human demonstration is performed to imitate the human performance and get the advantage of embedded rewards. After that, an independent Reward Function using Inverse Reinforcement Learning (IRL) principles is established to gain better performance on an additional training phase (Interacting phase). This thesis proposes to train a notable and simple Deep Reinforcement Learning algorithm using external rewards in the Pre-training phase. During building the human demonstrations dataset, the actions made by the human are tagged as correct, and all other possible actions are tagged as wrong. Prioritized Double Deep Q-Networks (PDDQN) algorithm was chosen to train on this dataset. It has become possible for this trained model to predict correct action in hard exploration environments. In addition, the important samples selection ratio has been optimized to improve the performance of the algorithm. As a result, the PDDQN algorithm outperformed all baseline algorithms in hard exploration environments. This thesis proposes a reward function for the Interacting phase using the principles of Inverse Reinforcement Learning. It has been determined that the difference between the environmental rewards and external rewards in human demonstrations leads to a decrease in the efficiency of the algorithm in the interaction phase. In order to solve this problem, an Inverse Reinforcement Learning reward function, which is one of the common techniques developed in recent years, has been created to predict human/expert behaviors by using rewards. The reward function is trained with a set of data extracted from phase one human demonstrations, and then the rewards it predicts can be used in conjunction with environment rewards. With this feature, better performance has been seen in the experiments.
Benzer Tezler
- The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching
Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi
ÖZLEM YAZAR
Yüksek Lisans
İngilizce
2004
Eğitim ve ÖğretimGazi Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. PAŞA TEVFİK CEPHE
- Zihin felsefesinde qualia problemi: Anti-indirgemeci bir analiz
The problem of qualia in the philosophy of mind: An anti-reductionist analysis
AHMET KADİR USLU
- Türk gemi adamlarının uluslararası piyasada tercih edilirliğinin ve istihdamının artırılması için model önerisi.
A model proposal for increasing the preference and employment of turkish seafarers in international market
ŞABAN EMRE KARTAL
Doktora
Türkçe
2019
Denizcilikİstanbul Teknik ÜniversitesiDeniz Ulaştırma Mühendisliği Ana Bilim Dalı
DOÇ. DR. YASİN ARSLANOĞLU
- Kalitenin ekonomik analizi
Başlık çevirisi yok
GÖKHAN ERGİNCAN
Yüksek Lisans
Türkçe
1996
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. RAMAZAN EVREN
- Artificial intelligence based and digital twin enabled aeronautical AD-HOC network management
Yapay zeka tabanlı ve dijital ikiz destekli geçici havasal ağ yönetimi
TUĞÇE BİLEN
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BERK CANBERK