Overcoming hard exploration problem in Markov decision process using inverse reinforcement learning and human demonstrations

Markov karar sürecinde zor keşif probleminin ters pekiştirmeli öğrenme ve insan gösterimleri kullanılarak aşılması

PDF İndir

Tez No: 729328
Yazar: WADHAH ZEYAD TAREQ TAREQ
Danışmanlar: DOÇ. DR. MEHMET FATİH AMASYALI
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 79

Özet

Bu çalışmada, Derin Pekiştirmeli Öğrenme (Deep Reinforcement Learning, DRL) algoritmalarının zorlu keşif ortamlarında dışsal bir ödül sistemi kullanılarak performanslarının iyileştirilmesi önerilmiştir. Bunun için öncelikle insan gösterimleri dışsal bir ödül olarak kullanılmıştır. Algoritmanın insan performansını taklit etmesi ve dışsal ödüllerden yararlanması için insan gösterimlerini içeren bir eğitim aşamasını (Ön eğitim aşaması) tamamlaması gerekmektedir. Bunun ardından, algoritmanın daha iyi performans elde etmesi için ek bir eğitim aşamasında da (Etkileşim aşaması) Ters Pekiştirmeli Öğrenme (Inverse Reinforcement Learning, IRL) ilkeleri kullanılarak bir ödül fonksiyonu kurulmuştur. Bu tez, Ön eğitim aşaması için, dışsal ödüller kullanarak basit ve etkili bir Derin Pekiştirmeli Öğrenme algoritması eğitmeyi önermektedir. İnsan gösterimleri içeren eğitim kümesini oluştururken insan tarafından yapılan eylemler doğru diğer tüm olası eylemler yanlış olarak etiketlenmiştir. Bu veri kümesini eğitmek için Öncelikli Çift Derin Q-Ağları (Prioritized Double Deep Q-Networks, PDDQN) algoritması seçilmiştir. Eğitilen bu modelin zorlu keşif ortamlarında doğru eylemi tahmin etmesi mümkün hale gelmiştir. Buna ek olarak, algoritmanın performansını artırmak için önemli görülen örneklerin seçilme oranı optimize edilmiştir. Sonuç olarak, PDDQN algoritması zorlu keşif ortamlarında tüm temel algoritmalardan daha iyi performans göstermiştir. Bu tez, Etkileşim aşaması için, Ters Pekiştirmeli Öğrenme ilkelerini kullanan bir ödül fonksiyonu önermektedir. İnsan gösterimlerindeki dışsal ödüllerle ortam ödülleri arasındaki farkın etkileşim aşamasında algoritmanın verimliliğinde bir azalmaya yol açtığı belirlenmiştir. Bu sorunu çözmek için son yıllarda geliştirilen yaygın tekniklerden biri olan Ters Pekiştirmeli Öğrenme ile ödüller kullanarak insan/uzman davranışlarını tahmin eden bir ödül fonksiyonu oluşturulmuştur. Ödül fonksiyonu birinci aşama insan gösterimlerinden çıkarılan veriler kümesiyle eğitilmekte ve daha sonra tahmin ettiği ödüller gerçek ortam ödülleriyle birlikte kullanılabilmektedir. Bu özelliği sayesinde yapılan deneylerde, daha iyi performans sağladığı görülmüştür.

Özet (Çeviri)

In this study, performance enhancement of Deep Reinforcement Learning (DRL) algorithms on hard exploration environments have been proposed by using external reward systems. For this, first, human demonstrations were used as an external reward. A complete training phase (Pre-training phase) includes the human demonstration is performed to imitate the human performance and get the advantage of embedded rewards. After that, an independent Reward Function using Inverse Reinforcement Learning (IRL) principles is established to gain better performance on an additional training phase (Interacting phase). This thesis proposes to train a notable and simple Deep Reinforcement Learning algorithm using external rewards in the Pre-training phase. During building the human demonstrations dataset, the actions made by the human are tagged as correct, and all other possible actions are tagged as wrong. Prioritized Double Deep Q-Networks (PDDQN) algorithm was chosen to train on this dataset. It has become possible for this trained model to predict correct action in hard exploration environments. In addition, the important samples selection ratio has been optimized to improve the performance of the algorithm. As a result, the PDDQN algorithm outperformed all baseline algorithms in hard exploration environments. This thesis proposes a reward function for the Interacting phase using the principles of Inverse Reinforcement Learning. It has been determined that the difference between the environmental rewards and external rewards in human demonstrations leads to a decrease in the efficiency of the algorithm in the interaction phase. In order to solve this problem, an Inverse Reinforcement Learning reward function, which is one of the common techniques developed in recent years, has been created to predict human/expert behaviors by using rewards. The reward function is trained with a set of data extracted from phase one human demonstrations, and then the rewards it predicts can be used in conjunction with environment rewards. With this feature, better performance has been seen in the experiments.

Benzer Tezler

Tez No
145026
The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching
Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi
ÖZLEM YAZAR
Yüksek Lisans
İngilizce
2004
Eğitim ve Öğretim Gazi Üniversitesi
İngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. PAŞA TEVFİK CEPHE
Tez No
802671
Zihin felsefesinde qualia problemi: Anti-indirgemeci bir analiz
The problem of qualia in the philosophy of mind: An anti-reductionist analysis
AHMET KADİR USLU
Doktora
Türkçe
2023
Felsefe Hacettepe Üniversitesi
Felsefe Ana Bilim Dalı
DOÇ. DR. ÇETİN TÜRKYILMAZ
Tez No
581093
Türk gemi adamlarının uluslararası piyasada tercih edilirliğinin ve istihdamının artırılması için model önerisi.
A model proposal for increasing the preference and employment of turkish seafarers in international market
ŞABAN EMRE KARTAL
Doktora
Türkçe
2019
Denizcilik İstanbul Teknik Üniversitesi
Deniz Ulaştırma Mühendisliği Ana Bilim Dalı
DOÇ. DR. YASİN ARSLANOĞLU
Tez No
55808
Kalitenin ekonomik analizi
Başlık çevirisi yok
GÖKHAN ERGİNCAN
Yüksek Lisans
Türkçe
1996
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
PROF.DR. RAMAZAN EVREN
Tez No
778127
Artificial intelligence based and digital twin enabled aeronautical AD-HOC network management
Yapay zeka tabanlı ve dijital ikiz destekli geçici havasal ağ yönetimi
TUĞÇE BİLEN
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BERK CANBERK

Geri Dön