GAN-based intrinsic exploration for sample efficient reinforcement learning
Örnek verimli pekiştirmeli öğrenme için üretken çekişmeli ağlarla içsel keşif
- Tez No: 730272
- Danışmanlar: PROF. DR. GÖZDE ÜNAL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 75
Özet
Pekiştirmeli öğrenme, öğrenmenin deneme ve yanılma metoduyla gerçekleştiği, yapay zekanın bir alt alanıdır. Pekiştirmeli öğrenmede bir öğrenici, veya etmen, içinde bulunduğu ortam ile, her zaman adımında etkileşimde bulunur. Etmenin amacı, bu ortam içerisinde tanımlanan problemi çözmektir. Etmen bunu, her zaman adımında, problemin bulunduğu ortamda, o anki durumun gözlemine göre, yapabileceği aksiyonların kümesinden bir aksiyon seçerek ve bu aksiyonu uygulayarak yapmaktadır. Ortam ise, etmenin seçtiği ve uyguladığı aksiyonun sonucu olarak etmene bir ödül sinyali gönderir. Etmenin amacı, tek bir döngüde, ortamdan topladığı ödülleri olabildiğince yüksek yapacak şekilde aksiyonlar seçmektir. Ancak etmen, öğrenme öncesinde, ortamla ilgili veya aksiyonların ne yaptıklarıyla veya hangi aksiyonun hangi durumda daha iyi olduğuna dair herhangi bir bilgiye sahip olmaz. Etmen, ortamla etkileşime girerek aldığı ödüller sayesinde aksiyonlarının sonucunu öğrenmektedir. Bunu yapabilmesi için, etmenin ortamla ilgili gerekli bilgiye sahip olması amacıyla, ortamı keşfetmesi gerekir. Keşif yaptığı zaman adımlarında etmen, o ana kadar sahip olduğu bilgiye rağmen, yalnızca ortamı keşfetme amacıyla bir aksiyon seçer. Keşif süreci, etmenin belli bir bilgiye sahip olmasıyla sonlanmayabilir, zira etmen bir çözüm bulsa bile, ortamda bulduğundan daha iyi bir çözüm bulunabilir ve o ana kadar bulduğu çözümü sömürmek yerine, daha iyi bir çözüm aramak için de keşif amacıyla aksiyonlar seçilmesi mümkündür. En yaygın kullanılan keşfetme stratejileri, rastgele bir şekilde aksiyon seçmeye dayalılardır. Bu stratejiler, belli koşullar altında bazı zaman aralıklarında, etmenin en iyi aksiyon olarak seçtiği aksiyonu göz ardı ederek, rastgele aksiyon seçimine yönlendirecek bir metotu takip ederler. Bu rastgelelik sayesinde ise etmen, ortamda daha önce keşfedemediği durumları gözlemleyebilir ve yeni bilgiler edinebilir. Geçmişte bu metotlar, birçok pekiştirmeli öğrenme probleminde başarılı bir performans göstermiş ve dolayısıyla yaygınlaşmışlardır. Hala yaygın olarak kullanılan bu metotlar, günümüzdeki çoğu pekiştirmeli öğrenme problemlerinde yeterli keşfetmeyi sağlamaktadır. Ancak rastgele seçime bağlı çalışan bu metotların işe yaramaları için bazı şartların yerine gelmesi gerekmektedir. Öncelikle ödül sinyallerinin sık olması, devamında da ödüllerin iyi bir şekilde tanımlanmış olmaları, yani iyi aksiyonları kötü aksiyonlardan doğru bir skala ile ayırt edebilmesi gerekmektedir. Gerçek hayattaki birçok problem ise bu şartları her zaman sağlayamamaktadır. Özellikle seyrek ödüllerin olduğu veya hedef noktası dışında herhangi bir ödülün olmadığı problemler mevcuttur. Bu tarz problemlerde rastgele aksiyon seçimiyle ortamdan herhangi bir ödül bulmak zordur, dolayısıyla etmeni eğitecek herhangi bir geribildirimde bulunamamaktadır. Bu nedenle, daha etkili bir bir keşfetme stratejisinin geliştirilmesi gerekmektedir. Etkili keşif, uzun zamandır araştırma konusu olmuş ve birçok çalışma bu konuyu ele almıştır. Günümüzde halen kesin bir çözüme ulaşılamamış ve ucu açık bir çalışma alanı olarak yer almaktadır. Bu tezin konusu, efektif keşfetmeye yeni bir çözüm önerisi getirmek üzerinedir. Tezde, Üretken Çekişmeli Ağlar (ÜÇA) kullanılarak, ÜÇA-temelli İçsel Ödül Modülü (ÜİÖM) adını verdiğimiz, özgün bir örnekçe efektif, etmeni keşif yapmaya teşvik eden bir modül önerilmiştir. ÜİOM'un pekiştirmeli öğrenme algoritmalarındaki görevi, her zaman adımındaki durum için, ortamdan gelen dışsal ödül sinyaline ek olarak bir içsel ödül hesaplamaktır. İçsel ödüllerin ise, yeni, daha önce etmen tarafından ziyaret edilmemiş durumlar için yüksek olması, sıklıkla görülmüş ve etmen tarafından bilinen durumlar içinse düşük olması için ÜİOM eğitilmektedir. Yeni durumların yüksek ödüllü olmaları, etmeni bu durumları daha sıklıkla ziyaret etmeye teşvik etmekte, dolayısıyla daha efektif bir keşif sağlamaktadır. Ayrıca ödülün olmadığı veya seyrek olduğu ortamlarda da, etmene içsel ödüller aracılığıyla bir geri besleme yapılabilmekte, etmenin ortamdaki hedefi veya seyrek ödülleri bulana kadar efektif keşif yapması sağlanmaktadır. ÜİÖM içerisinde ÜÇA'nın yanı sıra bir de kodlayıcı model bulunur. ÜÇA'nın kullanım amacı, etmenin gözlemlediği durumların dağılımını öğrenmektir. Kodlayıcı ise, sorgu durumunun, ÜÇA'daki üretici ağın giriş vektör uzayına haritalandırılması amacıyla kullanılır. Bu iki varlık, ÜÇA ve kodlayıcı, bir anomali tespit etme görevinde olduğu gibi çalışarak, ziyaret edilmemiş durumları tespit etmeye çalışır. Kodlayıcı, bir sorgu durumunu önce üreticinin giriş vektör uzayına haritalandırır, çıktı vektörü ise ÜÇA'daki üretici ağ ile tekrar oluşturulur. Bu oluşturulan yeni durumun, sorgu durumuna benzerliği kullanılarak içsel ödül hesaplanır. Eğer benzerlik fazlaysa, bunun anlamı sorgu durumu, ÜÇA tarafından öğrenilen dağılımda yer alan bir durumdur, yani etmen tarafından gözlemlenmiştir. Bu durumda düşük bir içsel ödül verilir. Benzerliğin az olması ise, ÜÇA'nın sorgu durumunu yeniden oluşturamaması, yani bu sorgu durumunu daha önce görmemiş olması anlamına gelir. Bu durumda ise yeni bir durumun gözlemlendiği tespit edilir ve yüksek bir içsel ödül verilir. İçsel ödülün yeni durumlarda yüksek olması, etmeni bu durumları daha çok ziyaret etmeye itmektedir. ÜİÖM'ün eğitimi periyodik olarak tekrarlanmasıyla da, gözlemlenen durumların dağılımı güncel tutulur ve içsel ödülün devamlı olarak tutarlı bir şekilde keşfe teşvik etmesi sağlanır. Bu periyodik eğitim, bir durum belleğiyle sağlanmaktadır. Belirli kapasitedeki bellek, gözlemlenen durumları saklar ve bu belleğin dolduğu durumda ÜİÖM, bellekteki verilerle eğitilir. Her eğitim sonunda bellek boşaltılır ve yeni gözlemlenen durumlar toplanmaya başlanır. Her belleğin doluşunda, yeni gözlemlenen veriler ile eğitim sağlandığı için, ÜİÖM'ün gözlemlenen verilere adapte olması sağlanır. Ek olarak, ÜİÖM, pekiştirmeli öğrenme sırasında periyodik olarak tekrar eğitildiği için, hesaplanan ödüllerin de skalasının şiddetli, performansı etkileyecek şekilde değişmemesi için, içsel ödüllerin standartlaştırılması da ek olarak sağlanmaktadır. Bu sayede içsel ödüller, pekiştirmeli öğrenme boyunca benzer skalada tutulacak ve yeni durumların aldığı içsel ödüller benzer olacaktır. ÜİÖM, bir ek modül olarak tasarlanmıştır, dolayısıyla herhangi bir pekiştirmeli öğrenme algoritması ile beraber kullanılabilmektedir. Bu çalışmada Avantajlı Aktör Kritik algoritması ile kullanılmış, karşılaştırmada da bu algoritmanın orijinal keşif metodu kullanılmıştır. ÜİÖM'ün değerlendirilmesi iki farklı ortam düzeninde yapılmıştır. Bunlardan birincisi, seyrek ödüllü düzen, ikincisi ise ödülsüz düzendir. Ödülsüz düzen için Super Mario Bros. ortamındaki tüm ödüller kaldırılmış ve etmen bu ortamda eğitilmiştir. Bu ortamda etmenin yeni durumlar keşfetmesi için haritadaki engellere takılmadan sağa doğru hareket etmesi gerekmektedir. Seyrek ödüllü düzen içinse, keşfin zorluğundan ötürü çözülmesinin zorluğuyla bilinen Montezuma's Revenge ortamında yapılmıştır. Bu ortamda ilk ödülü ve devamındaki ödülü bulabilmesi için, etmenin spesifik bir aksiyon sıralamasını yapması gerekmektedir. Bu sıralama ise rastgele bulmak için fazla uzundur ve bu sıralama sırasındaki hataların oyun içerisinde ölümle sonuçlanması ve başa dönülmesi çok muhtemeldir. Bu ortamlarda, ÜİÖM'ün, değerlendirme için rastgele aksiyon seçmeye dayalı keşif yöntemi kullanan baz algoritmalarlar karşılaştırıldığında, etkili bir şekilde keşif yapabildiği gösterilmiştir. Alandaki diğer çalışmalarla karşılaştırıldığında ise, ÜİÖM'ün örnekçe efektif olduğu, diğer çalışmalara göre daha az örnekle sonuç alınabildiği gösterilmiştir. Montezuma's Revenge ortamında çözüme ulaşılamamış veya diğer çalışmalar geçilmemiş olsa bile, farkla daha az örnek ile sonuca ulaşılabildiği görülmektedir. Son olarak, ÜİÖM'ün bazı zayıflıkları da belirtilmiştir. Çok büyük ödül veren bir durumla karşılaşıldığında, ÜİÖM, pekiştirmeli algoritmaların ödül sömürmeye yatkınlığından kaçınamamıştır. Ek olarak, gözlemlenen durumların dağılımındaki ani değişikliklerin ÜİÖM'ün performansını olumsuz şekilde etkilediği gözlemlenmiştir. Tezin sonunda, ÜÇA'ların pekiştirmeli öğrenme ile karşılıklı olarak birçok konuda geliştirmeler yapılabileceği ve bu çalışmanın bir önayak olmasının umulduğu belirtilmiştir.
Özet (Çeviri)
Reinforcement learning is a sub-area of artificial intelligence in which the learner learns in a trial-and-error manner. The learner does so by executing an action depending on the current state it is in and observing the results. After executing an action, a reward signal is given to the learner and through the rewards, the learner can learn which actions are best in different situations. However, the learner is not given any prior information about the environment it is in or which action is the best depending on the current state. Therefore, exploring the environment is important for gathering the necessary information in order to navigate to the high rewards. Most common exploration strategies involve random action selection occasionally. However, they only work under some conditions such that the rewards need to be dense and well-defined. These conditions are hard to meet for many real-world problems and an efficient exploration strategy is needed for such problems. Utilizing the Generative Adversarial Networks (GAN), this thesis proposes a novel module for sample efficient exploration, called GAN-based Intrinsic Reward Module (GIRM). The GIRM computes an intrinsic reward for the states and the aim is to compute higher rewards for the novel, unexplored states. The GIRM uses GAN to learn the distribution of the states the learner observes and contains an encoder, which maps a query state to the input space of the generator of the GAN. Using the encoder and the generator, the GIRM can detect if a query state is among the distribution of the observed states. If it is, the state is regarded as a visited state, otherwise, it is a novel state to the learner, in which case the intrinsic reward will be higher. As the learner receives higher rewards for such states, it is incentivized to explore the unknown, leading to sample-efficient exploration. The GIRM is evaluated using two settings: a sparse reward and a no-reward environments. It is shown that the GIRM is indeed capable of exploring compared to the base algorithms, which involve random exploration methods, in both of the settings. Compared to the other studies in the field, the GIRM also manages to explore more efficiently in terms of the number of samples. Finally, we identify a few weaknesses of GIRM: the negative impact on the performance when sudden changes to the distribution of the observed states occur, and the exploitation of very large rewards not being avoided.
Benzer Tezler
- S bant radar uygulamaları için iki katlı 50 watt GaN HEMT f sınıfı güç kuvvetlendiricisi tasarımı
Design of two stage 50 watt GaN HEMT class f power amplifier for s band radar applications
SÜHEYB ABDURRAHMAN BOZDEMİR
Yüksek Lisans
Türkçe
2019
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. METİN YAZGI
DOÇ. DR. OĞUZHAN KIZILBEY
- Electric field dependent optoelectronic nature of InGaN/GaN quantum structures and devices
InGaN/GaN kuvantum yapılarının ve aygıtlarının elektrik alana bağlı optoelektronik doğası
EMRE SARI
Doktora
İngilizce
2012
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
DOÇ. DR. HİLMİ VOLKAN DEMİR
- Terahertz and mid-infrared photodetectors based on intersubband transitions in novel materials systems
Yeni malzeme sistemlerinde bantlar arası geçişe dayalı terahertz ve orta kızılötesi fotodedektörler
HABİBE DURMAZ SAĞIR
Doktora
İngilizce
2016
Elektrik ve Elektronik MühendisliğiBoston UniversityElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. ROBERTO PAİELLA
- Photo-dynamic XPS for investigating photoinduced voltage changes in semiconducting materials
Işık altında yarıiletken malzemelerin üzerinde oluşan voltaj yüklenmelerinin foto-dinamik XPS ile incelenmesi
HİKMET SEZEN
- A theoretical analysis of GaInNAs/GaAs quantum vells for long wavelength emission
GaInNAs/GaAs uzun dalgaboylu kuantum kuyu lazerlerin teorik olarak incelemmesi
MURAT ODUNCUOĞLU
Doktora
İngilizce
2004
Fizik ve Fizik MühendisliğiGaziantep ÜniversitesiFizik Mühendisliği Ana Bilim Dalı
DOÇ.DR. BEŞİRE GÖNÜL