Using frequencies of transitions to improve reinforcement learningwith hidden states
Saklı durumlu pekiştirmeli öğrenmeyi geliştirmek için geçişlerinfrekanslarının kullanımı
- Tez No: 770148
- Danışmanlar: PROF. DR. FARUK POLAT, DR. ERKİN ÇİLDEN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 120
Özet
Saklı durumlara sahip pekiştirmeli öğrenme problemleri ortamdaki belirsizlikten önemli derecede olumsuz etkilenmektedir. Bunun nedeni, etmenin algılayışındaki belirsizliğin, içinde bulunduğu durumu doğru bir şekilde tespit etmesinin önüne geçmesidir. Bu nedenle, bu problem kümesi için harici bir hafıza kullanmadan bir çözüm üretmek çok zor ya da bazen imkansızdır. Belirsizliğin yoğun olduğu bir ortamda, geçişlerin frekansları etmenin içinde bulunduğu durumu tespit etmesi açısından daha güvenilir bilgiler sunabilir. Dolayısıyla bu yaklaşım bizi, etmenin tüm deneyimlerini saklamaktan daha verimli ve etkili bir hafıza kullanımı ile beraber daha iyi bir durum tespitine yönlendirebilir. Bu gözlemden yola çıkarak bu tez kapsamında, geçişlerin frekanslarını kullanan seçici bir hafıza yaklaşımı önerilmiştir. Bu hafıza alttaki öğrenme yöntemine yönelik bir kısıtlama barındırmadığından herhangi bir pekiştirmeli öğrenme yöntemini uygulayan etmen bu hafızayı kullanabilecektir. Deneyler kompakt ve seçici bir hafızanın öğrenmeyi geliştirip hızlandırabileceğini Q-Öğrenme ve Sarsa(λ) yöntemleri için göstermiştir. Çalışmanın ikinci kısmı olarak, etmenin problemi daha soyut bir şekilde çözebilmesi için, darboğaz geçişleri arasındaki sırasal ilinti kullanılmıştır. Etmeni çözüme yönlendirecek olan, belirsiz olmayan ve kritik geçişlerin sıralamalarının, yani darboğaz geçiş zincirlerinin kümesinin otomatik tespitini sağlayacak basit yinelemeli bir çözüm önerilmiştir. Üst ve daha soyut bir seviyede, etmen alt-etmenlerini bu zincirdeki herhangi iki geçiş arasında eğiterek, ana hedefe ulaşmak için izlenecek olası alt-politikaları ve bunların değerlerini öğrenebilir. Deney çalışmaları, bu yaklaşımın belirsizliğin yoğun olduğu ve geleneksel yöntemlerin çözüm üretmekte başarısız olduğu ortamlarda daha iyi ve hızlı bir öğrenme gerçekleştirdiğini göstermiştir. Bunun yanı sıra, önerilen yöntemin öğrenme kalitesi, hız ve hafıza kulanımı yönünden, hafıza temelli bir yöntemden daha iyi çalıştığı gözlenmiştir. Son olarak yöntemin kullanıcıdan bağımsız, otomatik bir şekilde problem üzerinde çalışması için Farklı Yoğunluk yöntemiyle entegrasyonu sağlanmıştır. Farklı Yoğunluk yönteminin bulduğu yer işareti durumlar tümüyle doğru olmasa da, deneyler sonuçların potansiyel taşıdığını göstermektedir.
Özet (Çeviri)
Reinforcement learning problems with hidden states suffer from the ambiguity of the environment, since the ambiguity in the agent's perception may prevent the agent from estimating its current state correctly. Therefore, constructing a solution without using an external memory may be extremely difficult or even impossible sometimes. In an ambiguous environment, frequencies of the transitions can provide more reliable information and hence it may lead us to construct more efficient and effective memory instead of keeping all experiences of the agent like the existing memory-based methods. Inspired by this observation, a selective memory approach based on the frequencies of transitions is proposed in the first part of thesis. The agents with any reinforcement learning method can be equipped with this selective memory, since the memory itself does not have any constraints on the underlying method. Experiments show that a compact and selective memory may improve and speed up the learning on both Q-Learning and Sarsa(λ) methods. As the second part of the work, sequential association between transitions is used in order to get a solution in more abstract manner for the problems which can be decomposed by using the bottlenecks in the environment. A simple recursive method is proposed for automatic extraction the set of chains of bottleneck transitions which are sequences of unambiguous and critical transitions leading to the goal state. At the higher level, an agent trains its sub-agents to extract sub-policies corresponding to the sub-tasks, namely two successive transitions in any chain, and learns the value of each sub-policy at the abstract level. Experimentation shows that this approach learns better and faster in the ambiguous domains where conventional methods fail to construct a solution. Furthermore, it has been shown that our method with its early decomposition approach performs better than a memory-based method in terms of quality of the learning, speed and memory usage. Finally, Diverse Density method is integrated with the proposed method to complete the autonomy of the overall process. Although, identified landmarks are not completely accurate, experimentation shows that the results are promising.
Benzer Tezler
- Hareket başlatma ve derin beyin uyarımına ilişkin bir bazal çekirdek devresi hesaplamalı modeli
A computational model of basal ganglia for action initiation and deep brain stimulation
MUSTAFA YASİR ÖZDEMİR
Yüksek Lisans
Türkçe
2017
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. NESLİHAN SERAP ŞENGÖR
- Çok amaçlı açıklığı daralan yarık anten tasarımı ve performans artırımına yönelik anten parametrelerinin optimizasyonu
Multi-objective tapered slot antenna design and optimization of antenna parameters for performance improvement
EMRAH UĞURLU
Doktora
Türkçe
2016
Elektrik ve Elektronik MühendisliğiSelçuk ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SEYFETTİN SİNAN GÜLTEKİN
- Bundling shape memory alloy wires to improve frequency response and payload lifting capability
Frekans cevabının iyileştirilmesi ve taşınabilecek yükün artırılması için şekil hafızalı alaşımların demet olarak kullanılması
SANİYE DİNDAR
Yüksek Lisans
İngilizce
2015
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. ŞENİZ ERTUĞRUL
- Mikrodalga soğurucu tasarımı
Microwave absorber design
İBRAHİM ÇATALKAYA
Doktora
Türkçe
2017
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. SEDEF KENT PINAR
- Bilgiişlem ortamı sunan bulut hizmetlerinde kötücül davranışların saptanması
Classifying malicious behavior in paas services
CEMİLE DİLER ÖZDEMİR
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN