Geri Dön

Using frequencies of transitions to improve reinforcement learningwith hidden states

Saklı durumlu pekiştirmeli öğrenmeyi geliştirmek için geçişlerinfrekanslarının kullanımı

  1. Tez No: 770148
  2. Yazar: HÜSEYİN AYDIN
  3. Danışmanlar: PROF. DR. FARUK POLAT, DR. ERKİN ÇİLDEN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 120

Özet

Saklı durumlara sahip pekiştirmeli öğrenme problemleri ortamdaki belirsizlikten önemli derecede olumsuz etkilenmektedir. Bunun nedeni, etmenin algılayışındaki belirsizliğin, içinde bulunduğu durumu doğru bir şekilde tespit etmesinin önüne geçmesidir. Bu nedenle, bu problem kümesi için harici bir hafıza kullanmadan bir çözüm üretmek çok zor ya da bazen imkansızdır. Belirsizliğin yoğun olduğu bir ortamda, geçişlerin frekansları etmenin içinde bulunduğu durumu tespit etmesi açısından daha güvenilir bilgiler sunabilir. Dolayısıyla bu yaklaşım bizi, etmenin tüm deneyimlerini saklamaktan daha verimli ve etkili bir hafıza kullanımı ile beraber daha iyi bir durum tespitine yönlendirebilir. Bu gözlemden yola çıkarak bu tez kapsamında, geçişlerin frekanslarını kullanan seçici bir hafıza yaklaşımı önerilmiştir. Bu hafıza alttaki öğrenme yöntemine yönelik bir kısıtlama barındırmadığından herhangi bir pekiştirmeli öğrenme yöntemini uygulayan etmen bu hafızayı kullanabilecektir. Deneyler kompakt ve seçici bir hafızanın öğrenmeyi geliştirip hızlandırabileceğini Q-Öğrenme ve Sarsa(λ) yöntemleri için göstermiştir. Çalışmanın ikinci kısmı olarak, etmenin problemi daha soyut bir şekilde çözebilmesi için, darboğaz geçişleri arasındaki sırasal ilinti kullanılmıştır. Etmeni çözüme yönlendirecek olan, belirsiz olmayan ve kritik geçişlerin sıralamalarının, yani darboğaz geçiş zincirlerinin kümesinin otomatik tespitini sağlayacak basit yinelemeli bir çözüm önerilmiştir. Üst ve daha soyut bir seviyede, etmen alt-etmenlerini bu zincirdeki herhangi iki geçiş arasında eğiterek, ana hedefe ulaşmak için izlenecek olası alt-politikaları ve bunların değerlerini öğrenebilir. Deney çalışmaları, bu yaklaşımın belirsizliğin yoğun olduğu ve geleneksel yöntemlerin çözüm üretmekte başarısız olduğu ortamlarda daha iyi ve hızlı bir öğrenme gerçekleştirdiğini göstermiştir. Bunun yanı sıra, önerilen yöntemin öğrenme kalitesi, hız ve hafıza kulanımı yönünden, hafıza temelli bir yöntemden daha iyi çalıştığı gözlenmiştir. Son olarak yöntemin kullanıcıdan bağımsız, otomatik bir şekilde problem üzerinde çalışması için Farklı Yoğunluk yöntemiyle entegrasyonu sağlanmıştır. Farklı Yoğunluk yönteminin bulduğu yer işareti durumlar tümüyle doğru olmasa da, deneyler sonuçların potansiyel taşıdığını göstermektedir.

Özet (Çeviri)

Reinforcement learning problems with hidden states suffer from the ambiguity of the environment, since the ambiguity in the agent's perception may prevent the agent from estimating its current state correctly. Therefore, constructing a solution without using an external memory may be extremely difficult or even impossible sometimes. In an ambiguous environment, frequencies of the transitions can provide more reliable information and hence it may lead us to construct more efficient and effective memory instead of keeping all experiences of the agent like the existing memory-based methods. Inspired by this observation, a selective memory approach based on the frequencies of transitions is proposed in the first part of thesis. The agents with any reinforcement learning method can be equipped with this selective memory, since the memory itself does not have any constraints on the underlying method. Experiments show that a compact and selective memory may improve and speed up the learning on both Q-Learning and Sarsa(λ) methods. As the second part of the work, sequential association between transitions is used in order to get a solution in more abstract manner for the problems which can be decomposed by using the bottlenecks in the environment. A simple recursive method is proposed for automatic extraction the set of chains of bottleneck transitions which are sequences of unambiguous and critical transitions leading to the goal state. At the higher level, an agent trains its sub-agents to extract sub-policies corresponding to the sub-tasks, namely two successive transitions in any chain, and learns the value of each sub-policy at the abstract level. Experimentation shows that this approach learns better and faster in the ambiguous domains where conventional methods fail to construct a solution. Furthermore, it has been shown that our method with its early decomposition approach performs better than a memory-based method in terms of quality of the learning, speed and memory usage. Finally, Diverse Density method is integrated with the proposed method to complete the autonomy of the overall process. Although, identified landmarks are not completely accurate, experimentation shows that the results are promising.

Benzer Tezler

  1. Hareket başlatma ve derin beyin uyarımına ilişkin bir bazal çekirdek devresi hesaplamalı modeli

    A computational model of basal ganglia for action initiation and deep brain stimulation

    MUSTAFA YASİR ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. NESLİHAN SERAP ŞENGÖR

  2. Çok amaçlı açıklığı daralan yarık anten tasarımı ve performans artırımına yönelik anten parametrelerinin optimizasyonu

    Multi-objective tapered slot antenna design and optimization of antenna parameters for performance improvement

    EMRAH UĞURLU

    Doktora

    Türkçe

    Türkçe

    2016

    Elektrik ve Elektronik MühendisliğiSelçuk Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SEYFETTİN SİNAN GÜLTEKİN

  3. Bundling shape memory alloy wires to improve frequency response and payload lifting capability

    Frekans cevabının iyileştirilmesi ve taşınabilecek yükün artırılması için şekil hafızalı alaşımların demet olarak kullanılması

    SANİYE DİNDAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞENİZ ERTUĞRUL

  4. Mikrodalga soğurucu tasarımı

    Microwave absorber design

    İBRAHİM ÇATALKAYA

    Doktora

    Türkçe

    Türkçe

    2017

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. SEDEF KENT PINAR

  5. Bilgiişlem ortamı sunan bulut hizmetlerinde kötücül davranışların saptanması

    Classifying malicious behavior in paas services

    CEMİLE DİLER ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN