Imagining alternative actions for improved sample efficiency during policy learning
Politika öğrenimi sırasında artırılmış örnek verimliliği için alternatif eylemlerin hayal edilmesi
- Tez No: 882893
- Danışmanlar: DOÇ. DR. EMRE UĞUR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 72
Özet
Bu tez, yerel olarak öğrenilen yaklaşık bir dünya modeline dayalı alternatif eylemlerin hayal edilmesini içeren yeni bir mekanizma aracılığıyla pekiştirmeli öğrenmede örnek verimliliğini artırmayı araştırmaktadır. Bu yaklaşım, sürekli Cart Pole, Hopper ve Walker2d gibi çeşitli simüle edilmiş ortamlarda uygulanmış ve politika ağ mimarisinde Koşullu Sinir Süreçleri (CNP) ve Çok Katmanlı Perseptronların (MLP) kullanılmasının potansiyel faydalarını incelemekle kalmayıp, hipotetik ödüllere ve hipotetik durum-eylem değer yaklaşımlarına dayanan iki farklı yeni hedefin kullanımını da araştır-maktadır. Bulgularımız, CNP'lerin test edilen ortamlarda öğrenmeyi geliştirmediğini gösterirken, alternatif eylem hayal etme mekanizmasının, MLP'ler ve öğrenilmiş dünya modelleri ile uygulandığında performansı artırma potansiyeline sahip olduğunu ortaya koymuştur. Özellikle bu mekanizma, keşfi etkili bir şekilde yönlendirerek, iki deneyde potansiyel olarak daha hızlı yakınsama ve ortalama bölüm getirilerinde iyileşmeye yol açmıştır. Bununla birlikte, bu mekanizmanın etkinliği farklı deney ortamları arasında değişiklik göstermiş ve Walker2d ortamında daha az belirgin olmuştur. Çalışma ayrıca, mükemmel dünya modeli kullanıldığı takdirde önerilen yöntemin sub-optimal politikalara yakınsaması riskini deneysel olarak ortaya koymuştur.
Özet (Çeviri)
This study explores enhancing sample efficiency in reinforcement learning by a novel mechanism that involves the imagination of alternative actions based on a learned local approximate world model. Two different novel objectives for imagined actions that are based on hypothetical rewards and hypothetical state-action value approximations are also implemented. The potential benefits of using Conditional Neural Processes (CNP) as the policy network architecture are also investigated in comparative analyses. The proposed method is tested in several simulated environments, including Continuous Cart Pole, Hopper, and Walker2d. Our findings reveal that while CNPs do not improve learning in the tested environments, the alternative action imagination mechanism shows promise for improving performance when implemented with MLPs and learned world models. In particular, this mechanism effectively guided exploration, leading to potentially faster convergence and improved average episode returns in two experiments. However, its effectiveness varied across different setups and was less pronounced in the Walker2d environment. The study also highlighted the risks of over-optimization when using perfect world models, emphasizing the benefits of learned models in maintaining effective exploration and preventing premature convergence to sub-optimal policies.
Benzer Tezler
- Multi - capsule endoscopy: Demonstrations of inter - capsular control and (tactile) sensing
Çoklu - kapsül endoskopi: Kapsüller arası kontrol ve (dokunsal) algılama yöntemleri
FURKAN PEKER
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. ONUR FERHANOĞLU
- Tasarlama faaliyeti ve tasarımcı nitelikleri üzerine bir inceleme
A Study on the design activity and the characteristics o designers
TÜRKAN TURUTHAN
- Kapalı mekandaki acil durum senaryosunda tahliye alanlarının incelenmesi
Examination of evacuation areas in an indoor emergency scenario
MEHMET RAŞİD ÜÇKARDEŞLER
Yüksek Lisans
Türkçe
2023
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. HİMMET KARAMAN
- Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması
Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques
FATMA AKALIN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NEJAT YUMUŞAK
- Optimisation of a wearable neuromodulator for migraine using computational methods
Başlık çevirisi yok
ENVER SALKIM
Doktora
İngilizce
2018
Elektrik ve Elektronik MühendisliğiUniversity of London - University College LondonProf. ANDREAS DEMOSTHENOUS