Imagining alternative actions for improved sample efficiency during policy learning

Politika öğrenimi sırasında artırılmış örnek verimliliği için alternatif eylemlerin hayal edilmesi

PDF İndir

Tez No: 882893
Yazar: MUHAMMET HATİPOĞLU
Danışmanlar: DOÇ. DR. EMRE UĞUR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 72

Özet

Bu tez, yerel olarak öğrenilen yaklaşık bir dünya modeline dayalı alternatif eylemlerin hayal edilmesini içeren yeni bir mekanizma aracılığıyla pekiştirmeli öğrenmede örnek verimliliğini artırmayı araştırmaktadır. Bu yaklaşım, sürekli Cart Pole, Hopper ve Walker2d gibi çeşitli simüle edilmiş ortamlarda uygulanmış ve politika ağ mimarisinde Koşullu Sinir Süreçleri (CNP) ve Çok Katmanlı Perseptronların (MLP) kullanılmasının potansiyel faydalarını incelemekle kalmayıp, hipotetik ödüllere ve hipotetik durum-eylem değer yaklaşımlarına dayanan iki farklı yeni hedefin kullanımını da araştır-maktadır. Bulgularımız, CNP'lerin test edilen ortamlarda öğrenmeyi geliştirmediğini gösterirken, alternatif eylem hayal etme mekanizmasının, MLP'ler ve öğrenilmiş dünya modelleri ile uygulandığında performansı artırma potansiyeline sahip olduğunu ortaya koymuştur. Özellikle bu mekanizma, keşfi etkili bir şekilde yönlendirerek, iki deneyde potansiyel olarak daha hızlı yakınsama ve ortalama bölüm getirilerinde iyileşmeye yol açmıştır. Bununla birlikte, bu mekanizmanın etkinliği farklı deney ortamları arasında değişiklik göstermiş ve Walker2d ortamında daha az belirgin olmuştur. Çalışma ayrıca, mükemmel dünya modeli kullanıldığı takdirde önerilen yöntemin sub-optimal politikalara yakınsaması riskini deneysel olarak ortaya koymuştur.

Özet (Çeviri)

This study explores enhancing sample efficiency in reinforcement learning by a novel mechanism that involves the imagination of alternative actions based on a learned local approximate world model. Two different novel objectives for imagined actions that are based on hypothetical rewards and hypothetical state-action value approximations are also implemented. The potential benefits of using Conditional Neural Processes (CNP) as the policy network architecture are also investigated in comparative analyses. The proposed method is tested in several simulated environments, including Continuous Cart Pole, Hopper, and Walker2d. Our findings reveal that while CNPs do not improve learning in the tested environments, the alternative action imagination mechanism shows promise for improving performance when implemented with MLPs and learned world models. In particular, this mechanism effectively guided exploration, leading to potentially faster convergence and improved average episode returns in two experiments. However, its effectiveness varied across different setups and was less pronounced in the Walker2d environment. The study also highlighted the risks of over-optimization when using perfect world models, emphasizing the benefits of learned models in maintaining effective exploration and preventing premature convergence to sub-optimal policies.

Benzer Tezler

Tez No
849111
Multi - capsule endoscopy: Demonstrations of inter - capsular control and (tactile) sensing
Çoklu - kapsül endoskopi: Kapsüller arası kontrol ve (dokunsal) algılama yöntemleri
FURKAN PEKER
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. ONUR FERHANOĞLU
Tez No
3437
Tasarlama faaliyeti ve tasarımcı nitelikleri üzerine bir inceleme
A Study on the design activity and the characteristics o designers
TÜRKAN TURUTHAN
Doktora
Türkçe
1987
Mimarlık Karadeniz Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF.DR. ZAFER ERTÜRK
Tez No
786611
Kapalı mekandaki acil durum senaryosunda tahliye alanlarının incelenmesi
Examination of evacuation areas in an indoor emergency scenario
MEHMET RAŞİD ÜÇKARDEŞLER
Yüksek Lisans
Türkçe
2023
Bilim ve Teknoloji İstanbul Teknik Üniversitesi
Bilişim Uygulamaları Ana Bilim Dalı
PROF. DR. HİMMET KARAMAN
Tez No
787786
Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması
Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques
FATMA AKALIN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NEJAT YUMUŞAK
Tez No
584490
Optimisation of a wearable neuromodulator for migraine using computational methods
Başlık çevirisi yok
ENVER SALKIM
Doktora
İngilizce
2018
Elektrik ve Elektronik Mühendisliği University of London - University College London
Prof. ANDREAS DEMOSTHENOUS

Geri Dön