Geri Dön

Imagining alternative actions for improved sample efficiency during policy learning

Politika öğrenimi sırasında artırılmış örnek verimliliği için alternatif eylemlerin hayal edilmesi

  1. Tez No: 882893
  2. Yazar: MUHAMMET HATİPOĞLU
  3. Danışmanlar: DOÇ. DR. EMRE UĞUR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Bu tez, yerel olarak öğrenilen yaklaşık bir dünya modeline dayalı alternatif eylemlerin hayal edilmesini içeren yeni bir mekanizma aracılığıyla pekiştirmeli öğrenmede örnek verimliliğini artırmayı araştırmaktadır. Bu yaklaşım, sürekli Cart Pole, Hopper ve Walker2d gibi çeşitli simüle edilmiş ortamlarda uygulanmış ve politika ağ mimarisinde Koşullu Sinir Süreçleri (CNP) ve Çok Katmanlı Perseptronların (MLP) kullanılmasının potansiyel faydalarını incelemekle kalmayıp, hipotetik ödüllere ve hipotetik durum-eylem değer yaklaşımlarına dayanan iki farklı yeni hedefin kullanımını da araştır-maktadır. Bulgularımız, CNP'lerin test edilen ortamlarda öğrenmeyi geliştirmediğini gösterirken, alternatif eylem hayal etme mekanizmasının, MLP'ler ve öğrenilmiş dünya modelleri ile uygulandığında performansı artırma potansiyeline sahip olduğunu ortaya koymuştur. Özellikle bu mekanizma, keşfi etkili bir şekilde yönlendirerek, iki deneyde potansiyel olarak daha hızlı yakınsama ve ortalama bölüm getirilerinde iyileşmeye yol açmıştır. Bununla birlikte, bu mekanizmanın etkinliği farklı deney ortamları arasında değişiklik göstermiş ve Walker2d ortamında daha az belirgin olmuştur. Çalışma ayrıca, mükemmel dünya modeli kullanıldığı takdirde önerilen yöntemin sub-optimal politikalara yakınsaması riskini deneysel olarak ortaya koymuştur.

Özet (Çeviri)

This study explores enhancing sample efficiency in reinforcement learning by a novel mechanism that involves the imagination of alternative actions based on a learned local approximate world model. Two different novel objectives for imagined actions that are based on hypothetical rewards and hypothetical state-action value approximations are also implemented. The potential benefits of using Conditional Neural Processes (CNP) as the policy network architecture are also investigated in comparative analyses. The proposed method is tested in several simulated environments, including Continuous Cart Pole, Hopper, and Walker2d. Our findings reveal that while CNPs do not improve learning in the tested environments, the alternative action imagination mechanism shows promise for improving performance when implemented with MLPs and learned world models. In particular, this mechanism effectively guided exploration, leading to potentially faster convergence and improved average episode returns in two experiments. However, its effectiveness varied across different setups and was less pronounced in the Walker2d environment. The study also highlighted the risks of over-optimization when using perfect world models, emphasizing the benefits of learned models in maintaining effective exploration and preventing premature convergence to sub-optimal policies.

Benzer Tezler

  1. Multi - capsule endoscopy: Demonstrations of inter - capsular control and (tactile) sensing

    Çoklu - kapsül endoskopi: Kapsüller arası kontrol ve (dokunsal) algılama yöntemleri

    FURKAN PEKER

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ONUR FERHANOĞLU

  2. Tasarlama faaliyeti ve tasarımcı nitelikleri üzerine bir inceleme

    A Study on the design activity and the characteristics o designers

    TÜRKAN TURUTHAN

    Doktora

    Türkçe

    Türkçe

    1987

    MimarlıkKaradeniz Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF.DR. ZAFER ERTÜRK

  3. Kapalı mekandaki acil durum senaryosunda tahliye alanlarının incelenmesi

    Examination of evacuation areas in an indoor emergency scenario

    MEHMET RAŞİD ÜÇKARDEŞLER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. HİMMET KARAMAN

  4. Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması

    Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques

    FATMA AKALIN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEJAT YUMUŞAK