Explorations on inverse reinforcement learning for the analysis of motor control and cognitive decision making mechanisms of the brain

Motor kontrol ve beynin bilişsel karar verme mekanizmalarını analiz etmek üzere tersine pekiştirmeli öğrenme ile keşifler

PDF İndir

Tez No: 722758
Yazar: EMİR ARDİTİ
Danışmanlar: PROF. DR. ERHAN ÖZTOP, DR. ÖĞR. ÜYESİ REYHAN AYDOĞAN, DOÇ. DR. EMRE UĞUR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: İngilizce
Üniversite: Özyeğin Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
Sayfa Sayısı: 75

Özet

Pekiştirmeli öğrenme, farklı ortamlarda, verilen ödül ceza yapısına göre en uygun politikaları bulma sistemidir. Benzer şekilde, Tersine Pekiştirmeli Öğrenme de, adından anlaşılabileceği gibi, bir uzmandan alınan en uygun politikanın arkasındaki sebepleri bulmak için kullanılır. Bu araştırmada, güncel Pekiştirmeli Öğrenme ve Tersine Pekiştirmeli Öğrenme metotlarının, beynin motor kontrol ve bilişsel karar alma mekanizmalarının arkasındaki eniyileme prensiplerini modelleyen araçlar olarak kullanılabilmesini keşfetmeyi amaçlıyoruz. Bu amaç için, beynin farklı duyusal motor özelliklerini hedefleyen farklı görevleri hedefledik. Niyetimiz, beyin tarafından farklı alanlar için oluşturulan en iyileme kriterlerini keşfedebilmek. Bu başarılabildiği takdirde, varolan veya yeni bir metot ile, insan davranışlarını daha düşük bir yanlılık ile analiz edebilir, anlayabilir ve taklit edebiliriz. Bu tezin kapsamı doğrultusunda, iki tane görevi hedefledik. İlk görev, algısal gelişimin Pekiştirmeli Öğrenme'ye uygulanabilirliğinin araştırılmasıdır. Bu görev için, bir Pekiştirmeli Öğrenme ajanı, kendi önerdiğimiz bir algısal gelişim tabanlı gelişimsel rejim ile eğittik. Sonuçlarımız, uygun bir algısal gelişim rejiminin, Pekiştirmeli Öğrenme'nin öğrenme ilerlemesini geliştirebileceğini ve daha iyi ajanlar üretebileceğini önerdi. İkinci görev ise, Tersine Pekiştirmeli Öğrenme ile, uzmanların ödül fonksiyonu parametrelerini keşfetmekti. Bunun için, iki tane farklı Tersine Pekiştirmeli Öğrenme mekanizması oluşturduk ve sonuçlarımız geçerli ödül fonksiyonu parametreleri keşfettiğimizi önermektedir.

Özet (Çeviri)

Reinforcement Learning is a framework for generating optimal policies given a task and a reward/punishment structure. Likewise, Inverse Reinforcement Learning, as the name suggests, is used for recovering the reasoning behind an optimal policy based on demonstrations from an expert. We set out to explore whether recent Reinforcement Learning and Inverse Reinforcement Learning methods can serve as a computational tool for investigating optimality principles of motor control and cognitive decision-making mechanisms of the brain. For this purpose, we have targeted several different tasks involved with different parts of the sensorimotor learning mechanism of the brain. We aim to recover the optimality principles employed by the brain for various control and decision-making tasks. If this is achieved, we can analyze, understand, mimic and improve demonstrated behavior with less bias, which we hope is a step forward in understanding the process of learning in both human-based and artificial systems. For the scope of this thesis, we have evaluated two tasks. The first task was investigating the applicability of perceptual development for Reinforcement Learning. For this task, we have proposed a perceptual development based learning regime for a Reinforcement Learning agent, and the results obtained suggest that a suitable perceptual development regime may improve the learning progress and yield better-performing agents. The second task was to predict reward function parameters of a provided trajectory in a standing up under perturbation scenario. For this task, we have proposed two different Inverse Reinforcement Learning approaches. Our results indicate that we were able to infer valid reward parameters on synthetic data.

Benzer Tezler

Tez No
729328
Overcoming hard exploration problem in Markov decision process using inverse reinforcement learning and human demonstrations
Markov karar sürecinde zor keşif probleminin ters pekiştirmeli öğrenme ve insan gösterimleri kullanılarak aşılması
WADHAH ZEYAD TAREQ TAREQ
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET FATİH AMASYALI
Tez No
75056
Gömülü iletken cisimlerin elektromagnetik dalgalar yardımı ile zaman domeninde algılanması
Başlık çevirisi yok
SELÇUK PAKER
Doktora
Türkçe
1998
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. BİNGÜL YAZGAN
Tez No
222442
Jeotermal enerji aramalarında manyetotellürik yöntemin kütahya-gediz-şaphane sahasına uygulanması
Magnetotelluric methode in geothermal energy explorations:application in kütahya-gediz-şaphane site
BELGİN ÇİRKİN
Yüksek Lisans
Türkçe
2007
Jeofizik Mühendisliği Niğde Üniversitesi
Jeoloji Mühendisliği Ana Bilim Dalı
PROF.DR. İBRAHİM ÇOPUROĞLU
Y.DOÇ.DR. TEKİN YEKEN
Tez No
392969
Novel control and communication approaches for performance improvement in networked control systems
Ağ üzerinden kontrol sistemlerinin performans iyileştirmesi için yeni kontrol ve haberleşme yaklaşımları
AHMET KUZU
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. METİN GÖKAŞAN
PROF. DR. OVSANNA SETA ESTRADA
Tez No
665540
An efficient design optimization framework for rf and optical applications
Başlık çevirisi yok
ORKUN KARABAŞOĞLU
Yüksek Lisans
İngilizce
2008
Mekatronik Mühendisliği Sabancı Üniversitesi
Mühendislik Bilimleri Ana Bilim Dalı
DOÇ. DR. GULLU KIZILTAS

Geri Dön