A heuristic temporal difference approach with adaptive grid discretization
Adaptif ızgara ayrıklaştırması ile sezgisel zamansal fark yaklaşımı
- Tez No: 442358
- Danışmanlar: PROF. DR. FARUK POLAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mühendislik Bilimleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 59
Özet
Makine öğreniminin bir alt dalı olan pekiştirmeli öğrenme, otonom bir etmenin herhangi bir çevrede aksiyon alarak nihai bir hedefe ulaşmaya çalıştığı problemlere odaklanmaktadır. Bu problemlerde çevre bir Markov karar süreci olarak modellenmektedir. Ancak, gerçek hayat problemlerinde çevre, bu şekilde modellenebilecek kadar kusursuz değildir, bu durumda Markov karar sürecinin kabul ettiği tam gözlemlenebilirlik varsayımdan vazgeçmemiz gerekmektedir. Ortaya çıkan kısmi gözlemlenebilir Markov karar süreci modeli, daha gerçekçi olup daha zor bir problem alanı tanımlar. Bu problemlerin çözümünde karşımıza çıkan en önemli sorun otonom etmenin gözünde modelin hesaba dayalı denemelerinin sonuçsuz kalabilmesidir. Bu modelde, otonom etmen kanı adı verdiğimiz ve çevrenin gerçek durumları üzerine tanımlanmış bir olasılık dağılımı ile Markov özelliğini sağlar ancak bir olasılık uzayında çalışmak zorundadır. Bu tezde, kısmi gözlemlenebilir Markov karar süreç problemlerinde karşımıza çıkan ve bir sürekli olasılık olayı olan kanı uzayının iki farklı yöntemle iyi tanımlanmış ve düzenli bölgelere ayrıştırılarak kanı uzayı karmaşıklığının bu soyutlama yöntemi ile azaltılamasına çalışılmıştır. Sonrasında, bu soyutlamayı sezgisel bir kestirme yöntemi içinde kullanılarak iki farklı çevrim içi pekiştirmeli öğrenme yöntemi sunulmuştur.
Özet (Çeviri)
Reinforcement learning (RL), as an area of machine learning, tackle with the problem defined in an environment where an autonomous agent ought to take actions to achieve an ultimate goal. In RL problems, the environment is typically formulated as a Markov decision process. However, in real life problems, the environment is not flawless to be formulated as an MDP, and we need to relax fully observability assumption of MDP. The resulting model is partially observable Markov decision process, which is a more realistic model but forms a difficult problem setting. In this model agent cannot directly access to true state of the environment, but to the observations which provides a partial information about the true state of environment. There are two common ways to solve POMDP problems; first one is to neglect the true state of the environment and directly rely on the observations. The second one is to define a belief state which is probability distribution over the actual states. However, since the belief state definition is based on probability distribution, the agent has to handle with continuous space unlike MDP case, which may become intractable easily in autonomous agent perspective. In this thesis, we focus on belief space solutions and attempt to reduce the complexity of belief space by partitioning continuous belief space into well-defined and regular regions with two different types of grid discretization as an abstraction over belief space. Then we define an approximate value function which can be used in an online temporal difference learning.
Benzer Tezler
- Inventory optimization under process flexibility assumptions using approximate dynamic programming approaches
Süreç esnekliği varsayımları altında benzetimsel dinamik programlama yaklaşımlarıyla envanter optimizasyonu
MUSTAFA ÇİMEN
Doktora
İngilizce
2014
İşletmeLancaster Universityİşletme Ana Bilim Dalı
PROF. DR. KEVIN GLAZEBROOK
DR. CHRISTOPHER KIRKBRIDE
- A method for group activity recognition in volleyball videos with extensions to domain generalization
Alan genelleştirme uzantılarıyla voleybol videolarında grup aktivite tanıma için bir yöntem
BERKER DEMİREL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HÜSEYİN ÖZKAN
- Multi-period line planning in public transportation
Toplu taşıma sistemlerinde çok dönemli hat planlama problemi
AMIN AHMADI DIGEHSARA
- Duyumsamayı ortaya çıkaran bir karşılaşma olarak mimari temsil
Architectural representation as an encounter that makes sensation emerge
HAYDAR OZAN AVCI
- Bilişsel robotlar için öğrenme güdümlü sembolik planlama
Learning guided symbolic planning for cognitive robots
PETEK YILDIZ
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SANEM SARIEL TALAY