A heuristic temporal difference approach with adaptive grid discretization

Adaptif ızgara ayrıklaştırması ile sezgisel zamansal fark yaklaşımı

PDF İndir

Tez No: 442358
Yazar: OZAN BORA FİKİR
Danışmanlar: PROF. DR. FARUK POLAT
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2016
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Mühendislik Bilimleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 59

Özet

Makine öğreniminin bir alt dalı olan pekiştirmeli öğrenme, otonom bir etmenin herhangi bir çevrede aksiyon alarak nihai bir hedefe ulaşmaya çalıştığı problemlere odaklanmaktadır. Bu problemlerde çevre bir Markov karar süreci olarak modellenmektedir. Ancak, gerçek hayat problemlerinde çevre, bu şekilde modellenebilecek kadar kusursuz değildir, bu durumda Markov karar sürecinin kabul ettiği tam gözlemlenebilirlik varsayımdan vazgeçmemiz gerekmektedir. Ortaya çıkan kısmi gözlemlenebilir Markov karar süreci modeli, daha gerçekçi olup daha zor bir problem alanı tanımlar. Bu problemlerin çözümünde karşımıza çıkan en önemli sorun otonom etmenin gözünde modelin hesaba dayalı denemelerinin sonuçsuz kalabilmesidir. Bu modelde, otonom etmen kanı adı verdiğimiz ve çevrenin gerçek durumları üzerine tanımlanmış bir olasılık dağılımı ile Markov özelliğini sağlar ancak bir olasılık uzayında çalışmak zorundadır. Bu tezde, kısmi gözlemlenebilir Markov karar süreç problemlerinde karşımıza çıkan ve bir sürekli olasılık olayı olan kanı uzayının iki farklı yöntemle iyi tanımlanmış ve düzenli bölgelere ayrıştırılarak kanı uzayı karmaşıklığının bu soyutlama yöntemi ile azaltılamasına çalışılmıştır. Sonrasında, bu soyutlamayı sezgisel bir kestirme yöntemi içinde kullanılarak iki farklı çevrim içi pekiştirmeli öğrenme yöntemi sunulmuştur.

Özet (Çeviri)

Reinforcement learning (RL), as an area of machine learning, tackle with the problem defined in an environment where an autonomous agent ought to take actions to achieve an ultimate goal. In RL problems, the environment is typically formulated as a Markov decision process. However, in real life problems, the environment is not flawless to be formulated as an MDP, and we need to relax fully observability assumption of MDP. The resulting model is partially observable Markov decision process, which is a more realistic model but forms a difficult problem setting. In this model agent cannot directly access to true state of the environment, but to the observations which provides a partial information about the true state of environment. There are two common ways to solve POMDP problems; first one is to neglect the true state of the environment and directly rely on the observations. The second one is to define a belief state which is probability distribution over the actual states. However, since the belief state definition is based on probability distribution, the agent has to handle with continuous space unlike MDP case, which may become intractable easily in autonomous agent perspective. In this thesis, we focus on belief space solutions and attempt to reduce the complexity of belief space by partitioning continuous belief space into well-defined and regular regions with two different types of grid discretization as an abstraction over belief space. Then we define an approximate value function which can be used in an online temporal difference learning.

Benzer Tezler

Tez No
743475
Inventory optimization under process flexibility assumptions using approximate dynamic programming approaches
Süreç esnekliği varsayımları altında benzetimsel dinamik programlama yaklaşımlarıyla envanter optimizasyonu
MUSTAFA ÇİMEN
Doktora
İngilizce
2014
İşletme Lancaster University
İşletme Ana Bilim Dalı
PROF. DR. KEVIN GLAZEBROOK
DR. CHRISTOPHER KIRKBRIDE
Tez No
822382
A method for group activity recognition in volleyball videos with extensions to domain generalization
Alan genelleştirme uzantılarıyla voleybol videolarında grup aktivite tanıma için bir yöntem
BERKER DEMİREL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HÜSEYİN ÖZKAN
Tez No
939205
Multipart music transcription using deep neural networks
Derin öğrenme ağları ile çok sesli müzik transkripsiyonu
EMİN GERMEN
Doktora
İngilizce
2025
Müzik İstanbul Teknik Üniversitesi
Müzik Ana Bilim Dalı
PROF. DR. CAN KARADOĞAN
Tez No
731142
Multi-period line planning in public transportation
Toplu taşıma sistemlerinde çok dönemli hat planlama problemi
AMIN AHMADI DIGEHSARA
Doktora
İngilizce
2022
Endüstri ve Endüstri Mühendisliği Sabancı Üniversitesi
PROF. DR. GÜVENÇ ŞAHİN
Tez No
439649
Duyumsamayı ortaya çıkaran bir karşılaşma olarak mimari temsil
Architectural representation as an encounter that makes sensation emerge
HAYDAR OZAN AVCI
Doktora
Türkçe
2016
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. AYŞE ŞENTÜRER

Geri Dön