Geri Dön

A heuristic temporal difference approach with adaptive grid discretization

Adaptif ızgara ayrıklaştırması ile sezgisel zamansal fark yaklaşımı

  1. Tez No: 442358
  2. Yazar: OZAN BORA FİKİR
  3. Danışmanlar: PROF. DR. FARUK POLAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Mühendislik Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 59

Özet

Makine öğreniminin bir alt dalı olan pekiştirmeli öğrenme, otonom bir etmenin herhangi bir çevrede aksiyon alarak nihai bir hedefe ulaşmaya çalıştığı problemlere odaklanmaktadır. Bu problemlerde çevre bir Markov karar süreci olarak modellenmektedir. Ancak, gerçek hayat problemlerinde çevre, bu şekilde modellenebilecek kadar kusursuz değildir, bu durumda Markov karar sürecinin kabul ettiği tam gözlemlenebilirlik varsayımdan vazgeçmemiz gerekmektedir. Ortaya çıkan kısmi gözlemlenebilir Markov karar süreci modeli, daha gerçekçi olup daha zor bir problem alanı tanımlar. Bu problemlerin çözümünde karşımıza çıkan en önemli sorun otonom etmenin gözünde modelin hesaba dayalı denemelerinin sonuçsuz kalabilmesidir. Bu modelde, otonom etmen kanı adı verdiğimiz ve çevrenin gerçek durumları üzerine tanımlanmış bir olasılık dağılımı ile Markov özelliğini sağlar ancak bir olasılık uzayında çalışmak zorundadır. Bu tezde, kısmi gözlemlenebilir Markov karar süreç problemlerinde karşımıza çıkan ve bir sürekli olasılık olayı olan kanı uzayının iki farklı yöntemle iyi tanımlanmış ve düzenli bölgelere ayrıştırılarak kanı uzayı karmaşıklığının bu soyutlama yöntemi ile azaltılamasına çalışılmıştır. Sonrasında, bu soyutlamayı sezgisel bir kestirme yöntemi içinde kullanılarak iki farklı çevrim içi pekiştirmeli öğrenme yöntemi sunulmuştur.

Özet (Çeviri)

Reinforcement learning (RL), as an area of machine learning, tackle with the problem defined in an environment where an autonomous agent ought to take actions to achieve an ultimate goal. In RL problems, the environment is typically formulated as a Markov decision process. However, in real life problems, the environment is not flawless to be formulated as an MDP, and we need to relax fully observability assumption of MDP. The resulting model is partially observable Markov decision process, which is a more realistic model but forms a difficult problem setting. In this model agent cannot directly access to true state of the environment, but to the observations which provides a partial information about the true state of environment. There are two common ways to solve POMDP problems; first one is to neglect the true state of the environment and directly rely on the observations. The second one is to define a belief state which is probability distribution over the actual states. However, since the belief state definition is based on probability distribution, the agent has to handle with continuous space unlike MDP case, which may become intractable easily in autonomous agent perspective. In this thesis, we focus on belief space solutions and attempt to reduce the complexity of belief space by partitioning continuous belief space into well-defined and regular regions with two different types of grid discretization as an abstraction over belief space. Then we define an approximate value function which can be used in an online temporal difference learning.

Benzer Tezler

  1. Inventory optimization under process flexibility assumptions using approximate dynamic programming approaches

    Süreç esnekliği varsayımları altında benzetimsel dinamik programlama yaklaşımlarıyla envanter optimizasyonu

    MUSTAFA ÇİMEN

    Doktora

    İngilizce

    İngilizce

    2014

    İşletmeLancaster University

    İşletme Ana Bilim Dalı

    PROF. DR. KEVIN GLAZEBROOK

    DR. CHRISTOPHER KIRKBRIDE

  2. A method for group activity recognition in volleyball videos with extensions to domain generalization

    Alan genelleştirme uzantılarıyla voleybol videolarında grup aktivite tanıma için bir yöntem

    BERKER DEMİREL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN ÖZKAN

  3. Multi-period line planning in public transportation

    Toplu taşıma sistemlerinde çok dönemli hat planlama problemi

    AMIN AHMADI DIGEHSARA

    Doktora

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiSabancı Üniversitesi

    PROF. DR. GÜVENÇ ŞAHİN

  4. Duyumsamayı ortaya çıkaran bir karşılaşma olarak mimari temsil

    Architectural representation as an encounter that makes sensation emerge

    HAYDAR OZAN AVCI

    Doktora

    Türkçe

    Türkçe

    2016

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. AYŞE ŞENTÜRER

  5. Bilişsel robotlar için öğrenme güdümlü sembolik planlama

    Learning guided symbolic planning for cognitive robots

    PETEK YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SANEM SARIEL TALAY