Geri Dön

Online learning in structured Markov decision processes

Özel yapılı Markov karar süreçlerinde çevrimiçi öğrenme

  1. Tez No: 470030
  2. Yazar: NIMA AKBARZADEH
  3. Danışmanlar: YRD. DOÇ. DR. CEM TEKİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Bu tez öğrenicinin sıralı turlarla hareket ettiği üç yeni çok kollu haydut problemi sunmaktadır. Her tur birer Markov Karar Süreci (MKS) olarak modellenmiştir. Oğrencinin amaç durum geçiş olasılıkları üzerinde herhangi ön bilgi olmadan toplam ödülü maksimize etmektir. İlk problem, sıralı durumların, öğreniciyi komşu bir duruma hareket ettiren devam eylemlerinin ve öğreniciyi amaç veya çıkmaz duruma götüren sonlandırma eylemlerinin olduğu bir MKSdir. Bu problemde, terminal duruma gelindiğinde tur sona erer ve bir sonraki tura geçilir. Her bir turda öğrenicinin hedefi amaç durumuna erişmektir. Öncelikle, en iyi poliçenin yapısı türetilmiştir. Sonrasında, öğrenicinin her turda en uygun aksiyonları alan kahin poliçeye göre pişmanlığı tanımlanmış ve en uygun poliçenin yapısından faydalanan bir öğrenme algoritması önerilmiştir. Son olarak, pişmanlığın tur sayısına göre logaritmik olarak arttığı veya sınırlı olduğu gösterilmiştir. İkinci problemde, kişiselleştirilmiş klinik tedaviler incelenmiştir. Bunlar amaç odaklı çıkmaz durumlu MKS olarak modellenmiştir. Bununla birlikle, MKS'nin durum geçiş olasılıkları hastanın bağlamıyla ilintilidir. Amaç durumuna erişen tur sayısını belirsizlik karşısında iyimserlik kuralını kullanarak maksimize eden bir algoritma geliştirilmiştir. Üçüncü problemde, limitli emir kitabında eniyi hisse satışı problemi ele alınmıştır. Belirli miktardaki hissenin belirli bir süre içerisinde satılması gerektiğinde, algoritma, bu sürenin zaman aralıklarında satması gereken en uygun hisse sayısını dinamik olarak öğrenir. Bu problem bir MKS olarak modellenmiş ve en iyi poliçenin formu türetilmiştir.

Özet (Çeviri)

This thesis proposes three new multi-armed bandit problems, in which the learner proceeds in a sequence of rounds where each round is a Markov Decision Process (MDP). The learner's goal is to maximize its cumulative reward without any a priori knowledge on the state transition probabilities. The first problem considers an MDP with sorted states and a continuation action that moves the learner to an adjacent state; and a terminal action that moves the learner to a terminal state (goal or dead-end state). In this problem, a round ends and the next round starts when a terminal state is reached, and the aim of the learner in each round is to reach the goal state. First, the structure of the optimal policy is derived. Then, the regret of the learner with respect to an oracle, who takes optimal actions in each round is defined, and a learning algorithm that exploits the structure of the optimal policy is proposed. Finally, it is shown that the regret either increases logarithmically over rounds or becomes bounded. In the second problem, we investigate the personalization of a clinical treatment. This process is modeled as a goal-oriented MDP with dead-end states. Moreover, the state transition probabilities of the MDP depends on the context of the patients. An algorithm that uses the rule of optimism in face of uncertainty is proposed to maximize the number of rounds in which the goal state is reached. In the third problem, we propose an online learning algorithm for optimal execution in the limit order book of a financial asset. Given a certain amount of shares to sell and an allocated time to complete the transaction, the proposed algorithm dynamically learns the optimal number of shares to sell at each time slot of the allocated time. We model this problem as an MDP, and derive the form of the optimal policy.

Benzer Tezler

  1. Purchase prediction and item prediction with RNN using different user-item interactions

    Farklı kullanıcı-ürün etkileşim türlerini kullanarak özyineli sinir ağları ile ürün ve satış tahminlemesi

    FULYA ÇELEBİ SARIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  2. Splice site prediction using machine learning

    Makine öğrenmesi kullanarak uçbirleştirme yeri tahmini

    ELHAM PASHAEI

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NİZAMETTİN AYDIN

  3. Çizge ve içerik verilerinde kolektif sınıflandırma algoritmalarının karşılaştırılması

    A comparison of collective classification techniques on network and content data

    ÖZGE ATASEVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF YASLAN

  4. Öğretmenlere yönelik üstbilişsel stratejilere dayalı çevrimiçi mesleki gelişim uygulamasının geliştirilmesi

    Development of an online professional development platform based on metacognitive strategies for teachers

    FATMA KÜBRA ÇELEN

    Doktora

    Türkçe

    Türkçe

    2018

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    PROF. DR. SÜLEYMAN SADİ SEFEROĞLU

  5. Oyunlaştırılmış işe özgü çevrimiçi öğrenme ortamının geliştirilmesi ve etkisinin değerlendirilmesi: İş sağlığı ve güvenliği örneği

    Development of a gamified job-specific online learning environment and assessment of its impact for occupational health and safety training

    HASAN TANIŞ

    Doktora

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    PROF. DR. HAKAN TÜZÜN