Online learning in structured Markov decision processes
Özel yapılı Markov karar süreçlerinde çevrimiçi öğrenme
- Tez No: 470030
- Danışmanlar: YRD. DOÇ. DR. CEM TEKİN
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 97
Özet
Bu tez öğrenicinin sıralı turlarla hareket ettiği üç yeni çok kollu haydut problemi sunmaktadır. Her tur birer Markov Karar Süreci (MKS) olarak modellenmiştir. Oğrencinin amaç durum geçiş olasılıkları üzerinde herhangi ön bilgi olmadan toplam ödülü maksimize etmektir. İlk problem, sıralı durumların, öğreniciyi komşu bir duruma hareket ettiren devam eylemlerinin ve öğreniciyi amaç veya çıkmaz duruma götüren sonlandırma eylemlerinin olduğu bir MKSdir. Bu problemde, terminal duruma gelindiğinde tur sona erer ve bir sonraki tura geçilir. Her bir turda öğrenicinin hedefi amaç durumuna erişmektir. Öncelikle, en iyi poliçenin yapısı türetilmiştir. Sonrasında, öğrenicinin her turda en uygun aksiyonları alan kahin poliçeye göre pişmanlığı tanımlanmış ve en uygun poliçenin yapısından faydalanan bir öğrenme algoritması önerilmiştir. Son olarak, pişmanlığın tur sayısına göre logaritmik olarak arttığı veya sınırlı olduğu gösterilmiştir. İkinci problemde, kişiselleştirilmiş klinik tedaviler incelenmiştir. Bunlar amaç odaklı çıkmaz durumlu MKS olarak modellenmiştir. Bununla birlikle, MKS'nin durum geçiş olasılıkları hastanın bağlamıyla ilintilidir. Amaç durumuna erişen tur sayısını belirsizlik karşısında iyimserlik kuralını kullanarak maksimize eden bir algoritma geliştirilmiştir. Üçüncü problemde, limitli emir kitabında eniyi hisse satışı problemi ele alınmıştır. Belirli miktardaki hissenin belirli bir süre içerisinde satılması gerektiğinde, algoritma, bu sürenin zaman aralıklarında satması gereken en uygun hisse sayısını dinamik olarak öğrenir. Bu problem bir MKS olarak modellenmiş ve en iyi poliçenin formu türetilmiştir.
Özet (Çeviri)
This thesis proposes three new multi-armed bandit problems, in which the learner proceeds in a sequence of rounds where each round is a Markov Decision Process (MDP). The learner's goal is to maximize its cumulative reward without any a priori knowledge on the state transition probabilities. The first problem considers an MDP with sorted states and a continuation action that moves the learner to an adjacent state; and a terminal action that moves the learner to a terminal state (goal or dead-end state). In this problem, a round ends and the next round starts when a terminal state is reached, and the aim of the learner in each round is to reach the goal state. First, the structure of the optimal policy is derived. Then, the regret of the learner with respect to an oracle, who takes optimal actions in each round is defined, and a learning algorithm that exploits the structure of the optimal policy is proposed. Finally, it is shown that the regret either increases logarithmically over rounds or becomes bounded. In the second problem, we investigate the personalization of a clinical treatment. This process is modeled as a goal-oriented MDP with dead-end states. Moreover, the state transition probabilities of the MDP depends on the context of the patients. An algorithm that uses the rule of optimism in face of uncertainty is proposed to maximize the number of rounds in which the goal state is reached. In the third problem, we propose an online learning algorithm for optimal execution in the limit order book of a financial asset. Given a certain amount of shares to sell and an allocated time to complete the transaction, the proposed algorithm dynamically learns the optimal number of shares to sell at each time slot of the allocated time. We model this problem as an MDP, and derive the form of the optimal policy.
Benzer Tezler
- Purchase prediction and item prediction with RNN using different user-item interactions
Farklı kullanıcı-ürün etkileşim türlerini kullanarak özyineli sinir ağları ile ürün ve satış tahminlemesi
FULYA ÇELEBİ SARIOĞLU
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
- Splice site prediction using machine learning
Makine öğrenmesi kullanarak uçbirleştirme yeri tahmini
ELHAM PASHAEI
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NİZAMETTİN AYDIN
- Çizge ve içerik verilerinde kolektif sınıflandırma algoritmalarının karşılaştırılması
A comparison of collective classification techniques on network and content data
ÖZGE ATASEVEN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YUSUF YASLAN
- Öğretmenlere yönelik üstbilişsel stratejilere dayalı çevrimiçi mesleki gelişim uygulamasının geliştirilmesi
Development of an online professional development platform based on metacognitive strategies for teachers
FATMA KÜBRA ÇELEN
Doktora
Türkçe
2018
Eğitim ve ÖğretimHacettepe ÜniversitesiBilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
PROF. DR. SÜLEYMAN SADİ SEFEROĞLU
- Oyunlaştırılmış işe özgü çevrimiçi öğrenme ortamının geliştirilmesi ve etkisinin değerlendirilmesi: İş sağlığı ve güvenliği örneği
Development of a gamified job-specific online learning environment and assessment of its impact for occupational health and safety training
HASAN TANIŞ
Doktora
Türkçe
2021
Eğitim ve ÖğretimHacettepe ÜniversitesiBilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
PROF. DR. HAKAN TÜZÜN