Geri Dön

Online learning in bandit problems

Başlık çevirisi mevcut değil.

  1. Tez No: 401621
  2. Yazar: CEM TEKİN
  3. Danışmanlar: PROF. MINGYAN LIU
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: University of Michigan
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: Belirtilmemiş.
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 301

Özet

Özet yok.

Özet (Çeviri)

In a bandit problem there is a set of arms, each of which when played by an agent yields some reward depending on its internal state which evolves stochastically over time. In this thesis we consider bandit problems in an online framework which involves sequential decision-making under uncertainty. Within the context of this class of problems, agents who are initially unaware of the stochastic evolution of the environment (arms), aim to maximize a common objective based on the history of actions and ob-servations. The classical difficulty in a bandit problem is the exploration-exploitation dilemma, which necessitates a careful algorithm design to balance information gath-ering and best use of available information to achieve optimal performance. The motivation to study bandit problems comes from its diverse applications including cognitive radio networks, opportunistic spectrum access, network routing, web ad-vertising, clinical trials, contract design and many others. Since the characteristics of agents for each one of these applications are different, our goal is to provide an agent-centric approach in designing online learning algorithms for bandit problems. When there is a single agent, different from the classical work on bandit problems which assumes IID arms, we develop learning algorithms for Markovian arms by considering the computational complexity. Depending on the computational power of the agent, we show that different performance levels ranging from optimality in weak regret, to strong optimality can be achieved. Apart from classical single-agent bandits, we also consider the novel area of multi-agent bandits which has informational decentralization and communication aspects not present in single-agent bandits. For this setting, we develop distributed online learning algorithms that are optimal in terms of weak regret depending on commu-nication and computation constraints.

Benzer Tezler

  1. Online learning in structured Markov decision processes

    Özel yapılı Markov karar süreçlerinde çevrimiçi öğrenme

    NIMA AKBARZADEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CEM TEKİN

  2. Contextual multi-armed bandits with structured payoffs

    Yapılandırılmış getirili bağlamsal çok kollu haydutlar

    MUHAMMAD ANJUM QURESHI

    Doktora

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CEM TEKİN

  3. Algorithms and regret bounds for multi-objective contextual bandits with similarity information

    Benzerlik bilgisine sahip çok amaçlı bağlamsal haydut problemlerinde pişmanlık sınırları ve algoritmalar

    ERALP TURĞAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CEM TEKİN

  4. Contextual combinatorial volatile multi-armed bandits in compact context spaces

    Tıkız bağlam uzaylarında bağlamsal birleşimsel değişken çok-kollu haydut

    ANDI NIKA

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CEM TEKİN

  5. Prediction with expert advice: on the role of contexts, bandit feedback and risk-awareness

    Uzman önerileriyle tahmin: bağlamların, haydut geribildirimin ve risk farkındalığının rolü üzerine

    KUBİLAY EKŞİOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. CEM TEKİN