Geri Dön

TD-Gammon revisited: integrating invalid actions and dice factor in continuous action and observation space

TD-Gammon'a yeniden bakış: tavla'da sürekli aksiyon ve gözlem alanı içine geçersiz hamleleri ve zar faktörünü dahil etmek

  1. Tez No: 521398
  2. Yazar: ENGİN DENİZ USTA
  3. Danışmanlar: PROF. DR. FERDANUR ALPASLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 57

Özet

TD-Gammon'un 1991'deki başarısından sonra, oyun oynyabilen etmenlere olan ilgi bir hayli artmış durumda. Derin Öğrenme ve eski oyunların emülatörlerindeki gelişmelerden sonra, Atari oyunları için insan seviyesinde oynayabilen etmenler ortaya çıktı, ve Derin Takviyeli Öğrenme kendi başarısını kanıtladı. Ancak, Derin Takviyeli Öğrenme'nin atası olan TD-Gammon, ve ounu Tavla, arka planda kaldı. Bunun sebepleri ise, Tavla'nın aksiyonlarının diğer Atari oyunlarına göre çok daha kompleks olması (genelde çoğu Atari oyununda 2 veya 4 farklı aksiyon alınabilir), aksiyon alanında çok fazla geçersiz aksiyon olması, ve zar faktörünün getirdiği rastgelelik olarak görülüyor. Son sebep olarak ise, Tavla'da uzun süre önce profesyonel seviyede oynayabilen etmenlerin varlığı olduğunu söyleyebiliriz. Bu tezde, son çıkan Derin Takviyeli Öğrenme yöntemleri, onların atası olan oyuna, Tavla'ya karşı test edilecektir. Bu sırada ek olarak, etmenlerimiz zar faktörünü de hesaba katarak geçerli hamleleri bulmaya çalışacaktır.

Özet (Çeviri)

After TD-Gammon's success in 1991, the interest in game-playing agents has risen significantly. With the developments in Deep Learning and emulations for older games have been created, human-level control for Atari games has been achieved and Deep Reinforcement Learning has proven itself to be a success. However, the ancestor of DRL, TD-Gammon, and its game Backgammon got out of sight, because of the fact that Backgammon's actions are much more complex than other games (most of the Atari games has 2 or 4 different actions), the huge action space has much invalid actions, and there is a dice factor which involves stochasticity. Last but not least, the professional level in Backgammon has been achieved a long time ago. In this thesis, the latest methods in DRL will be tested against its ancestor game, Backgammon, while trying to teach how to select valid moves and considering the dice factor.

Benzer Tezler

  1. Endüstri ilişkilerinin sosyolojik boyutu (Isparta uygulaması)

    The Sociological dimension of industrial relations

    SUAT KOLUKIRIK

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    SosyolojiSüleyman Demirel Üniversitesi

    Sosyoloji Ana Bilim Dalı

    DOÇ. DR. METİN ÖZKUL

  2. Neodyum ve çinko katkılı hekzaferrit mıknatısların üretilmesi ve özelliklerinin geliştirilmesi

    Production of neodymium and zinc substituted strontium hexaferrite magnets and development of their properties

    ESİN DEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Metalurji MühendisliğiKaradeniz Teknik Üniversitesi

    Metalurji ve Malzeme Mühendisliği Ana Bilim Dalı

    PROF. DR. SULTAN ÖZTÜRK

  3. XIn2S4 (X = Mg, Zn, Cd) spinel bileşiklerinin yapısal, elektronik, elastik, fonon, termodinamik ve optik özelliklerinin yoğunluk fonksiyonel teorisi ile incelenmesi

    The investigation of the structural, electronic, elastic, phonon, thermodynamic and optical properties of XIn2S4 (X = Mg, Zn, Cd) spinel compounds within the density functional theory

    ZEYNEP KIZILIRMAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Fizik ve Fizik MühendisliğiGazi Üniversitesi

    Fizik Ana Bilim Dalı

    PROF. DR. ŞULE UĞUR

  4. Yağ ve petrol ürünlerinin düşük manyetik alanda zaman boyutlu NMR araştırmaları

    Low magnetic field time domain NMR studies of oils and petroleum products

    İLKNUR GÜNDÜZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Fizik ve Fizik MühendisliğiKocaeli Üniversitesi

    Fizik Ana Bilim Dalı

    DOÇ. DR. SEDA GÜNEŞDOĞDU SAĞDINÇ

  5. DBYBHY-07 ve ASCE 41-06'da tanımlanan doğrusal olmayan performans değerlendirme yöntemlerinin karşılaştırılması

    Comparison of non-linear performance assessment methods identified at Turkish earthquake code-07 and ASCE 41-06

    MEHMET SÖNMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Deprem Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. KONURALP GİRGİN