Geri Dön

Reinforcement learning in non-stationary environments using spatiotemporal analysis

Durağan olmayan ortamlarda konum-zaman analizi yapılarak pekiştirmeli öğrenme sağlamak

  1. Tez No: 479532
  2. Yazar: BURAK MUHAMMED GÖNCÜ
  3. Danışmanlar: DOÇ. DR. MUSTAFA BORAHAN TÜMER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 45

Özet

Geleneksel pekiştirmeli öğrenme (PÖ) yöntemleri ortamın veya hedefin değişkenlik gösterdiği durumlarda öğrenme sağlayamamaktadırlar. Bunun sebebi, PÖ biriminin hali hazırda öğrenmiş olduğu ortamı sil baştan yeniden öğrenememesidir. Bu sorunu çözmek amacıyla yavaş değişen ortamlarda, PÖ biriminin en son yaptığı eylemi yapmasının teşvik edildiği sezgisel yaklaşımlar olsada [Sutton And Barto (1998), Chapter9, Example9.3, p236-238], bunlar PÖ birimiyle aynı hızda hareket eden hedefler için yeterince hızlı sonuç vermemektedirler. Bu yazıda, yukarda belirtilen hareketli hedefler ve rekabet ortamını olduğu durumlar için yeni bir yöntem tartışacağız. Bu sorunun çözümü için hedefin konum-zaman bilgisi kullanılarak hazırlanan Stokastik süreç, PÖ döngüsünde PÖ biriminin ödüllendirme mekanizmasına iliştirilip sorunun çözümü için modüler bir yaklaşım sağlamış olacağız. Ayriyetten bu çalışmamızda yöntemimizin uygulanabilirliği ve performansını farklı problemler ile ölçüp Atari Ms.Pacman oyunu ile değerlendireceğiz. Son olarak yazıda belirtilen yöntemin testleri başarıyla tamamlayıp, hedef noktalarının başaralı bir şekilde tahminini sağladığını ve gerekli stratejileri (pusu kurma, önünü kesme, hedefin amaçlarını anlama) uyguladığını görmüş olacağız.

Özet (Çeviri)

Traditional reinforcement learning (RL) approaches fail to learn a policy to attain a dynamic or non-stationary goal. The reason for this is that the RL agent cannot start learning the changed environment from scratch once it has converged to a policy before the environment has changed. While heuristic solutions where the RL agent is encouraged to use least recently attempted actions are successful for slowly changing environments [Sutton And Barto (1998), Chapter9, Example9.3, p236-238], they do not form a sufficiently fast solution to follow a non-stationary goal state that moves with the same velocity of the RL agent. In this paper, we will discuss a new approach to the problem where there is an adversarial relation present between the dynamic goal and the RL agent. To tackle this, the spatio-temporal information of the dynamic goal state is incorporated, in terms of stochastic processes, as the rewards of the RL agent into the environment model thus enabling a modular solution to the problem. In addition, in this paper we present the method's robustness using different mazes where we assess the performance of our method and also test our algorithm with the Atari Ms.Pacman game for some complex problem solving. Finally, the results of the experiments show that our method successfully predicts the rival agent's behavior and points of interest in which the rival agent will pass through and ambush it at key positions.

Benzer Tezler

  1. Landmark-based aggregation method for robot swarms

    Robot sürüleri için konum noktası tabanlı toplanma yöntemi

    ARASH SADEGHI AMJADI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Makine MühendisliğiOrta Doğu Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALİ EMRE TURGUT

  2. Hierarchical reinforcement learning on non-stationary environments

    Devingen ortamlarda sıradüzensel pekiştirmeli öğrenme

    YİĞİT EFE YÜCESOY

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA BORAHAN TÜMER

  3. Context detection and identification in multi-agent reinforcement learning on non-stationary environments

    Çok etmenli pekiştirmeli öğrenmede devingen ortamlarda bağlam değişim tespiti ve tanimlama

    EKREM TALHA SELAMET

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA BORAHAN TÜMER

  4. S-learning: A multi-agent reinforcement learning method

    S-öğrenme: Bir çoklu-etmen takviye-öğrenme metodu

    UĞUR KUTER

    Yüksek Lisans

    İngilizce

    İngilizce

    2000

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FARUK POLAT

  5. Inventory planning of perishable items using reinforcement learning

    Pekiştirmeli öğrenme ile bozulabilir ürünlerin envanter planlaması

    AHMET SUALP SAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri MühendisliğiBoğaziçi Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. TANER BİLGİÇ