Geri Dön

Reinforcement learning in fighting games

Dövüş oyunlarında pekiştirmeli öğrenme

  1. Tez No: 714508
  2. Yazar: MUHAMMET SADIK UĞURSOY
  3. Danışmanlar: DOÇ. DR. SANEM SARIEL UZER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Oyun ve Etkileşim Teknolojileri Bilim Dalı
  13. Sayfa Sayısı: 83

Özet

Pekiştirmeli öğrenme, rekabetçi oyunculuğa benzer doğasından ötürü oyunlar üzerinde kullanılan en popüler öğrenme yöntemlerinden biridir. Oyunu kazanmak ve oyunu kazanmak için yapılması gerekenler ödül mekanizması olarak kolayca kullanılabilir ve bu da makul bir kalite testi oluşturmamıza olanak sağlar. Bu alanda basit Atari oyunlarını ve robotik problemlerini çözen pek çok algoritma ve yaklaşım mevcuttur, fakat halen çözümü zor olan problemlerle dolu araştırılmamış bölgeler vardır. DeepMind tarafından Derin Q-öğrenmesi yönteminin ortaya atılmasıyla beraber pikselden öğrenme yöntemi popülerlik kazanmış ve pek çok oyuna da uygulanmıştır. Etmenler basit oyunlarda insan seviyesi ve üzerinde oynamayı öğrenebilmektedirler. Ama Montezuma's Revenge gibi daha karmaşık oyunlardaki devasa arama uzayını arayabilmek için hiyerarşik derin öğrenme gibi farklı yöntemlere ihtiyaç duyulmaktadır. Bundan da öte, karmaşık oyunlarda, kazandığında +1 ödül, kaybettiğinde -1 ödül şeklindeki klasik ödül yöntemlerinin de dışına çıkılması gerekebilmektedir. Karmaşıklık arttıkça, algoritma ve model de değişip uyum sağlamak zorundadır. Atari oyunları basit görünmelerine rağmen, AI etmenleri için çözülmesi zor problemlerdir. Atari oyunları üzerine yapılan en güncel çalışma 2020'de yayımlanmış ve Gym'deki bütün Atari oyunlarında insanlardan daha iyi performans sergilediğini söylemiştir. Ancak halen çözülmesi için yeni yaklaşımlar gerektiren bir çok oyun mevcuttur. Bu tezdeki çalışma, Megaman X ismindeki bir oyunun bölüm sonundaki düşmanlara karşı insan gibi savaşabilen bir yapay zeka eğitmek üzerinedir. Mevcut pekiştirmeli öğrenme algoritmaları farklı tampon bellek tipleri, parametreler ve arama stratejileriyle çalıştırılmış ve performansları kıyaslanmıştır. Algoritmaların performanslarını daha iyi kıyaslayabilmek için daha basit bir oyun olan Super Mario World ve ana oyuna benzer nitelikteki bir dövüş oyunu olan Ultimate Mortal Kombat 3 oyunu da test edilmiştir. Etmenin daha iyi sonuçlar vermesi için ödül şekillendirme ve nitelik çıkartmayı da içeren bazı iyileştirmeler önerilmiştir. Nitelik çıkarma için CNN bazlı yöntemler ve otokodlayıcılar gibi yapılar test edilmiş ve bunun yanı sıra oyunun RAM bilgisinden karakter pozisyon bilgileri ve mevcut can gibi veriler de kullanılmıştır. Tezin ana odağı olan Megaman X oyunu için, ödül şekillendirmesi yapılmıştır. Silahın şarj edilme durumu, düşman ile olan mesafe, can durumu ve süre gibi değişkenler kullanılmıştır. Hem Q-learning temelli metotlar hem de gradyan temelli yöntemler test edilmiştir. Bunların arasında en güncel keşif odaklı metodlar ve hiyerarşik metodlar da bulunmaktadır ve denenmiştir. Etmenler oyunu bilen oyuncuların verisiyle de eğitilmiştir. Ayrıca oyunu daha önce oynamamış insanlara da oyun oynatılmış ve onların oyunu oynayışları ve yorumları da dikkate alınarak bir sonuç üretilmiştir. Bu tezde, bütün bu sonuçlar sunulmuş ve sonuçlar analiz edilmiştir.

Özet (Çeviri)

Reinforcement learning is one of the most popular learning methods used on games because of its similar nature to competitive play. Winning the game and the means to win the game can be used as rewards easily, which enables us to create a reasonable benchmark. The field has many algorithms and approaches that can solve simple Atari games and robotic problems, however, it still has many unexplored areas with difficult problems to solve. After the introduction of Deep Q-Learning (DQN) by DeepMind, learning from pixel data become popular and applied to many other games. Agents could reach and exceed human level play in simple games. But for more complex games like Montezuma's Revenge, different approaches such as hierarchical DQN is needed to search the huge search space of the game. Furthermore, the classical +1 reward for win, -1 reward for lose strategy is not always enough for complex games. As the complexity increases, the algorithm and model should change and adapt. Even though Atari games look simple, they are hard problems to solve for an AI agent. The most recent work on Atari games published in 2020, claims to outperform humans on all Gym Atari games. However, there are still many difficult games to solve that requires novel approaches. The work on this thesis focuses on reaching a human-like play at the end stage boss fight in the game called Megaman X. Existing RL algorithms have been tested with different replay buffer types, parameters and exploration strategies and their performances were compared. To make a better comparison of the algorithms, a simple game called Super Mario World and a fighting game with similar characteristics to the main game called Ultimate Mortal Kombat has been tested as well. We proposed new game specific methods to make the agent play better, including reward shaping and feature extraction methods. This thesis shows the all the results of those trainings and analyses the results. In order to get better results from the trainings, reward shaping and feature extraction methods have been suggested and tested. For feature extraction, CNN based methods and auto-encoder frameworks have been tested and in addition to that, direct data read from the RAM such as character and enemy positions. Reward shaping is applied for the main focus on this thesis, the game Megaman X. Variables such as the charge status of the weapon, distance between the enemy and the agent, health and time are used as reward shaping parameters. Both Q-learning and policy gradient methods are tested. In addition, the latest exploration focused methods and hierarchical methods, which are said to be enhancing exploration, are tested. Also, human players who are familiar with platform games are also played the game and their experiences are recorded in a survey. In this thesis, all those methods and results are analysed.

Benzer Tezler

  1. Video oyunlarında derin öğrenme

    Deep learning in video games

    ALİHAN ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. FATMA NOYAN TEKELİ

  2. Effective reinforcement learning through intrinsic motivation and visual external memory in partially observable environments

    Kısmi gözlemlenebilir ortamlarda içsel motivasyon ve görsel harici bellek ile etkili pekiştirmeli öğrenme

    BURAK HAN DEMİRBİLEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FARUK POLAT

    DR. ÖĞR. ÜYESİ ALPER DEMİR

  3. Reinforcement learning in non-stationary environments using spatiotemporal analysis

    Durağan olmayan ortamlarda konum-zaman analizi yapılarak pekiştirmeli öğrenme sağlamak

    BURAK MUHAMMED GÖNCÜ

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA BORAHAN TÜMER

  4. Abstraction in reinforcement learning in partially observable environments

    Kısmi gözlemlenebilir ortamlar için pekiştirmeli öğrenmede soyutlama

    ERKİN ÇİLDEN

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. FARUK POLAT

  5. Simülasyon ortamında derin pekiştirmeli öğrenme ile robot kontrolü

    Robot kontrol with deep reinforcement learning in simulation environment

    HÜSEYİN PULLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CİHAN KARAKUZU