Reinforcement learning in fighting games
Dövüş oyunlarında pekiştirmeli öğrenme
- Tez No: 714508
- Danışmanlar: DOÇ. DR. SANEM SARIEL UZER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı
- Bilim Dalı: Oyun ve Etkileşim Teknolojileri Bilim Dalı
- Sayfa Sayısı: 83
Özet
Pekiştirmeli öğrenme, rekabetçi oyunculuğa benzer doğasından ötürü oyunlar üzerinde kullanılan en popüler öğrenme yöntemlerinden biridir. Oyunu kazanmak ve oyunu kazanmak için yapılması gerekenler ödül mekanizması olarak kolayca kullanılabilir ve bu da makul bir kalite testi oluşturmamıza olanak sağlar. Bu alanda basit Atari oyunlarını ve robotik problemlerini çözen pek çok algoritma ve yaklaşım mevcuttur, fakat halen çözümü zor olan problemlerle dolu araştırılmamış bölgeler vardır. DeepMind tarafından Derin Q-öğrenmesi yönteminin ortaya atılmasıyla beraber pikselden öğrenme yöntemi popülerlik kazanmış ve pek çok oyuna da uygulanmıştır. Etmenler basit oyunlarda insan seviyesi ve üzerinde oynamayı öğrenebilmektedirler. Ama Montezuma's Revenge gibi daha karmaşık oyunlardaki devasa arama uzayını arayabilmek için hiyerarşik derin öğrenme gibi farklı yöntemlere ihtiyaç duyulmaktadır. Bundan da öte, karmaşık oyunlarda, kazandığında +1 ödül, kaybettiğinde -1 ödül şeklindeki klasik ödül yöntemlerinin de dışına çıkılması gerekebilmektedir. Karmaşıklık arttıkça, algoritma ve model de değişip uyum sağlamak zorundadır. Atari oyunları basit görünmelerine rağmen, AI etmenleri için çözülmesi zor problemlerdir. Atari oyunları üzerine yapılan en güncel çalışma 2020'de yayımlanmış ve Gym'deki bütün Atari oyunlarında insanlardan daha iyi performans sergilediğini söylemiştir. Ancak halen çözülmesi için yeni yaklaşımlar gerektiren bir çok oyun mevcuttur. Bu tezdeki çalışma, Megaman X ismindeki bir oyunun bölüm sonundaki düşmanlara karşı insan gibi savaşabilen bir yapay zeka eğitmek üzerinedir. Mevcut pekiştirmeli öğrenme algoritmaları farklı tampon bellek tipleri, parametreler ve arama stratejileriyle çalıştırılmış ve performansları kıyaslanmıştır. Algoritmaların performanslarını daha iyi kıyaslayabilmek için daha basit bir oyun olan Super Mario World ve ana oyuna benzer nitelikteki bir dövüş oyunu olan Ultimate Mortal Kombat 3 oyunu da test edilmiştir. Etmenin daha iyi sonuçlar vermesi için ödül şekillendirme ve nitelik çıkartmayı da içeren bazı iyileştirmeler önerilmiştir. Nitelik çıkarma için CNN bazlı yöntemler ve otokodlayıcılar gibi yapılar test edilmiş ve bunun yanı sıra oyunun RAM bilgisinden karakter pozisyon bilgileri ve mevcut can gibi veriler de kullanılmıştır. Tezin ana odağı olan Megaman X oyunu için, ödül şekillendirmesi yapılmıştır. Silahın şarj edilme durumu, düşman ile olan mesafe, can durumu ve süre gibi değişkenler kullanılmıştır. Hem Q-learning temelli metotlar hem de gradyan temelli yöntemler test edilmiştir. Bunların arasında en güncel keşif odaklı metodlar ve hiyerarşik metodlar da bulunmaktadır ve denenmiştir. Etmenler oyunu bilen oyuncuların verisiyle de eğitilmiştir. Ayrıca oyunu daha önce oynamamış insanlara da oyun oynatılmış ve onların oyunu oynayışları ve yorumları da dikkate alınarak bir sonuç üretilmiştir. Bu tezde, bütün bu sonuçlar sunulmuş ve sonuçlar analiz edilmiştir.
Özet (Çeviri)
Reinforcement learning is one of the most popular learning methods used on games because of its similar nature to competitive play. Winning the game and the means to win the game can be used as rewards easily, which enables us to create a reasonable benchmark. The field has many algorithms and approaches that can solve simple Atari games and robotic problems, however, it still has many unexplored areas with difficult problems to solve. After the introduction of Deep Q-Learning (DQN) by DeepMind, learning from pixel data become popular and applied to many other games. Agents could reach and exceed human level play in simple games. But for more complex games like Montezuma's Revenge, different approaches such as hierarchical DQN is needed to search the huge search space of the game. Furthermore, the classical +1 reward for win, -1 reward for lose strategy is not always enough for complex games. As the complexity increases, the algorithm and model should change and adapt. Even though Atari games look simple, they are hard problems to solve for an AI agent. The most recent work on Atari games published in 2020, claims to outperform humans on all Gym Atari games. However, there are still many difficult games to solve that requires novel approaches. The work on this thesis focuses on reaching a human-like play at the end stage boss fight in the game called Megaman X. Existing RL algorithms have been tested with different replay buffer types, parameters and exploration strategies and their performances were compared. To make a better comparison of the algorithms, a simple game called Super Mario World and a fighting game with similar characteristics to the main game called Ultimate Mortal Kombat has been tested as well. We proposed new game specific methods to make the agent play better, including reward shaping and feature extraction methods. This thesis shows the all the results of those trainings and analyses the results. In order to get better results from the trainings, reward shaping and feature extraction methods have been suggested and tested. For feature extraction, CNN based methods and auto-encoder frameworks have been tested and in addition to that, direct data read from the RAM such as character and enemy positions. Reward shaping is applied for the main focus on this thesis, the game Megaman X. Variables such as the charge status of the weapon, distance between the enemy and the agent, health and time are used as reward shaping parameters. Both Q-learning and policy gradient methods are tested. In addition, the latest exploration focused methods and hierarchical methods, which are said to be enhancing exploration, are tested. Also, human players who are familiar with platform games are also played the game and their experiences are recorded in a survey. In this thesis, all those methods and results are analysed.
Benzer Tezler
- Video oyunlarında derin öğrenme
Deep learning in video games
ALİHAN ÖZTÜRK
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. FATMA NOYAN TEKELİ
- Effective reinforcement learning through intrinsic motivation and visual external memory in partially observable environments
Kısmi gözlemlenebilir ortamlarda içsel motivasyon ve görsel harici bellek ile etkili pekiştirmeli öğrenme
BURAK HAN DEMİRBİLEK
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FARUK POLAT
DR. ÖĞR. ÜYESİ ALPER DEMİR
- Reinforcement learning in non-stationary environments using spatiotemporal analysis
Durağan olmayan ortamlarda konum-zaman analizi yapılarak pekiştirmeli öğrenme sağlamak
BURAK MUHAMMED GÖNCÜ
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA BORAHAN TÜMER
- Abstraction in reinforcement learning in partially observable environments
Kısmi gözlemlenebilir ortamlar için pekiştirmeli öğrenmede soyutlama
ERKİN ÇİLDEN
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Bölümü
PROF. DR. FARUK POLAT
- Simülasyon ortamında derin pekiştirmeli öğrenme ile robot kontrolü
Robot kontrol with deep reinforcement learning in simulation environment
HÜSEYİN PULLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CİHAN KARAKUZU