Derin Q-öğrenme ile video oyunu oynayan akıllı etmenler geliştirilmesi ve deneyim tekrarı arabelleği boyutunun eğitime etkisinin incelenmesi
Developing intelligent agents playing video games with deep Q-learning and examining the effect of experience replay buffer size on training
- Tez No: 853723
- Danışmanlar: DR. ÖĞR. ÜYESİ AHMET YAZAR, DOÇ. DR. NİHAT ADAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Eskişehir Osmangazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yapay Zeka Bilim Dalı
- Sayfa Sayısı: 58
Özet
Pekiştirmeli öğrenme, denetimli ve denetimsiz öğrenmeden farklı olarak hazır veri seti yerine çevreyle etkileşimden elde edilen deneyimlerin kullanılmasına dayanmaktadır. Q-öğrenme ve diğer birçok pekiştirmeli öğrenme algoritması, bu deneyimleri yinelemeli güncellemelerde kullanarak en iyi eylem-değer fonksiyonunu elde etmeyi amaçlamaktadır. Bu tür klasik pekiştirmeli öğrenme yöntemleri, düşük boyutlu durum uzayına sahip ortamlarda başarı göstermiş olsalar da video oyunu oynamak gibi yüksek boyutlu durum uzayı içeren karmaşık problemlerde kullanılmaları pratik değildir. Bu tür problemler için sinir ağlarını fonksiyon yaklaşıklayıcı olarak kullanmak, eğitim sırasında gözlemlenmeyen durumlar hakkında genelleme yapılmasına olanak tanımaktadır. Ancak etmenin deneyimleri sıralı olduğundan ve ardışık örnekler arasında yüksek korelasyon bulunduğundan dolayı sinir ağının bu şekilde eğitilmesi yıkıcı unutmaya yol açacaktır. Bu durumu önlemek için deneyimlerin bir arabellekte saklanması ve rastgele seçilen örneklerin kullanılmasıyla bağımsız ve özdeş bir dağılım elde edilmektedir. Deneyim tekrarı adı verilen bu yöntem, korelasyonu kırarak ve veri verimliliğini arttırarak eğitimi kararlı hale getirmektedir. Tekrar arabelleğinin birçok derin pekiştirmeli öğrenme algoritması için kritik bir mekanizma olduğunun bilinmesine rağmen literatürde arabelleğin boyutuna yeterince önem verilmediği görülmektedir. Bu çalışmada, derin Q-öğrenme algoritmasıyla birlikte 50 000, 100 000 ve 150 000 olmak üzere üç farklı boyutta tekrar arabelleği kullanılarak çeşitli Atari oyunlarını oynayabilmeleri amacıyla etmenler geliştirilmiş ve arabellek boyutunun eğitime etkisi gözlemlenmiştir. On farklı oyun için geliştirilen 90 etmenden elde edilen sonuçlar incelendiğinde altı oyunda insan performansının aşıldığı, iki oyunda insan seviyesinde performansa ulaşıldığı ve iki oyunda ise düşük başarı elde edildiği görülmektedir. Deneyim tekrarı açısından arabellek boyutunun arttırılması beş oyunda başarıyı sürekli arttırırken, iki oyunda başarının devamlı düşmesine neden olmuştur. Sonuçlar, daha büyük bir tekrar arabelleği kullanmanın her zaman başarıyı arttırmayacağını ve arabellek boyutunun ayarlanması gereken önemli bir üst-değişken olduğunu göstermektedir.
Özet (Çeviri)
Reinforcement learning is based on the use of experiences obtained from interacting with the environment, instead of a ready-made dataset, unlike supervised and unsupervised learning. Q-learning and many other reinforcement learning algorithms aim to obtain the optimal action-value function by using these experiences in iterative updates. Although such classical reinforcement learning methods have shown success in environments with low-dimensional state space, they are not practical to use in complex problems involving high-dimensional state space, such as playing video games. Using neural networks as function approximators for such problems allows generalization about states that are not observed during training. However, since the agent's experiences are sequential and there is a high correlation between consecutive samples, training the neural network in this way will lead to catastrophic forgetting. To prevent this situation, an independent and identical distribution is obtained by storing the experiences in a buffer and using randomly selected samples. This method, called experience replay, makes the training stable by breaking the correlation and increasing data efficiency. Although it is known that the replay buffer is a critical mechanism for many deep reinforcement learning algorithms, it is seen that the size of the buffer is not given enough importance in the literature. In this study, agents were developed to play various Atari games using the deep Q-learning algorithm with replay buffers of three different sizes: 50 000, 100 000, and 150 000, and the effect of the buffer size on training was observed. When the results obtained from 90 agents developed for ten different games are examined, it is seen that human performance is exceeded in six games, human-level performance is achieved in two games, and low success is achieved in two games. In terms of experience replay, while increasing the buffer size continuously increased success in five games, it caused a continuous decrease in success in two games. The results show that using a larger replay buffer does not always increase succcess, and the buffer size is an important hyperparameter that needs to be tuned.
Benzer Tezler
- Autonomous vehicle simulation with deep reinforcement learning in video game environment
Video oyun ortamında derin pekiştirmeli öğrenme ile otonom araç simulasyonu
AHMET ONUR GİRAY
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiDokuz Eylül ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. HATİCE DOĞAN
- Autolanding control system design with deep learning based fault estimation
Derin öğrenme tabanlı hasar tespitli gürbüz otomatik iniş kontrol sistemi
BATUHAN EROĞLU
Yüksek Lisans
İngilizce
2019
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NAZIM KEMAL ÜRE
- Learning to drive in a simulated environment using deep reinforcement learning
Derin pekiştirmeli öğrenme kullanarak simüle edilmiş bir ortamda araç kullanmayı öğrenmek
MUSTAFA CEMİL GÜNEY
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YAKUP GENÇ
- Trajectory tracking control of a quadrotor with reinforcement learning
Pekiştirmeli öğrenme ile bir quadrotor'un yörünge takip kontrolü
EREN ÇAKMAK
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA DOĞAN
- Resource allocation in vehicular edge computing networksbased on deep reinforcement learning
Araç uç bilişiminde derin pekiştirmeli öğrenmeye dayalıkaynak tahsisi
HOMA MALEKI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. LÜTFİYE DURAK ATA