Geri Dön

Deep reinforcement learning for autonomous air combat under noisy observations

Gürültülü gözlem altında otonom hava muharebesi için derin pekiştirmeli ögrenme

  1. Tez No: 866236
  2. Yazar: AHMET SEMİH TAŞBAŞ
  3. Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 94

Özet

Yapay zeka, birçok karar verme ve özerklik sorununun çözümünde önemli bir rol oynamaktadır. Alt dallara ayrılmıştır: denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme, vb. Takviyeli öğrenme (RL), son zamanlarda karmaşık problemleri çözmek için güçlü bir araç olarak kendini kanıtlamıştır. Verimli matris çarpım algoritmaları oluşturma, karmaşık oyunlarda büyük ölçekli strateji yönetimi vb. gibi birçok zorlu uygulamada insan performansını bile geride bıraktı. Otonom hava muharebesi sorunu uzun yıllardır incelenmiştir. Birçok avantajı vardır. Bu alanda pilotluk eğitimi uzun ve zorlu bir süreçtir. Ayrıca eğitimli pilotların performansı, G yükü toleransı ve insan refleksleri ile sınırlandırılmıştır. Uçağın otonom sürüşü bu sorunları ortadan kaldırır. Ancak, çözülmesi zor bir sorundur. Hava muharebesinin karmaşıklığı, agresif yakın mesafe manevralarından ve çevik düşman davranışlarından kaynaklanır. Pek çok zor sorunu çözdüğü kanıtlanmış takviyeli öğrenme, otonom hava muharebesinde kullanılabilir. Bu tezde, otonom hava muharebe probleminde gözlemin gürültülü olarak algılandığı durumlara entegre edilebilecek pekiştirmeli öğrenme yöntemlerini inceliyoruz. İlk olarak, uçak dinamiklerinden oluşan bir hava muharebe simülasyonu geliştiriyoruz. Birden fazla uçak tarafından eşzamanlı eylem seçimine olanak tanır ve takviyeli öğrenme algoritmaları geliştirmek için uygundur. Ardından, bu simülasyonu kullanarak, Deep Q-learning (DQN), Rainbow, Proximal Policy Optimization (PPO) ve Advantage Actor-Critic (A2C) olan en son teknoloji derin pekiştirmeli öğrenme algoritmalarının performansını karşılaştırıyoruz. Önceki çalışmalarda hava muharebe ortamının gürültüsüz olduğu varsayılmıştır. Ancak, gerçek hayattaki senaryolarda, düşmanın gerçek konumunun tahmin edilmesini engelleyen sensör hataları nedeniyle belirsizlikler olabilir. Bu nedenle, bu tezde hava muharebe simülasyonunu geliştiriyoruz. Yeni simülasyon, ajanlara gürültülü gözlemler sunarak hava savaşı problemini daha da zorlaştırıyor. Yapılan deneylerde, ortamdaki gürültünün, gürültü düzeyi ile orantılı olarak pekiştirmeli öğrenme algoritmalarının performansının düşmesine neden olduğunu gözlemlemekteyiz. Performansı artırmak için durum istifleme yöntemini öneriyoruz. Kapsamlı deneylerimizde, önerilen yöntem, performans iyileştirmesinin yüksek gürültü seviyelerinde daha da belirgin olduğu kazanma oranıyla ilgili temel algoritmalardan önemli ölçüde daha iyi performans gösteriyor. Ek olarak, düşmanı eğitim ajanının donmuş bir kopyasıyla periyodik olarak güncelleyerek eğitim sürecimize bir kendi kendine oynama planı dahil ediyoruz. Bu şekilde, eğitim ajanı, ajanların performansını ve sağlamlığını artıran daha akıllı düşman stratejileriyle karşı karşıya kalır. Simülasyonlarımızda, kendi kendine oynama şemasının klasik RL eğitimine kıyasla önemli performans kazanımları sağladığını deneysel olarak gösterdik. Eğitim aşamasında, farklı gürültü seviyelerinde pekiştirmeli öğrenme algoritmaları eğitiyoruz ve her politika, diğer yöntemlere kıyasla kendi gürültü seviyesinde en iyi sonuçları alıyor. Ancak test aşamasında, etmen mevcut gürültü seviyesini bilmediği için aralarından bir politika seçemez. Bu nedenle, ortamdaki mevcut gürültü seviyesini belirleyen yapay sinir ağı tabanlı bir sınıflandırıcı üzerinde çalışıyoruz. Hava muharebe simülasyonunu kullanarak, farklı durum yığınlarına ve gürültü seviyelerine sahip veri kümeleri oluşturuyoruz. Ardından, bu veri kümelerini kullanarak sinir ağı tabanlı sınıflandırıcılar eğitiyoruz. Son olarak tüm sistemi kapsayacak bir mimari oluşturuyoruz. Mimari, çevre ve aracıdan oluşur. Çevre, uçak dinamiklerini ve durum uzayına gürültü eklemeyi içerir. Etmenlerden alınan aksiyonlar çevre tarafından uçak dinamiğinden geçirilir ve yeni gözlem ile ödül değeri hesaplanır. Etmen mevcut durumu alır, durum istifleme yöntemini uygular ve gürültü seviyesini saptamak için çıktıyı gürültü sınıflandırıcıya gönderir. Son olarak, uygun pekiştirmeli öğrenme politikası bir eylem seçer ve onu çevreye gönderir.

Özet (Çeviri)

Artificial intelligence plays an important role in solving many decision-making and autonomy problems. It is divided into sub-branches: supervised learning, unsupervised learning, reinforcement learning, etc. Reinforcement learning (RL) has recently proven itself as a powerful instrument for solving complex problems. It even surpassed human performance in several challenging applications, such as generating efficient matrix multiplication algorithms, large-scale strategy management in complex games, etc. The problem of autonomous air combat has been studied for many years. It has many advantages. Pilot training in this field is a long and challenging process. In addition, the performance of the trained pilots is restricted by G-load tolerance and human reflexes. The autonomous driving of aircraft eliminates these problems. However, it is a difficult problem to solve. The complexity of air combat arises from aggressive close-range maneuvers and agile enemy behaviors. Reinforcement learning, which has proven to solve many difficult problems, can be used in autonomous air combat. In this thesis, we study reinforcement learning methods that can be integrated into situations where observation is perceived as noisy in the autonomous air combat problem. First, we develop an air combat simulation consisting of aircraft dynamics. It enables simultaneous action selection by multiple aircraft and is suitable for developing reinforcement learning algorithms. Then, using this simulation, we compare the performance of the state-of-the-art deep reinforcement learning algorithms, which are Deep Q-learning (DQN), Rainbow, Proximal Policy Optimization (PPO), and Advantage Actor-Critic (A2C). In previous studies, it is assumed that the air combat environment is noiseless. However, there might be uncertainties in real-life scenarios due to sensor errors, which prevent the estimation of the actual position of the enemy. Therefore, in this thesis, we improve the air combat simulation. The new simulation provides noisy observations to the agents, making the air combat problem even more challenging. In the experiments, we observe that noise in the environment causes the performance decrease of reinforcement learning algorithms in proportion to the noise level. In order to increase the performance, we propose the state stacking method. In our extensive experiments, the proposed method significantly outperforms the baseline algorithms regarding the winning ratio, where the performance improvement is even more pronounced in high noise levels. In addition, we incorporate a self-play scheme into our training process by periodically updating the enemy with a frozen copy of the training agent. In this way, the training agent faces smarter enemy strategies which improve the performance and robustness of the agents. In our simulations, we experimentally demonstrate that the self-play scheme provides important performance gains compared to the classical RL training. In the training phase, we train reinforcement learning algorithms at different noise levels, and each policy obtains optimal results at its noise level compared to other methods. However, in the test stage, the agent cannot select a policy among them because it does not know the current noise level. Therefore, we study an artificial neural network-based classifier, which determines the current noise level in the environment. Using air combat simulation, we create datasets with different state stacks and noise levels. Then, we train neural network-based classifiers using these datasets. Finally, we create an architecture that will cover the entire system. The architecture consists of the environment and the agent. The environment includes aircraft dynamics and adding noise to the state space. The environment receives the actions from the agents, passes them through the aircraft dynamics, and calculates the reward value with the new observation. The agent takes the current state, applies the state stacking method, and sends the output to the noise classifier to detect the noise level. Finally, the proper reinforcement learning policy selects an action and sends it to the environment.

Benzer Tezler

  1. Missile evasion maneuver generation with model-free deep reinforcement learning

    Modelden bağımsız derin pekiştirmeli öğrenme ile füzeden kaçınma manevraları

    MUHAMMED MURAT ÖZBEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    DOÇ. DR. EMRE KOYUNCU

  2. Deep reinforcement learning for autonomous quadcopter guidance

    Otonom dört rotorlu insansız hava aracı güdümü için derin pekiştirmeli öğrenme

    ŞEVKET UTKU AYDINLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Havacılık ve Uzay Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALİ TÜRKER KUTAY

  3. Autonomous heading control of a fixed-wing aircraft with deep reinforcement learning

    Sabit kanatlı bir uçak için derin pekiştirmeli öğrenme ile otonom yönelim kontrolü

    FATİH AHMET SARIGÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSMAİL BAYEZİT

  4. Deep reinforcement learning for partially observable markov decision processes

    Kısmi gözlemlenebilir markov karar süreçleri için derin pekiştirmeli öğrenme

    MEHMET HAKLIDIR

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. HAKAN TEMELTAŞ

  5. Applications of deep reinforcement learning for advanced driving assistance systems

    İleri sürüş destek sistemleri için derin pekiştirmeli öğrenme uygulamaları

    MUHARREM UĞUR YAVAŞ

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Mekatronik Ana Bilim Dalı

    DOÇ. DR. TUFAN KUMBASAR