Evolutionary reinforcement learning based autonomous maneuver decision in one-to-one short-range air combat
Bire bir kısa menzilli hava muharebesinde evrimsel pekiştirmeli öğrenme tabanlı otonom manevra karar sistemi
- Tez No: 817796
- Danışmanlar: DR. ÖĞR. ÜYESİ BARIŞ BAŞPINAR
- Tez Türü: Yüksek Lisans
- Konular: Savunma ve Savunma Teknolojileri, Defense and Defense Technologies
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Savunma Teknolojileri Ana Bilim Dalı
- Bilim Dalı: Savunma Teknolojileri Bilim Dalı
- Sayfa Sayısı: 69
Özet
Kara ve denizde yapılan muharebeler ile karşılaştırıldığında hava muharebesinde kullanılan araçlar daha çevik bir yapıdadır. İt dalaşı (dogfight) diye tabir edilen kısa menzilli bire bir hava muharebesi ise araçların yeteneklerinin sonuna kadar kullanıldığı, hava muharebe türlerinin içinde belirsizlik ve dinamikliğin zirveye ulaştığı uzmanlaşması en zor olan hava muharebe türüdür. İnsansız hava araçlarının bu alandaki kullanımı ve bu araçların yetenekleri her geçen gün artsa da insansız uçaklarının insanlı savaş uçaklarına karşı üstünlük kurabilmesinin önünde birçok engel vardır. Bu engellerden biri otonom manevra kararlarıdır. Bu engel insansız aracın uzman bir pilot tarafından uzaktan kumanda edilmesi ile belli bir yere kadar aşılabilse de asıl istenen çözüm insansız aracın bu manevra kararlarını kendi başına alabilmesini sağlamaktır. Bunun için insansız aracın kendi mevcut durumunu ile rakip uçağın durumunu değerlendirmesi ve rakip uçağın yeteneklerini analiz edip muharebe stratejisini buna göre oluşturması gerekmektedir. Bu problemin çözümüne yönelik yapılan güncel çalışmalarda pekiştirmeli öğrenme metotlarının kullanımı oldukça artmıştır. Bu tez kapsamında bire bir kısa menzilli hava muharebesinde kullanılmak üzere bir evrimsel pekiştirmeli öğrenme tabanlı otonom manevra karar sistemi geliştirilmesi amaçlanmıştır. Tez çalışmasında öncelikle bire bir kısa menzilli hava muharebesin için geliştirilen mevcut otonom manevra karar sistemleri araştırılmıştır. Bu araştırmalarda pekiştirmeli öğrenmenin bir çözüm olarak sıkça kullanıldığı görülmüştür. Pekiştirmeli öğrenme, ajan diye adlandırılan bir makine veya yapay zeka sisteminin çevresiyle etkileşim kurarak deneyimler ve geri bildirimler yoluyla öğrenme sürecini gerçekleştirdiği bir yöntemdir. Ajan, çevreyi gözlemleyip değerlendirerek içinde bulunduğu duruma uygun gördüğü eylemleri oluşturarak çevresiyle etkileşime girer. Çevresinden gelen geri dönüşler ajan tarafında ödül ya da ceza olarak algılanır. Ajan, en iyi sonucu sağlayacak stratejiyi geliştirmek için aldığı geri bildirimlere dayanarak eylemlerini ayarlar. Pekiştirmeli öğrenme tabanlı çözümü geliştirebilmek için bir simülasyon ortamına ihtiyaç vardır. Çünkü pekiştirmeli öğrenme deneme yanılma ile öğrenmektedir ve bunun gerçek uçaklar ile yapılması şu an için uygulanabilir değildir. Pekiştirmeli öğrenme çözümü için geliştirilen simülasyon ortamı temelde dört parçadan oluşmaktadır. İlk modül hava araçlarına ait kinematik ve pozisyon denklemlerini içeren uçuş dinamikleri modülüdür. Buradaki denklemler oldukça basit düzeyde tutulmuştur. Çünkü tezin amaçları içerisinde geliştirilen sistemin yüksek dinamiklere sahip bir hava aracına uygulanması yoktur. İkinci modül manevra karar vericisidir. Bu modül hava aracının çevresini gözlemleyip gerekli eylemleri üretmekle sorumludur. Pekiştirmeli öğrenme kısmında bahsedilen ajan bu modül içerisindedir. Bunun yanında manevra karar vericiler arasında kural tabanlı çalışan ajanlar da bulunmaktadır. Üçüncü modül hava araçlarının bir muharebe senaryosu içerisinde gerçekleştirdiği manevraların çizdirildiği bir görselleştirme ekranıdır. Son olarak da diğer modüller arasındaki haberleşmeyi sağlayan gözleyici adında bir modül daha vardır. Bir muharebe senaryosu şöyle ilerlemektedir. İlk önce her iki uçağa da gözleyici tarafından bir başlangıç noktası atanmakta ve senaryo başlatılmaktadır. Manevra karar vericiler çevrelerini değerlendirerek kendilerine uygun eylemleri üretip bu eylemleri uçuş dinamikleri modülüne iletmektedir. Bu eylemler uçuş denklemlerine uygulanarak hava araçlarının gelecek adımdaki durumları hesaplanmakta ve bu çıktılar gözleyiciye iletilmektedir. Gözleyici de her iki aracın durumunu manevra karar vericilere göndermekte ve görselleştirme ekranına çizdirmektedir. Çalışmaların başlangıcında halihazırda düzgün manevralar üretebilen bir pekiştirmeli öğrenme modeli bulunmamaktadır. Dolayısıyla rakip hava aracının manevralarını üretebilecek bir pekiştirmeli öğrenme modeli de yoktur ve dost uçağın eğitilebilmesi için bir rakip ajana ihtiyaç vardır. Çünkü dost uçağın karşısında manevra üretebilen bir rakip olmadan it dalaşı senaryolarını öğrenebilmesi mümkün değildir. Bu nedenle eğitimlerin ilk aşamalarında kullanmak amacıyla kural tabanlı bir rakip ajan oluşturulmuştur. Bu ajan dost uçağın kendine yaklaştığını anladığında rastgele manevralar yaparak dost uçaktan kaçmaya çalışmaktadır. Böylelikle akıllı bir rakip ajan elde edilemese de rastgele manevralar ile ne yapacağı belli olmayan bir rakip ajan elde edilmiştir. Eğitim süreci ilerledikçe dost ajan rakip ajanı nasıl yenebileceğini öğrenmiştir. Yapılan testlerde dost ajanın rakip üzerinde yüzde doksan civarında bir üstünlük sağladığı da görülmüştür. Literatürde eğitilen başarılı dost ajanın rakip ajan yerine koyularak eğitimlerin bir önceki aşamada elde edilmiş akıllı rakibe karşı yapıldığı çalışmalar mevcuttur. Tezin başlangıcında bu çalışmalara benzer bir eğitim sistemi geliştirilmesi amaçlansa da bu yöntemin büyük bir açığı bulunmaktadır. Örneğin rastgele hareket eden rakibi yenebilen model birinci ajan, birinci ajanı rakip yerine koyarak eğittiğimiz ve birinciyi yüksek oranda yenebilen model ikinci ajan olsun. Şöyle ki ikinci, birinciyi yüksek oranda yenebilmesine rağmen rastgele hareket eden ajana karşı kazanamamaktadır. Yani yeni bir rakibe karşı eğitilirken rakibinden önce gelen ajanlara olan üstünlüğünü kaybetmektedir. Tez çalışmalarında bu sorunun üstesinden gelebilmek için bir evrimsel pekiştirmeli öğrenme tabanlı otonom manevra karar sistemi geliştirilmesi amaçlanmıştır. Geliştirilen eğitim sistemi; yukarıda bahsedilen simülasyon ortamı, paralel eğitimler yapabilmek için worker adında bir modül, eğitilen başarılı modellerin tutulduğu ilk giren ilk çıkar yapısında olan bir ajan havuzu ve yardımcı modüllerden oluşmaktadır. Sistemin çalışma şekli özet olarak şöyledir. Eğitimde paralel olarak m adet worker çalıştırılmaktadır. Eğitimin başlangıcında dost uçağı kontrol edecek model her worker için rastgele başlatılmaktadır ve ajan havuzu içerisinde sadece rastgele manevralar yaparak dost uçaktan kaçmaya çalışan bir ajan vardır. Her worker kendi içerisinde N adım eğitim yapmakta ve eğitim devam ederken n (n < N) adımda bir eğitilen modeli değerlendirmektedir. N adım eğitim bitiğinde, n adımda bir yapılan değerlendirmeler dikkate alınarak bir yerel en iyi model seçilmektedir. m adet worker modülünden gelen bu yerel en iyi modeller bir test seti kullanılarak birbirlerine karşı test edilip test sonuçlarına göre en iyi olan model global en iyi model olarak seçilmektedir. Sonrasında bu global en iyi model, ajan havuzunda bulunan tüm rakip ajanlara karşı bir test seti üzerinde test edilip global en iyi modelin, ajan havuzundaki her rakip ajana karşı kazanma oranı hesaplanmaktadır. Bu kazanma oranları ajan havuzu içerisine kaydedilmektedir. Eğer bu kazanma oranlarının hepsi belirli bir eşik değerin üzerindeyse yani global en iyi model, ajan havuzu içerisindeki her rakip ajanı belirli bir oranın üzerinde yenmiş ise global en iyi model, ajan havuzuna eklenmektedir, değilse eklenmemektedir. Global en iyi model ve güncellenmiş ajan havuzu kopyalanarak worker modüllerine gönderilmektedir. Bu şekilde eğitimin bir döngüsü tamamlanmış olur. Ajan havuzu içerisindeki model sayısı iki ve daha fazla olduğunda rakip uçağı kontrol etmek içi kullanılacak model, ajan havuzu içerisindeki modeller arasından ilgili modele karşı global en iyi modelin kazanma oranıyla ters orantılı bir olasılıkla rastgele seçilmektedir. Bu sayede eğitimin büyük kısmı global en iyi modelin kazanmakta zorlandığı modellere karşı yapılmaktadır. Geliştirilen metotta worker modülleri içerisindeki değerlendiriciler, ajan havuzu, eğitimin ikinci ve daha sonraki döngülerinin bir önceki döngüden gelen global en iyi model kullanılarak başlatılması sayesinde eğitimin her döngüsünde bir önceki döngüden daha iyi bir model elde edilmektedir. Bunun yanında ajan havuzu yapısının kullanılması farklı durumlarla başa çıkabilen bir model elde edilmesini de sağlanmaktadır. Sonuç olarak tasarlanan metotla yapılan eğitimlerde elde edilen modellerin sürekli olarak geliştiği görülmüştür. Her döngüde elde edilen modelin daha önceki modellerden hem kazanma oranı açısından daha başarılı olduğu hem de bu başarıyı farklı durumlar için daha çok sağlayabildiği görülmüştür.
Özet (Çeviri)
Air combat, particularly one-to-one short-range air combat, presents a challenging and dynamic environment where aircraft agility plays a crucial role. Although the use of unmanned aerial vehicles (UAVs) in air combat has been increasing rapidly, there are many challenges limiting the capability of UAVs against manned aircraft. One of them is the difficulty of making autonomous maneuver decisions, which can currently be partially overcome through remote control by expert pilots. However, the ultimate goal is to enable UAVs to make independent maneuvering decisions by evaluating their situation, analyzing opponent capabilities, and devising combat strategies accordingly. To address this challenge, the use of reinforcement learning based methods has increased considerably in current studies. This thesis aims to develop an evolutionary reinforcement learning-based autonomous maneuver decision system specifically designed for one-on-one short-range air combat. The initial phase involves investigating existing autonomous maneuver decision systems that rely on reinforcement learning. Reinforcement learning is a method in which a machine or artificial intelligence system called an agent interacts with its environment and performs the learning process through experiences and feedback. The agent observes the environment, takes actions based on its assessment, and adjusts its strategy by receiving rewards or punishments for its actions as feedback. Due to the trial-and-error nature of reinforcement learning, a simulation environment is necessary as real aircraft cannot be used for this purpose. The simulation environment in this research consists of four main modules. The first module is flight dynamics, which includes simplified aircraft kinematics and position equations suitable for the scope of the thesis. The second module is the maneuver decision maker containing the agent responsible for observing the aircraft's environment and generating appropriate actions. Rule-based agents also exist within this module. The third module is a visualization module that displays the maneuvers performed by the aircraft in aerial combat scenarios. Finally, the observer module facilitates communication between the other modules, assigning starting points to the aircraft and relaying information. At the beginning of the study, there were no reinforcement learning models capable of producing desirable maneuvers for aircraft. Consequently, an enemy agent is needed to train the allied aircraft. A rule-based agent performing random maneuvers to escape from the allied aircraft is used for this purpose. As the training progresses, the allied agent learns to defeat the opponent. Test results indicate that the allied agent achieves a ninety percent win rate over the enemy agent. Existing studies in the literature replace the enemy agent with the trained allied agent as training progresses. By doing that, the allied agent is trained against an intelligent opponent obtained from earlier stages of training. However, this method presents a notable drawback. For instance, the second agent, capable of beating the first agent with a high success rate, fails against the randomly moving agent. At the same time, the first agent is the agent that defeats the random-acting agent with a high win rate. Thus, the second agent loses its superiority against opponents encountered prior to its current enemy. An evolutionary reinforcement learning-based autonomous maneuver decision system is proposed to overcome this issue. The proposed approach aims to improve the UAVs' autonomous maneuver decision process and generate a robust policy against alternative enemy strategies. The training process involves parallel training of multiple workers, evaluation of models at regular intervals, selection of the best model, testing the best model against enemy policies, and updating the pool of enemy strategies. It is observed that the models trained with the proposed training method constantly improve, and the approach leads to more robust policies. The results show that the proposed method generates better policies with higher win rates than the agents trained via standard RL technics or k-level learning approach.
Benzer Tezler
- Behavior generation by artificial emotions and cognition for multi-goal robot tasks
Çoklu amaçlara sahip robot görevleri için kavrama ve yapay duygularla davranış oluşturulması
EVREN DAĞLARLI
Yüksek Lisans
İngilizce
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF.DR. HAKAN TEMELTAŞ
- İmalat sistemlerinin tasarlanması ve öncelik kurallarının belirlenmesinde yapay sinir ağlarının kullanılması
Başlık çevirisi yok
TARIK ÇAKAR
Doktora
Türkçe
1997
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. AYHAN TORAMAN
- Entegre fotonik cihazların tasarımına yönelik hesaplama tabanlı yaklaşımlar
Integrated photonic device designs based on computational approaches
EMRE BOR
Doktora
Türkçe
2020
Elektrik ve Elektronik MühendisliğiTOBB Ekonomi ve Teknoloji ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. HAMZA KURT
DOÇ. DR. MIRBEK TURDUEV
- Robot skill acquisition via representation sharing and reward conditioning
Robotların temsil paylaşımı ve ödül koşullanması yoluyla beceri kazanmaları
METE TULUHAN AKBULUT
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE UĞUR
- Reınforcement learnıng and evolutıonary algorıthms for contaıner loadıng problem
Reinforcement learning and evolutionary algorithms for container loading problem
SANI TIJJANI
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMevlana ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ARMAĞAN ÖZKAYA