Scalable planning and learning framework development for swarm-to-swarm engagement problems with reinforcement learning
Pekiştirmeli öğrenme ile sürüden sürüye angajman problemleri için ölçeklenebilir planlama ve öğrenme sistemi geliştirilmesi
- Tez No: 776455
- Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
- Tez Türü: Yüksek Lisans
- Konular: Savunma ve Savunma Teknolojileri, Defense and Defense Technologies
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Uçak ve Uzay Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Uçak ve Uzay Mühendisliği Bilim Dalı
- Sayfa Sayısı: 73
Özet
Sürü robotları, çok sayıda robotu koordine etmek için sağlam ve ölçeklenebilir kontrol ve planlama algoritmalarının tasarımını içerir. Doğada gözlemlenen kolektif davranış, basit davranan bireylerin gruplar halinde bir araya geldiklerinde ve işbirliği yaptıklarında karmaşık görevleri nasıl başarabileceklerini göstererek sürü robotlara ilham vermektedir. Son yıllarda insansız hava aracı teknolojilerindeki gelişmeler nedeniyle hava saldırı stratejileri büyük ölçüde değiştirdi. Amerika Birleşik Devletleri (DARPA Offensive Swarm-Enabled Tactics), Rusya (Yıldırım Projesi), Fransa (Icarus Projesi), yüzden fazla insansız hava aracından oluşan sürüler ile saldırıların gerçekleştirilebileceğini gösterdi. DARPA'nın mevcut OFSET çalışmaları, sayıları yüzü aşan sürülere odaklanmaktadır. Mevcut konvansiyonel hava savunma sistemleri, seyir füzeleri veya savaş uçakları gibi az sayıda ağır vuruş yapan düşman için optimize edildiğinden, bu sistemler genellikle geniş bir alanı kapsayan büyük ölçekli hava sürüsü saldırılarına karşı kritik bir dezavantaja sahiptir. Bu nedenle, hava sürüsü saldırılarına karşı savunma yapmak, modern savunma sanayisinin en önemli konularından biridir. İnsansız hava araçlarından oluşan sürüler için navigasyon ve kontrol algoritmalarının geliştirilmesi son yıllarda büyük ilgi gördü. Bununla birlikte, düşman sürüleriyle çatışmaya girmek için sürü tahsislerini/yörüngelerini planlamaya yönelik algoritmalar, üzerinde yeterince çalışılmamış bir sorundur. Küçük ölçekli senaryolar, diferansiyel oyun teorisinden gelen araçlarla ele alınabilse de, mevcut yaklaşımlar, büyük ölçekli çok ajanlı kaçan-kovalayan senaryoları için ölçeklendirmede başarısız olmaktadır. Sürüden Sürüye angajman problemi, kontrollü sürü birimlerinin bir düşman sürüsüne karşı optimal stratejilerinin hesaplanmasına odaklanır. Bu konularda daha önce yapılmış çalışmalar olmasına rağmen, katı varsayımlar ve kısıtlamalar kullanmadan sürüden sürüye angajman problemlerini çözmek için etkili ve ölçeklenebilir yöntemler yoktur. Önceki çalışmalar, düşman sürüsünün kontrollü sürü eylemlerine ve ortamdaki değişikliklere uyum sağladığı çarpışma senaryolarını göz ardı ederek, hem deterministik hem de olasılıksal yöntemleri kullanarak yüksek seviyeli angajman problemi için ölçeklenebilir sonuçlar göstermektedir. Örneğin, düşman sürüsünün doğrudan önceden tanımlanmış bir varış noktasına doğru uçtuğu varsayılmıştır. Bu yaklaşım, optimallik analizi için çok yararlı olmasına rağmen, gerçek senaryolara uygulanabilirliği sınırlıdır. Bu makalelerin ana hedeflerinden biri, düşman sürüsünün doğasına ilişkin katı varsayımlar kullanmadan sürüden sürüye angajman problemlerinin daha geniş bir dizisine uygulanabilen algoritmalar geliştirmektir. Takviyeli öğrenme ve sürü robot teknolojisindeki ilerlemelerle, bu iki alanın birleştirilmesi, savunma stratejilerine dayanmayan akıllı sürü sistemleri için kaçınılmaz hale geldi. Merkezi olmayan bir şekilde uçtan uca pekiştirmeli öğrenmeyi kullanan çok sayıda insansız hava aracı için insansız hava aracı sürüsü planlama algoritmaları geliştirilmiştir fakat ölçeklenebilir bir çalışma olmamaktadır. Bu sorunu çözmek için bu çalışmada iki ana yaklaşım sunulmaktadır. İlk olarak, düşman sürüsü saldırılarını durdurmak için büyük ölçekli bir sürünün yoğunluğunu kontrol eden bir pekiştirmeli öğrenme (RL) yapısı önerilmiştir. Sürü kontrolü için yapay zeka yöntemlerinin uygulanmasına ilişkin önemli miktarda mevcut çalışma olmasına rağmen, iki düşman sürü arasındaki etkileşimlerin analizi oldukça az çalışılmış bir alandır. Bu konudaki mevcut çalışmaların çoğu, düşman sürüsünün stratejisi ve dinamikleri hakkında katı varsayımlar yaparak stratejiler geliştirmektedir. Burada yapılan katkı, sürüden sürüye angajman probleminin bir Markov Karar Süreci olarak formüle edilmesi ve düşman sürüsünün stratejisi/dinamikleri bilgisi olmadan angajman stratejilerini hesaplayabilen pekiştirmeli öğrenme algoritmalarının geliştirilmesidir. Sürüyü modellemek için, Viscek modeline benzer bir yaklaşım benimsenmiştir. Vicsek modeli, toplu hareket ve sürü oluşturmayı tanımlamak için kullanılan basit bir modeldir. Orijinal Vicsek modelinde, ajanlar sabit bir ileri hız sağlar ve kendi yön yönlerini belirli bir Öklid yarıçapındaki komşularının ortalama yönüyle hizalayarak sürü ile etkileşime girer. Başka bir deyişle, sürü davranışının bir tür kendini hizalama davranışı olduğunu varsayar. Bu çalışmaya dayanarak, sürünün ortalam ve varsans değerleri kontrol edilir ve karmaşıklık azaltılır. Burada amaç ortalama ve varyans değerlerini kontrol ederek sürünün dağılımını kontrol etmektir. Buradaki varyans değerinin kontrol edilmesinin önemi, sürünün ortalama değere ne kadar çekildiğini kontrol etmektir. Düşük bir varyans değeri, sürünün harita üzerindeki yayılmasını azaltır ve sürü ajanlarını birbirine yaklaştırır. Büyük varyans değeri, haritadaki yayılmayı artırır ve sürü ajanlarını uzaklaştırır. Böylece sadece ortalama ve varyans parametrelerini kontrol ederek sürü dağılımı üzerinde kontrol elde edilir. Daha sonra, sürüden sürüye angajman problemini, rakip sürünün altında yatan dinamikler hakkında bilgi sahibi olmadan RL algoritmalarının bilgi işlem angajman politikaları için kullanılmasını sağlayan bir Markov Karar Süreci (MDP) olarak formüle edilmiştir. Simülasyon sonuçları, geliştirilen çerçevenin çok çeşitli büyük ölçekli angajman senaryolarını verimli bir şekilde işleyebileceğini göstermektedir. Bu çalışmada, düşman sürüsü saldırılarını durdurmak için sürekli ortamda büyük ölçekli, kontrollü bir sürünün yoğunluğunu kontrol eden pekiştirmeli öğrenme algoritması geliştirilmiştir. Sürü birimlerinin doğada görülen basit etkileşimlerinden esinlenerek, sürü öğelerinin sürünün ortalama davranışını takip ettiği basit bir yapı ile kontrol edilmektedir. Ayrıca, politika tarafından kontrol edilen sürünün gruplandırılmasında bu davranışın esnekliğinin arttığını sonucuna ulaşılmıştır. Sonuçlar, bu yapının en yaygın sürü saldırısı yöntemlerine uyum sağladığını göstermektedir. Öte yandan, düşmanın akıllıca hareket ettiği daha fazla senaryoda test edilmesi gerekmektedir. Bunu sağlamak için AlphaGo gibi politikaların birbiriyle yarıştığı bir algoritma yapısı ilginç stratejiler ortaya çıkaracaktır. Ayrıca, gerçekçi savaş simülasyonları elde etmek için, tezin geri kalanında anlatıldığı gibi, farklı takip-kaçınma oyunları çalıştırılabilir. İkinci olarak, büyük ölçekli sürü angajman problemlerini bir dizi bağımsız ve çok katmanlı kaçan-kovalayan oyununa ayrıştırmak için pekiştirmeli öğrenme temelli bir yapı önerilmiştir. Belirli koşullar altında, sınırlı süreli yakalamanın garanti edildiği, çeşitli çok ajanlı kaçan kovalayan senaryoları simüle edilir. Hesaplanan senaryoların istatistikleri, düşman sürü birimlerini maksimum verimlilikle ortadan kaldırmak için kontrollü sürü birimlerini tahsis eden bir pekiştirmeli öğrenme algoritması kullanan üst düzey tahsis katmanına bir ödül sinyali olarak sağlanır. Sunduğumuz sonuçlar, farklı ödül toplama mekanizmalarına ve düşman stratejilerine göre farklı savunma mekanizmalarının geliştiğini gösteriyor. Örnek vermek gerekirse, düşman haritaya yayılmış, peş peşe veya tek bir merkezde kümelenmiş olarak saldırabilir. Bu saldırıların tümü ayrı savunma mekanizmaları gerektirir. Öte yandan sürü halinde savunma yapmak sayısal bir avantaj sağlıyorsa bu farklı bir ödül yapısının getirdiği farklı bir savunma mekanizması ile sonuçlanacaktır. Temel amaç, bu farklı senaryolara uyum sağlayan bir kontrol politikasının geliştirildiğini görmektir. Küçük ızgaralardaki sürü yoğunluğu dağılımlarını eşleştirmek için bir ızgara haritası ortamı oluşturulur. Ardından, sorun birden fazla takip-kaçınma oyununa indirgenir ve karşılık gelen ödüller, alt seviyedeki her ızgaradaki farklı angajman senaryolarından toplanır. RL ajanının simülasyon sonuçlarında daha başarılı olacağı senaryolar için sürüleri uygun dağılımlara göndermeyi öğrendiği gözlemlenmiştir. Gelecekteki çalışmalar olarak, son teknoloji ölçeklenebilir sürü angajman çerçevesini elde etmek için farklı takip-kaçınma taktiklerine sahip büyük ölçekli ızgara haritaları için stratejiler geliştirelecektir. Bu yaklaşımda, düşman sürü unsurlarının efektif bir şekilde yok edildiği büyük ölçekli sürüden sürüye angajman simülasyonlarda doğrulanmıştır.
Özet (Çeviri)
Development of guidance, navigation and control frameworks/algorithms for swarms attracted significant attention in recent years. Since existing conventional aerial defense systems are optimized for a small number of heavy-hitting adversaries such as cruise missiles or fighter aircraft, these systems are often in a critical disadvantage against large-scale aerial swarm attacks that cover a wide area. Thus, defending against the aerial swarm attacks is one of That being said, algorithms for planning swarm allocations/trajectories for engaging with enemy swarms is largely an understudied problem. Although small-scale scenarios can be addressed with tools from differential game theory, existing approaches fail to scale for large-scale multi-agent pursuit evasion (PE) scenarios. To solve this problem, two main approaches are presented in this study. First, a reinforcement learning (RL) framework that controls the density of a large-scale swarm for engaging with adversarial swarm attacks is proposed. Although there is a significant amount of existing work in applying artificial intelligence methods to swarm control, analysis of interactions between two adversarial swarms is a rather understudied area. Most of the existing work in this subject develop strategies by making hard assumptions regarding the strategy and dynamics of the adversarial swarm. The main contribution is the formulation of the swarm to swarm engagement problem as a Markov Decision Process and development of RL algorithms that can compute engagement strategies without the knowledge of strategy/dynamics of the adversarial swarm. Simulation results show that the developed framework can handle a wide array of large-scale engagement scenarios in an efficient manner. Secondly, a reinforcement learning (RL) based framework to decompose to large-scale swarm engagement problems into a number of independent multi-agent pursuit-evasion games is proposed. Variety of multi-agent PE scenarios are simulated, where finite time capture is guaranteed under certain conditions. The calculated PE statistics are provided as a reward signal to the high level allocation layer, which uses an RL algorithm to allocate controlled swarm units to eliminate enemy swarm units with maximum efficiency. This approach is verified in large-scale swarm-to-swarm engagement simulations.
Benzer Tezler
- Geniş ölçekli veriler üzerinde sınıflandırma ve bölütleme amaçlı evrişimsel sinir ağı ve istatistiksel modellerin geliştirilmesi
Development of convolutional neural network and statistical models for classification and segmentation on large-scale data
NURULLAH ÇALIK
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. LÜTFİYE DURAK ATA
- Spatiotemporal modeling using machine learning
Yapay öğrenme ile uzam-zamansal modelleme
ÇİĞDEM AK
Doktora
İngilizce
2019
Halk SağlığıKoç ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
DOÇ. DR. MEHMET GÖNEN
PROF. DR. MEHMET ÖNDER ERGÖNÜL
- Resilient ultra dense networks under UAV coverage for disaster management
Afet yönetiminde İHA'lar ile dayanıklı ultra yoğun ağlar
ELİF BOZKAYA
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BERK CANBERK
- Exploring fusion models in computer vision for medical image computing
Başlık çevirisi yok
DUYGU SARIKAYA
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolState University of New York at BuffaloDr. JASON J. CORSO
- Investigating deep reinforcement learningfor static optimization in optical networks
Başlık çevirisi yok
EMRE FURKAN MERCAN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolPolitecnico di MilanoPROF. MASSİMO TORNATORE
PROF. FRANCESCO MUSUMECİ