Geri Dön

Scalable planning and learning framework development for swarm-to-swarm engagement problems with reinforcement learning

Pekiştirmeli öğrenme ile sürüden sürüye angajman problemleri için ölçeklenebilir planlama ve öğrenme sistemi geliştirilmesi

  1. Tez No: 776455
  2. Yazar: UMUT DEMİR
  3. Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Savunma ve Savunma Teknolojileri, Defense and Defense Technologies
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Uçak ve Uzay Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Uçak ve Uzay Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 73

Özet

Sürü robotları, çok sayıda robotu koordine etmek için sağlam ve ölçeklenebilir kontrol ve planlama algoritmalarının tasarımını içerir. Doğada gözlemlenen kolektif davranış, basit davranan bireylerin gruplar halinde bir araya geldiklerinde ve işbirliği yaptıklarında karmaşık görevleri nasıl başarabileceklerini göstererek sürü robotlara ilham vermektedir. Son yıllarda insansız hava aracı teknolojilerindeki gelişmeler nedeniyle hava saldırı stratejileri büyük ölçüde değiştirdi. Amerika Birleşik Devletleri (DARPA Offensive Swarm-Enabled Tactics), Rusya (Yıldırım Projesi), Fransa (Icarus Projesi), yüzden fazla insansız hava aracından oluşan sürüler ile saldırıların gerçekleştirilebileceğini gösterdi. DARPA'nın mevcut OFSET çalışmaları, sayıları yüzü aşan sürülere odaklanmaktadır. Mevcut konvansiyonel hava savunma sistemleri, seyir füzeleri veya savaş uçakları gibi az sayıda ağır vuruş yapan düşman için optimize edildiğinden, bu sistemler genellikle geniş bir alanı kapsayan büyük ölçekli hava sürüsü saldırılarına karşı kritik bir dezavantaja sahiptir. Bu nedenle, hava sürüsü saldırılarına karşı savunma yapmak, modern savunma sanayisinin en önemli konularından biridir. İnsansız hava araçlarından oluşan sürüler için navigasyon ve kontrol algoritmalarının geliştirilmesi son yıllarda büyük ilgi gördü. Bununla birlikte, düşman sürüleriyle çatışmaya girmek için sürü tahsislerini/yörüngelerini planlamaya yönelik algoritmalar, üzerinde yeterince çalışılmamış bir sorundur. Küçük ölçekli senaryolar, diferansiyel oyun teorisinden gelen araçlarla ele alınabilse de, mevcut yaklaşımlar, büyük ölçekli çok ajanlı kaçan-kovalayan senaryoları için ölçeklendirmede başarısız olmaktadır. Sürüden Sürüye angajman problemi, kontrollü sürü birimlerinin bir düşman sürüsüne karşı optimal stratejilerinin hesaplanmasına odaklanır. Bu konularda daha önce yapılmış çalışmalar olmasına rağmen, katı varsayımlar ve kısıtlamalar kullanmadan sürüden sürüye angajman problemlerini çözmek için etkili ve ölçeklenebilir yöntemler yoktur. Önceki çalışmalar, düşman sürüsünün kontrollü sürü eylemlerine ve ortamdaki değişikliklere uyum sağladığı çarpışma senaryolarını göz ardı ederek, hem deterministik hem de olasılıksal yöntemleri kullanarak yüksek seviyeli angajman problemi için ölçeklenebilir sonuçlar göstermektedir. Örneğin, düşman sürüsünün doğrudan önceden tanımlanmış bir varış noktasına doğru uçtuğu varsayılmıştır. Bu yaklaşım, optimallik analizi için çok yararlı olmasına rağmen, gerçek senaryolara uygulanabilirliği sınırlıdır. Bu makalelerin ana hedeflerinden biri, düşman sürüsünün doğasına ilişkin katı varsayımlar kullanmadan sürüden sürüye angajman problemlerinin daha geniş bir dizisine uygulanabilen algoritmalar geliştirmektir. Takviyeli öğrenme ve sürü robot teknolojisindeki ilerlemelerle, bu iki alanın birleştirilmesi, savunma stratejilerine dayanmayan akıllı sürü sistemleri için kaçınılmaz hale geldi. Merkezi olmayan bir şekilde uçtan uca pekiştirmeli öğrenmeyi kullanan çok sayıda insansız hava aracı için insansız hava aracı sürüsü planlama algoritmaları geliştirilmiştir fakat ölçeklenebilir bir çalışma olmamaktadır. Bu sorunu çözmek için bu çalışmada iki ana yaklaşım sunulmaktadır. İlk olarak, düşman sürüsü saldırılarını durdurmak için büyük ölçekli bir sürünün yoğunluğunu kontrol eden bir pekiştirmeli öğrenme (RL) yapısı önerilmiştir. Sürü kontrolü için yapay zeka yöntemlerinin uygulanmasına ilişkin önemli miktarda mevcut çalışma olmasına rağmen, iki düşman sürü arasındaki etkileşimlerin analizi oldukça az çalışılmış bir alandır. Bu konudaki mevcut çalışmaların çoğu, düşman sürüsünün stratejisi ve dinamikleri hakkında katı varsayımlar yaparak stratejiler geliştirmektedir. Burada yapılan katkı, sürüden sürüye angajman probleminin bir Markov Karar Süreci olarak formüle edilmesi ve düşman sürüsünün stratejisi/dinamikleri bilgisi olmadan angajman stratejilerini hesaplayabilen pekiştirmeli öğrenme algoritmalarının geliştirilmesidir. Sürüyü modellemek için, Viscek modeline benzer bir yaklaşım benimsenmiştir. Vicsek modeli, toplu hareket ve sürü oluşturmayı tanımlamak için kullanılan basit bir modeldir. Orijinal Vicsek modelinde, ajanlar sabit bir ileri hız sağlar ve kendi yön yönlerini belirli bir Öklid yarıçapındaki komşularının ortalama yönüyle hizalayarak sürü ile etkileşime girer. Başka bir deyişle, sürü davranışının bir tür kendini hizalama davranışı olduğunu varsayar. Bu çalışmaya dayanarak, sürünün ortalam ve varsans değerleri kontrol edilir ve karmaşıklık azaltılır. Burada amaç ortalama ve varyans değerlerini kontrol ederek sürünün dağılımını kontrol etmektir. Buradaki varyans değerinin kontrol edilmesinin önemi, sürünün ortalama değere ne kadar çekildiğini kontrol etmektir. Düşük bir varyans değeri, sürünün harita üzerindeki yayılmasını azaltır ve sürü ajanlarını birbirine yaklaştırır. Büyük varyans değeri, haritadaki yayılmayı artırır ve sürü ajanlarını uzaklaştırır. Böylece sadece ortalama ve varyans parametrelerini kontrol ederek sürü dağılımı üzerinde kontrol elde edilir. Daha sonra, sürüden sürüye angajman problemini, rakip sürünün altında yatan dinamikler hakkında bilgi sahibi olmadan RL algoritmalarının bilgi işlem angajman politikaları için kullanılmasını sağlayan bir Markov Karar Süreci (MDP) olarak formüle edilmiştir. Simülasyon sonuçları, geliştirilen çerçevenin çok çeşitli büyük ölçekli angajman senaryolarını verimli bir şekilde işleyebileceğini göstermektedir. Bu çalışmada, düşman sürüsü saldırılarını durdurmak için sürekli ortamda büyük ölçekli, kontrollü bir sürünün yoğunluğunu kontrol eden pekiştirmeli öğrenme algoritması geliştirilmiştir. Sürü birimlerinin doğada görülen basit etkileşimlerinden esinlenerek, sürü öğelerinin sürünün ortalama davranışını takip ettiği basit bir yapı ile kontrol edilmektedir. Ayrıca, politika tarafından kontrol edilen sürünün gruplandırılmasında bu davranışın esnekliğinin arttığını sonucuna ulaşılmıştır. Sonuçlar, bu yapının en yaygın sürü saldırısı yöntemlerine uyum sağladığını göstermektedir. Öte yandan, düşmanın akıllıca hareket ettiği daha fazla senaryoda test edilmesi gerekmektedir. Bunu sağlamak için AlphaGo gibi politikaların birbiriyle yarıştığı bir algoritma yapısı ilginç stratejiler ortaya çıkaracaktır. Ayrıca, gerçekçi savaş simülasyonları elde etmek için, tezin geri kalanında anlatıldığı gibi, farklı takip-kaçınma oyunları çalıştırılabilir. İkinci olarak, büyük ölçekli sürü angajman problemlerini bir dizi bağımsız ve çok katmanlı kaçan-kovalayan oyununa ayrıştırmak için pekiştirmeli öğrenme temelli bir yapı önerilmiştir. Belirli koşullar altında, sınırlı süreli yakalamanın garanti edildiği, çeşitli çok ajanlı kaçan kovalayan senaryoları simüle edilir. Hesaplanan senaryoların istatistikleri, düşman sürü birimlerini maksimum verimlilikle ortadan kaldırmak için kontrollü sürü birimlerini tahsis eden bir pekiştirmeli öğrenme algoritması kullanan üst düzey tahsis katmanına bir ödül sinyali olarak sağlanır. Sunduğumuz sonuçlar, farklı ödül toplama mekanizmalarına ve düşman stratejilerine göre farklı savunma mekanizmalarının geliştiğini gösteriyor. Örnek vermek gerekirse, düşman haritaya yayılmış, peş peşe veya tek bir merkezde kümelenmiş olarak saldırabilir. Bu saldırıların tümü ayrı savunma mekanizmaları gerektirir. Öte yandan sürü halinde savunma yapmak sayısal bir avantaj sağlıyorsa bu farklı bir ödül yapısının getirdiği farklı bir savunma mekanizması ile sonuçlanacaktır. Temel amaç, bu farklı senaryolara uyum sağlayan bir kontrol politikasının geliştirildiğini görmektir. Küçük ızgaralardaki sürü yoğunluğu dağılımlarını eşleştirmek için bir ızgara haritası ortamı oluşturulur. Ardından, sorun birden fazla takip-kaçınma oyununa indirgenir ve karşılık gelen ödüller, alt seviyedeki her ızgaradaki farklı angajman senaryolarından toplanır. RL ajanının simülasyon sonuçlarında daha başarılı olacağı senaryolar için sürüleri uygun dağılımlara göndermeyi öğrendiği gözlemlenmiştir. Gelecekteki çalışmalar olarak, son teknoloji ölçeklenebilir sürü angajman çerçevesini elde etmek için farklı takip-kaçınma taktiklerine sahip büyük ölçekli ızgara haritaları için stratejiler geliştirelecektir. Bu yaklaşımda, düşman sürü unsurlarının efektif bir şekilde yok edildiği büyük ölçekli sürüden sürüye angajman simülasyonlarda doğrulanmıştır.

Özet (Çeviri)

Development of guidance, navigation and control frameworks/algorithms for swarms attracted significant attention in recent years. Since existing conventional aerial defense systems are optimized for a small number of heavy-hitting adversaries such as cruise missiles or fighter aircraft, these systems are often in a critical disadvantage against large-scale aerial swarm attacks that cover a wide area. Thus, defending against the aerial swarm attacks is one of That being said, algorithms for planning swarm allocations/trajectories for engaging with enemy swarms is largely an understudied problem. Although small-scale scenarios can be addressed with tools from differential game theory, existing approaches fail to scale for large-scale multi-agent pursuit evasion (PE) scenarios. To solve this problem, two main approaches are presented in this study. First, a reinforcement learning (RL) framework that controls the density of a large-scale swarm for engaging with adversarial swarm attacks is proposed. Although there is a significant amount of existing work in applying artificial intelligence methods to swarm control, analysis of interactions between two adversarial swarms is a rather understudied area. Most of the existing work in this subject develop strategies by making hard assumptions regarding the strategy and dynamics of the adversarial swarm. The main contribution is the formulation of the swarm to swarm engagement problem as a Markov Decision Process and development of RL algorithms that can compute engagement strategies without the knowledge of strategy/dynamics of the adversarial swarm. Simulation results show that the developed framework can handle a wide array of large-scale engagement scenarios in an efficient manner. Secondly, a reinforcement learning (RL) based framework to decompose to large-scale swarm engagement problems into a number of independent multi-agent pursuit-evasion games is proposed. Variety of multi-agent PE scenarios are simulated, where finite time capture is guaranteed under certain conditions. The calculated PE statistics are provided as a reward signal to the high level allocation layer, which uses an RL algorithm to allocate controlled swarm units to eliminate enemy swarm units with maximum efficiency. This approach is verified in large-scale swarm-to-swarm engagement simulations.

Benzer Tezler

  1. Geniş ölçekli veriler üzerinde sınıflandırma ve bölütleme amaçlı evrişimsel sinir ağı ve istatistiksel modellerin geliştirilmesi

    Development of convolutional neural network and statistical models for classification and segmentation on large-scale data

    NURULLAH ÇALIK

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. LÜTFİYE DURAK ATA

  2. Spatiotemporal modeling using machine learning

    Yapay öğrenme ile uzam-zamansal modelleme

    ÇİĞDEM AK

    Doktora

    İngilizce

    İngilizce

    2019

    Halk SağlığıKoç Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DOÇ. DR. MEHMET GÖNEN

    PROF. DR. MEHMET ÖNDER ERGÖNÜL

  3. Resilient ultra dense networks under UAV coverage for disaster management

    Afet yönetiminde İHA'lar ile dayanıklı ultra yoğun ağlar

    ELİF BOZKAYA

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BERK CANBERK

  4. Investigating deep reinforcement learningfor static optimization in optical networks

    Başlık çevirisi yok

    EMRE FURKAN MERCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolPolitecnico di Milano

    PROF. MASSİMO TORNATORE

    PROF. FRANCESCO MUSUMECİ