Scalable planning and learning framework development for swarm-to-swarm engagement problems with reinforcement learning

Pekiştirmeli öğrenme ile sürüden sürüye angajman problemleri için ölçeklenebilir planlama ve öğrenme sistemi geliştirilmesi

PDF İndir

Tez No: 776455
Yazar: UMUT DEMİR
Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
Tez Türü: Yüksek Lisans
Konular: Savunma ve Savunma Teknolojileri, Defense and Defense Technologies
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Uçak ve Uzay Mühendisliği Ana Bilim Dalı
Bilim Dalı: Uçak ve Uzay Mühendisliği Bilim Dalı
Sayfa Sayısı: 73

Özet

Sürü robotları, çok sayıda robotu koordine etmek için sağlam ve ölçeklenebilir kontrol ve planlama algoritmalarının tasarımını içerir. Doğada gözlemlenen kolektif davranış, basit davranan bireylerin gruplar halinde bir araya geldiklerinde ve işbirliği yaptıklarında karmaşık görevleri nasıl başarabileceklerini göstererek sürü robotlara ilham vermektedir. Son yıllarda insansız hava aracı teknolojilerindeki gelişmeler nedeniyle hava saldırı stratejileri büyük ölçüde değiştirdi. Amerika Birleşik Devletleri (DARPA Offensive Swarm-Enabled Tactics), Rusya (Yıldırım Projesi), Fransa (Icarus Projesi), yüzden fazla insansız hava aracından oluşan sürüler ile saldırıların gerçekleştirilebileceğini gösterdi. DARPA'nın mevcut OFSET çalışmaları, sayıları yüzü aşan sürülere odaklanmaktadır. Mevcut konvansiyonel hava savunma sistemleri, seyir füzeleri veya savaş uçakları gibi az sayıda ağır vuruş yapan düşman için optimize edildiğinden, bu sistemler genellikle geniş bir alanı kapsayan büyük ölçekli hava sürüsü saldırılarına karşı kritik bir dezavantaja sahiptir. Bu nedenle, hava sürüsü saldırılarına karşı savunma yapmak, modern savunma sanayisinin en önemli konularından biridir. İnsansız hava araçlarından oluşan sürüler için navigasyon ve kontrol algoritmalarının geliştirilmesi son yıllarda büyük ilgi gördü. Bununla birlikte, düşman sürüleriyle çatışmaya girmek için sürü tahsislerini/yörüngelerini planlamaya yönelik algoritmalar, üzerinde yeterince çalışılmamış bir sorundur. Küçük ölçekli senaryolar, diferansiyel oyun teorisinden gelen araçlarla ele alınabilse de, mevcut yaklaşımlar, büyük ölçekli çok ajanlı kaçan-kovalayan senaryoları için ölçeklendirmede başarısız olmaktadır. Sürüden Sürüye angajman problemi, kontrollü sürü birimlerinin bir düşman sürüsüne karşı optimal stratejilerinin hesaplanmasına odaklanır. Bu konularda daha önce yapılmış çalışmalar olmasına rağmen, katı varsayımlar ve kısıtlamalar kullanmadan sürüden sürüye angajman problemlerini çözmek için etkili ve ölçeklenebilir yöntemler yoktur. Önceki çalışmalar, düşman sürüsünün kontrollü sürü eylemlerine ve ortamdaki değişikliklere uyum sağladığı çarpışma senaryolarını göz ardı ederek, hem deterministik hem de olasılıksal yöntemleri kullanarak yüksek seviyeli angajman problemi için ölçeklenebilir sonuçlar göstermektedir. Örneğin, düşman sürüsünün doğrudan önceden tanımlanmış bir varış noktasına doğru uçtuğu varsayılmıştır. Bu yaklaşım, optimallik analizi için çok yararlı olmasına rağmen, gerçek senaryolara uygulanabilirliği sınırlıdır. Bu makalelerin ana hedeflerinden biri, düşman sürüsünün doğasına ilişkin katı varsayımlar kullanmadan sürüden sürüye angajman problemlerinin daha geniş bir dizisine uygulanabilen algoritmalar geliştirmektir. Takviyeli öğrenme ve sürü robot teknolojisindeki ilerlemelerle, bu iki alanın birleştirilmesi, savunma stratejilerine dayanmayan akıllı sürü sistemleri için kaçınılmaz hale geldi. Merkezi olmayan bir şekilde uçtan uca pekiştirmeli öğrenmeyi kullanan çok sayıda insansız hava aracı için insansız hava aracı sürüsü planlama algoritmaları geliştirilmiştir fakat ölçeklenebilir bir çalışma olmamaktadır. Bu sorunu çözmek için bu çalışmada iki ana yaklaşım sunulmaktadır. İlk olarak, düşman sürüsü saldırılarını durdurmak için büyük ölçekli bir sürünün yoğunluğunu kontrol eden bir pekiştirmeli öğrenme (RL) yapısı önerilmiştir. Sürü kontrolü için yapay zeka yöntemlerinin uygulanmasına ilişkin önemli miktarda mevcut çalışma olmasına rağmen, iki düşman sürü arasındaki etkileşimlerin analizi oldukça az çalışılmış bir alandır. Bu konudaki mevcut çalışmaların çoğu, düşman sürüsünün stratejisi ve dinamikleri hakkında katı varsayımlar yaparak stratejiler geliştirmektedir. Burada yapılan katkı, sürüden sürüye angajman probleminin bir Markov Karar Süreci olarak formüle edilmesi ve düşman sürüsünün stratejisi/dinamikleri bilgisi olmadan angajman stratejilerini hesaplayabilen pekiştirmeli öğrenme algoritmalarının geliştirilmesidir. Sürüyü modellemek için, Viscek modeline benzer bir yaklaşım benimsenmiştir. Vicsek modeli, toplu hareket ve sürü oluşturmayı tanımlamak için kullanılan basit bir modeldir. Orijinal Vicsek modelinde, ajanlar sabit bir ileri hız sağlar ve kendi yön yönlerini belirli bir Öklid yarıçapındaki komşularının ortalama yönüyle hizalayarak sürü ile etkileşime girer. Başka bir deyişle, sürü davranışının bir tür kendini hizalama davranışı olduğunu varsayar. Bu çalışmaya dayanarak, sürünün ortalam ve varsans değerleri kontrol edilir ve karmaşıklık azaltılır. Burada amaç ortalama ve varyans değerlerini kontrol ederek sürünün dağılımını kontrol etmektir. Buradaki varyans değerinin kontrol edilmesinin önemi, sürünün ortalama değere ne kadar çekildiğini kontrol etmektir. Düşük bir varyans değeri, sürünün harita üzerindeki yayılmasını azaltır ve sürü ajanlarını birbirine yaklaştırır. Büyük varyans değeri, haritadaki yayılmayı artırır ve sürü ajanlarını uzaklaştırır. Böylece sadece ortalama ve varyans parametrelerini kontrol ederek sürü dağılımı üzerinde kontrol elde edilir. Daha sonra, sürüden sürüye angajman problemini, rakip sürünün altında yatan dinamikler hakkında bilgi sahibi olmadan RL algoritmalarının bilgi işlem angajman politikaları için kullanılmasını sağlayan bir Markov Karar Süreci (MDP) olarak formüle edilmiştir. Simülasyon sonuçları, geliştirilen çerçevenin çok çeşitli büyük ölçekli angajman senaryolarını verimli bir şekilde işleyebileceğini göstermektedir. Bu çalışmada, düşman sürüsü saldırılarını durdurmak için sürekli ortamda büyük ölçekli, kontrollü bir sürünün yoğunluğunu kontrol eden pekiştirmeli öğrenme algoritması geliştirilmiştir. Sürü birimlerinin doğada görülen basit etkileşimlerinden esinlenerek, sürü öğelerinin sürünün ortalama davranışını takip ettiği basit bir yapı ile kontrol edilmektedir. Ayrıca, politika tarafından kontrol edilen sürünün gruplandırılmasında bu davranışın esnekliğinin arttığını sonucuna ulaşılmıştır. Sonuçlar, bu yapının en yaygın sürü saldırısı yöntemlerine uyum sağladığını göstermektedir. Öte yandan, düşmanın akıllıca hareket ettiği daha fazla senaryoda test edilmesi gerekmektedir. Bunu sağlamak için AlphaGo gibi politikaların birbiriyle yarıştığı bir algoritma yapısı ilginç stratejiler ortaya çıkaracaktır. Ayrıca, gerçekçi savaş simülasyonları elde etmek için, tezin geri kalanında anlatıldığı gibi, farklı takip-kaçınma oyunları çalıştırılabilir. İkinci olarak, büyük ölçekli sürü angajman problemlerini bir dizi bağımsız ve çok katmanlı kaçan-kovalayan oyununa ayrıştırmak için pekiştirmeli öğrenme temelli bir yapı önerilmiştir. Belirli koşullar altında, sınırlı süreli yakalamanın garanti edildiği, çeşitli çok ajanlı kaçan kovalayan senaryoları simüle edilir. Hesaplanan senaryoların istatistikleri, düşman sürü birimlerini maksimum verimlilikle ortadan kaldırmak için kontrollü sürü birimlerini tahsis eden bir pekiştirmeli öğrenme algoritması kullanan üst düzey tahsis katmanına bir ödül sinyali olarak sağlanır. Sunduğumuz sonuçlar, farklı ödül toplama mekanizmalarına ve düşman stratejilerine göre farklı savunma mekanizmalarının geliştiğini gösteriyor. Örnek vermek gerekirse, düşman haritaya yayılmış, peş peşe veya tek bir merkezde kümelenmiş olarak saldırabilir. Bu saldırıların tümü ayrı savunma mekanizmaları gerektirir. Öte yandan sürü halinde savunma yapmak sayısal bir avantaj sağlıyorsa bu farklı bir ödül yapısının getirdiği farklı bir savunma mekanizması ile sonuçlanacaktır. Temel amaç, bu farklı senaryolara uyum sağlayan bir kontrol politikasının geliştirildiğini görmektir. Küçük ızgaralardaki sürü yoğunluğu dağılımlarını eşleştirmek için bir ızgara haritası ortamı oluşturulur. Ardından, sorun birden fazla takip-kaçınma oyununa indirgenir ve karşılık gelen ödüller, alt seviyedeki her ızgaradaki farklı angajman senaryolarından toplanır. RL ajanının simülasyon sonuçlarında daha başarılı olacağı senaryolar için sürüleri uygun dağılımlara göndermeyi öğrendiği gözlemlenmiştir. Gelecekteki çalışmalar olarak, son teknoloji ölçeklenebilir sürü angajman çerçevesini elde etmek için farklı takip-kaçınma taktiklerine sahip büyük ölçekli ızgara haritaları için stratejiler geliştirelecektir. Bu yaklaşımda, düşman sürü unsurlarının efektif bir şekilde yok edildiği büyük ölçekli sürüden sürüye angajman simülasyonlarda doğrulanmıştır.

Özet (Çeviri)

Development of guidance, navigation and control frameworks/algorithms for swarms attracted significant attention in recent years. Since existing conventional aerial defense systems are optimized for a small number of heavy-hitting adversaries such as cruise missiles or fighter aircraft, these systems are often in a critical disadvantage against large-scale aerial swarm attacks that cover a wide area. Thus, defending against the aerial swarm attacks is one of That being said, algorithms for planning swarm allocations/trajectories for engaging with enemy swarms is largely an understudied problem. Although small-scale scenarios can be addressed with tools from differential game theory, existing approaches fail to scale for large-scale multi-agent pursuit evasion (PE) scenarios. To solve this problem, two main approaches are presented in this study. First, a reinforcement learning (RL) framework that controls the density of a large-scale swarm for engaging with adversarial swarm attacks is proposed. Although there is a significant amount of existing work in applying artificial intelligence methods to swarm control, analysis of interactions between two adversarial swarms is a rather understudied area. Most of the existing work in this subject develop strategies by making hard assumptions regarding the strategy and dynamics of the adversarial swarm. The main contribution is the formulation of the swarm to swarm engagement problem as a Markov Decision Process and development of RL algorithms that can compute engagement strategies without the knowledge of strategy/dynamics of the adversarial swarm. Simulation results show that the developed framework can handle a wide array of large-scale engagement scenarios in an efficient manner. Secondly, a reinforcement learning (RL) based framework to decompose to large-scale swarm engagement problems into a number of independent multi-agent pursuit-evasion games is proposed. Variety of multi-agent PE scenarios are simulated, where finite time capture is guaranteed under certain conditions. The calculated PE statistics are provided as a reward signal to the high level allocation layer, which uses an RL algorithm to allocate controlled swarm units to eliminate enemy swarm units with maximum efficiency. This approach is verified in large-scale swarm-to-swarm engagement simulations.

Benzer Tezler

Tez No
949332
Recommanding new products with high sales potential in fashion retail: A machine learning approach
Moda perakendesinde yüksek satış potansiyeline sahip yeni ürünlerin önerilmesi: Bir makine öğrenimi yaklaşımı
ENES TEZCAN
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ABDÜL HALİM ZAİM
Tez No
945012
Etkin bina emlak vergi değerinin belirlenebilmesi için makine öğrenme temelli bir değerleme modeli önerisi
A proposal for a machine learning based valuation model for determining efficient building property tax value
ELİF ŞEVVAL TAŞTAN
Yüksek Lisans
Türkçe
2025
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
Geomatik Mühendisliği Ana Bilim Dalı
PROF. DR. REHA METİN ALKAN
Tez No
962554
Makine öğrenmesi yöntemleri ile yangın verilerinin analizi ve sınıflandırılması
Analysis and classification of fire data using machine learning methods
ZEYNEP NAZLI ASLAN
Yüksek Lisans
Türkçe
2025
İlk ve Acil Yardım Sakarya Üniversitesi
Afet Yönetimi Ana Bilim Dalı
DOÇ. DR. BEYTULLAH EREN
Tez No
933592
Design & development of autonomous beach cleaning vehicle
Otonom plaj temizleme aracının tasarımı ve geliştirilmesi
MAHDI ALLAOUA SEKLAB
Yüksek Lisans
İngilizce
2024
Makine Mühendisliği Altınbaş Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
DOÇ. DR. SÜLEYMAN BAŞTÜRK
Tez No
931418
Yapay zeka ile meme kanseri teşhisi
Breast cancer diagnosis with artificial intelligence
İLKER ÇAKAR
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliği Sakarya Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED KÜRŞAD UÇAR

Geri Dön