Swarm fighter aircraft control with deep reinforcement learning approach
Derin pekiştirmeli öğrenme ile sürü savaş uçaklarının kontrolü
- Tez No: 955617
- Danışmanlar: PROF. DR. FİKRET ÇALIŞKAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mekatronik Mühendisliği, Uçak Mühendisliği, Computer Engineering and Computer Science and Control, Mechatronics Engineering, Aeronautical Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 121
Özet
Bu tez, derin pekiştirmeli öğrenme (DRL) yaklaşımlarını kullanarak sabit kanatlı uçakların hem tekil hem de sürü konfigürasyonlarında otonom kontrolünü geliştirmeyi amaçlamaktadır. Otonom insansız hava araçları (İHA), sivil havacılıkta kargo teslimatı, tarımsal gözetleme ve afet yönetimi gibi alanlardan, savunma sektöründe keşif, hedef takibi ve koordineli operasyonlar gibi uygulamalara kadar geniş bir potansiyele sahiptir. Ancak, bu araçların karmaşık uçuş ortamlarında güvenilir bir şekilde çalışabilmesi, doğrusal olmayan uçuş dinamikleri, değişken görev gereksinimleri, çevresel belirsizlikler ve iletişim kısıtlamaları gibi zorlukların üstesinden gelmeyi gerektirir. Geleneksel model tabanlı kontrol yöntemleri, bu tür dinamik ve öngörülemeyen senaryolarda genellikle yetersiz kalmakta, karmaşık matematiksel modeller veya önceden tanımlı yörünge planlayıcıları gerektirmektedir. Derin pekiştirmeli öğrenme, çevreden gelen verilere dayalı olarak optimal kontrol politikalarını öğrenme yeteneğiyle, bu zorluklara yenilikçi bir çözüm sunar. Bu çalışma, Derin Deterministik Politika Gradyanı (DDPG) algoritmasını temel alarak, sabit kanatlı F-16 uçaklarının yön, yükseklik ve hız kontrolünü sağlayan kontrol politikaları geliştirmiştir. Bu politikalar, yüksek doğruluklu bir simülasyon ortamında test edilmiş ve hem tek uçak navigasyonunda hem de üç uçaklı bir sürü konfigürasyonunda merkezi olmayan koordinasyonda başarılı sonuçlar vermiştir. Simülasyonlar, DDPG tabanlı politikaların düzgün, sürekli ve enerji verimli kontrol sinyalleri ürettiğini, öğrenme verimliliği, genelleşebilirlik ve dışsal bozulmalara karşı dayanıklılık açısından üstün performans sergilediğini göstermiştir. Paylaşılan politika öğrenimi, iletişim kısıtlamaları altında sürü uçaklarının stabil formasyon takibi ve waypoint navigasyonu gibi görevleri etkin bir şekilde gerçekleştirmesini sağlamıştır. Pekiştirmeli öğrenme (RL), bir ajanın çevreyle etkileşime girerek deneme-yanılma yoluyla ödül sinyallerine dayalı optimal davranışları öğrendiği bir makine öğrenimi paradigmasıdır. RL, Markov Karar Süreçleri (MDP) ile modellenir ve durumlar, aksiyonlar, geçiş olasılıkları, ödül fonksiyonları ve indirim faktörü gibi temel bileşenleri içerir. DDPG, sürekli aksiyon uzaylarında çalışabilen bir model-free, off-policy algoritmadır ve aktör-eleştirmen mimarisine dayanır. Aktör ağı, durumları aksiyonlara eşleyen bir politika fonksiyonunu öğrenirken, eleştirmen ağı, durum-aksiyon çiftlerinin beklenen ödül değerini tahmin eder. DDPG, derin sinir ağları, hedef ağlar ve deneyim tekrar belleği gibi mekanizmalarla öğrenme stabilitesini artırır. Deneyim tekrar belleği, geçmiş durum-aksiyon-ödül geçişlerini depolayarak ajanın farklı senaryolardan öğrenmesini sağlar, hedef ağlar ise öğrenme sürecindeki dalgalanmaları azaltır. Bu tezde, DDPG, uçakların yön, yalpa, yunuslama ve itki gibi sürekli kontrol sinyallerini yönetmek için kullanılmıştır. Algoritmanın, karmaşık ve doğrusal olmayan uçuş dinamiklerini öğrenme yeteneği, özellikle merkezi olmayan sürü senaryolarında paylaşılan politika öğrenimiyle test edilmiştir. Üç uçaklı bir sürüde, her uçak aynı DDPG politikasını paylaşmış ve iletişim olmadan stabil formasyon takibi ile waypoint navigasyonu gerçekleştirmiştir. Bu, DDPG'nin hem bireysel hem de kooperatif uçuş görevlerinde genelleşebilir ve ölçeklenebilir olduğunu göstermektedir. Simülasyon ortamı, JSBSim açık kaynak uçuş dinamikleri motoru ve MATLAB/Simulink platformu üzerine inşa edilmiştir. JSBSim, altı serbestlik derecesine (6-DoF) sahip doğrusal olmayan sert cisim dinamiklerini yüksek doğrulukla modelleyerek, aerodinamik kuvvetler, itki sistemleri, rüzgar etkileri ve yer reaksiyonları gibi çevresel faktörleri gerçekçi bir şekilde simüle eder. Newton-Euler denklemlerine dayalı bu model, uçuş dinamiklerinin tam spektrumunu kapsar ve uçakların translational ve rotational hareketlerini hassas bir şekilde hesaplar. JSBSim'in modüler yapısı, her uçağın bağımsız bir simülasyon örneği olarak tanımlanmasına olanak tanır, bu da sürü senaryolarında birden fazla uçağın paralel simülasyonunu kolaylaştırır. Özellik ağacı mimarisi, simülasyon bileşenleri arasında esnek bir iletişim sağlar ve MATLAB/Simulink ile entegrasyonu, kontrol algoritmalarının gerçek zamanlı geliştirilmesini ve test edilmesini destekler. MATLAB Reinforcement Learning Toolbox, DDPG tabanlı ajanların eğitimini kolaylaştırır ve derin sinir ağlarıyla politika öğrenimini mümkün kılar. Bu araç, ödül fonksiyonlarının tasarımı, durum ve aksiyon uzaylarının tanımlanması, mini-batch eğitimi, deneyim tekrar belleği yönetimi ve paralel hesaplama gibi özellikleriyle, uçak kontrolü için kapsamlı bir RL çerçevesi sunar. JSBSim ve MATLAB entegrasyonu, tek uçak ve sürü senaryolarında waypoint takibi, formasyon uçuşu ve koordineli navigasyon gibi görevlerin simüle edilmesini sağlamış, DRL politikalarının gerçek dünya senaryolarına genelleştirilebilirliğini artırmıştır. Tezin model tasarımı, DDPG tabanlı bir RL ajanının uçuş kontrolü için geliştirilmesini kapsamaktadır. Ajan, 12 boyutlu bir gözlem uzayı üzerinden uçuş durumunu algılar; bu uzay, yükseklik, yön, yalpa ve yunuslama hataları, açısal hızlar, hücum açısı, yan kayma açısı ve önceki kontrol sinyalleri gibi normalleştirilmiş değişkenleri içerir. Gözlem uzayının tasarımı, ajanın hem mevcut uçuş durumunu hem de kontrol geçmişini algılamasını sağlayarak daha düzgün politikalar öğrenmesine olanak tanır. Aksiyon uzayı, itki, kanatçık, dümen ve elevatör gibi dört sürekli kontrol komutundan oluşur ve fiziksel aktüatör sınırlarına uygun olarak [-1, 1] veya [0, 1] aralığında normalleştirilmiştir. Aktör ağı, 12 boyutlu girişi iki gizli katman (her biri 800 nöron) üzerinden işleyen ve tanh aktivasyon fonksiyonuyla sınırlı aksiyonlar üreten derin bir sinir ağıdır. Eleştirmen ağı, durum ve aksiyon yollarını ayrı ayrı işleyen bir çift yol mimarisine sahiptir ve durum-aksiyon değer fonksiyonunu tahmin eder. Ödül fonksiyonu, uçuş hedeflerini optimize eden birden çok bileşenden oluşur: hiperbolik ceza fonksiyonları, yükseklik, yön, yalpa ve yunuslama hatalarını düzgün ve sınırlı bir şekilde cezalandırır, bu da gradient tabanlı öğrenmeyi destekler; kontrol çabası cezaları, agresif kontrol girişlerini sınırlandırarak enerji verimliliğini ve aktüatör ömrünü artırır; zamansal ödül şekillendirme, yükseklik ve yön tutarlılığını uzun süre sürdürmeyi teşvik eder. Kontrol mimarisi, JSBSim ortamı, RL ajanı ve ödül fonksiyonu arasında kapalı döngü bir veri akışı sağlar. MATLAB/Simulink'te uygulanan bu mimari, ajanın uçuş dinamikleriyle gerçek zamanlı etkileşimini destekler, simülasyon verilerinin görselleştirilmesini sağlar ve esnek bir deney platformu sunar. Simülasyonlar, tek ajan ve sürü senaryolarında DDPG ajanının performansını değerlendirmiştir. Tek ajan senaryosunda, bir F-16 uçağı, 27.000-34.000 ft yükseklik aralığında, yaklaşık 47.01°-47.12° enlem ve 122.01°-122.14° boylam aralığında sekiz waypoint'ten oluşan bir 3D yörüngeyi takip etmiştir. Simülasyon, JSBSim'in yüksek doğruluklu 6-DoF modeli ve MATLAB/Simulink ile entegre edilerek gerçekleştirilmiştir. Eğitim sürecinde, ödül değerleri başlangıçta düşük (-4000 civarında) olmasına rağmen, 1000 bölümden sonra hızla iyileşmiş ve 6000 bölüm civarında sıfıra yakınsayarak stabil bir kontrol politikası öğrenilmiştir. Uçak, tüm waypoint'leri yüksek hassasiyetle takip etmiş, düzgün yörünge geçişleri, stabil uçuş tutumu ve optimize edilmiş eğrilik sergilemiştir. Yörünge, osilasyon veya aşırı sapma olmaksızın pürüzsüz geçişler göstermiş, bu da DDPG'nin 3D navigasyon görevlerinde harici bir planlayıcı olmadan başarılı olduğunu kanıtlar. Performans metrikleri, waypoint doğruluğu, zamansal stabilite ve kontrol düzgünlüğü açısından değerlendirilmiş ve ajanın sıkı tolerans sınırları içinde hedeflere ulaştığı doğrulanmıştır. Sürü senaryosunda, üç F-16 uçağı, dört ortak waypoint'i takip ederek üçgen bir formasyon oluşturmuştur. Her uçak, aynı DDPG politikasını paylaşmış ve merkezi olmayan bir şekilde, iletişim olmadan çalışmıştır. Uçaklar, ±0.005°'lik küçük başlangıç sapmalarıyla başlatılmış ve dinamik olarak güncellenen başlangıç koşullarıyla simüle edilmiştir. Sonuçlar, uçakların waypoint'lere yakınsadığını, yükseklik ve yön tutarlılığı sağladığını, çarpışmadan stabil bir formasyon sürdürdüğünü ve senkronize varış zamanları elde ettiğini göstermiştir. Formasyon tutarlılığı, bağımsız ajanların ortak bir politika altında koordine hareket edebildiğini, ayrılma mesafelerinin korunduğunu ve uçuş dinamiklerinin pürüzsüz olduğunu doğrulamıştır. Bu bulgular, DDPG politikalarının hem tek uçak hem de sürü senaryolarında genelleşebilir olduğunu ve gerçek dünya uygulamaları için ölçeklenebilir bir çözüm sunduğunu göstermektedir. Tezin sonuçları, DDPG tabanlı DRL yaklaşımının sabit kanatlı uçakların otonom kontrolünde etkili, yenilikçi ve pratik bir yöntem olduğunu ortaya koymuştur. Tek ajan senaryosunda, DDPG ajanı, harici bir yörünge planlayıcısına veya geleneksel rehber yasalarına ihtiyaç duymadan sekiz waypoint'i başarıyla takip etmiştir, bu da uçtan uca DRL kontrolünün uygulanabilirliğini kanıtlar. Sürü senaryosunda, aynı politika üç uçaklı bir formasyonda merkezi olmayan bir şekilde uygulanmış ve iletişim olmadan stabil koordinasyon sağlanmıştır. Ödül fonksiyonunun hiperbolik ceza, kontrol çabası ve zamansal şekillendirme bileşenleri, öğrenme sürecini hızlandırmış, kontrol düzgünlüğünü artırmış ve stabil uçuş profilleri elde edilmesini sağlamıştır. Hiperbolik cezalar, büyük hatalarda bile sınırlı ve pürüzsüz cezalar sağlayarak gradient tabanlı öğrenmeyi desteklemiş, kontrol çabası cezaları ise enerji verimliliğini ve aktüatör dayanıklılığını artırmıştır. Ajan, rastgele başlangıç koşulları, yükseklik ve yön pertürbasyonları gibi dinamik bozulmalara karşı robust bir performans sergileyerek genelleşebilirlik göstermiştir. Tezin temel katkıları, DDPG tabanlı bir kontrol mimarisinin geliştirilmesi, rastgele waypoint'li bir eğitim ortamının oluşturulması, merkezi olmayan sürü simülasyonlarının uygulanması ve stabilite ile enerji verimliliğini teşvik eden bir ödül tasarımının önerilmesidir. Bu katkılar, otonom uçuş kontrolü alanında yeni bir çerçeve sunarak, DRL'nin karmaşık uçuş görevlerinde uygulanabilirliğini göstermektedir. Ayrıca, tezin hipotezleri doğrulanmış; ajanın planlayıcı olmadan waypoint takibi yapabildiği, paylaşılan politikayla sürü koordinasyonu sağladığı, ödül şekillendirmeyle öğrenmenin hızlandığı ve rastgele koşullarda stabil performans sergilediği kanıtlanmıştır. Gelecekteki çalışmalar, tezin bulgularını daha da ileriye taşıyabilir. Daha büyük sürülerle karmaşık formasyonların modellenmesi, lider-takipçi dinamikleri veya dinamik görev atamaları gibi senaryoların incelenmesi, DRL'nin ölçeklenebilirliğini test edebilir. Örneğin, onlarca uçağın koordineli hareket ettiği senaryolar, gerçek dünya uygulamaları (örneğin, arama-kurtarma veya hava gösterileri) için önemli içgörüler sağlayabilir. Engel kaçınma ve çarpışma tespiti yeteneklerinin ek ödül şekillendirme veya yardımcı ağlarla entegre edilmesi, sistemin güvenilirliğini artırabilir ve kentsel hava sahası gibi kalabalık ortamlarda uygulanabilirliğini güçlendirebilir. Alternatif DRL algoritmaları (örneğin, Soft Actor-Critic, Twin Delayed DDPG, Proximal Policy Optimization) ile karşılaştırmalı analizler, robustness, yakınsama hızı ve genelleşme performansı açısından daha derin içgörüler sağlayabilir. Ayrıca, simülasyonda öğrenilen politikaların gerçek dünya uçuş verilerine veya donanım-döngüde (HIL) ortamlara aktarılması için transfer öğrenme stratejileri araştırılabilir. Bu, simülasyon ile gerçek dünya arasındaki boşluğu kapatabilir ve DRL politikalarının saha testlerinde güvenilirliğini artırabilir. Tez, DRL'nin, özellikle DDPG'nin, sabit kanatlı insansız hava araçlarının bireysel ve kooperatif kontrolü için ölçeklenebilir ve güvenilir bir yaklaşım sunduğunu doğrulamaktadır. Bulgular, öğrenme tabanlı kontrol sistemlerinin, dinamik ve yüksek boyutlu uçuş ortamlarında el ile tasarlanmış kontrolörlere veya açık yörünge planlama modüllerine gerek kalmadan etkili bir şekilde çalışabileceğini göstermektedir. Paylaşılan politika ile sürü davranışlarının başarısı, DRL'nin gelecekteki merkezi olmayan havacılık sistemlerinde otonomiyi artırma potansiyelini vurgulamaktadır. Bu çalışma, havacılıkta otonom sistemlerin geliştirilmesi için önemli bir temel oluşturmakta ve DRL'nin pratik uygulamalara entegrasyonunu teşvik etmektedir.
Özet (Çeviri)
This thesis explores the application of deep reinforcement learning (DRL) to achieve autonomous control of fixed-wing aircraft in single-agent and swarm configurations, addressing critical challenges in modern aviation. Autonomous unmanned aerial vehicles (UAVs) are pivotal for diverse applications, including civilian tasks like cargo delivery, agricultural surveillance, and disaster response, and defense operations such as reconnaissance and coordinated missions. However, nonlinear flight dynamics, dynamic mission requirements, environmental uncertainties, and communication constraints often limit traditional model-based control methods, which rely on complex mathematical models or predefined trajectory planners. DRL offers a data-driven alternative, learning optimal control policies through environmental interactions. This study leverages the Deep Deterministic Policy Gradient (DDPG) algorithm to develop robust control policies for F-16 aircraft, evaluated in a high-fidelity simulation environment integrating JSBSim and MATLAB/Simulink. The research investigates single-aircraft waypoint navigation and decentralized coordination in a three-aircraft swarm, demonstrating smooth, continuous control, high learning efficiency, generalizability, and robustness. Shared policy learning enables stable formation tracking and waypoint navigation in swarm scenarios without inter-agent communication, highlighting DRL's potential for scalable aerospace systems. Reinforcement learning (RL) frames sequential decision-making within Markov Decision Processes, comprising states, actions, transition probabilities, rewards, and a discount factor. DDPG, a model-free, off-policy actor-critic algorithm, is tailored for continuous action spaces. Its actor network maps states to actions, while the critic estimates state-action value functions. Enhanced by deep neural networks, experience replay buffers, and target networks, DDPG ensures stable learning by storing past transitions and mitigating training fluctuations. In this work, DDPG controls aircraft heading, roll, pitch, and thrust, adeptly managing complex, nonlinear dynamics. The simulation environment employs JSBSim's six-degree-of-freedom (6-DoF) model, which accurately simulates aerodynamic forces, propulsion, and environmental effects using Newton-Euler equations. JSBSim's modular design supports independent aircraft instances, enabling scalable swarm simulations. Integrated with MATLAB/Simulink, it facilitates real-time control algorithm development. MATLAB's Reinforcement Learning Toolbox supports DDPG training, offering tools for reward design, state/action space definition, and parallel computing, creating a robust RL framework. The DDPG agent operates with a 12-dimensional observation space, including normalized altitude, heading, roll, and pitch errors, angular rates, angle of attack, sideslip angle, and prior control signals, ensuring comprehensive state perception. The action space comprises four continuous commands—thrust, aileron, rudder, and elevator—normalized to actuator limits. The actor network, with two 800-neuron hidden layers and a tanh activation, produces bounded actions, while the critic's dual-path architecture estimates value functions. The reward function combines hyperbolic penalties for smooth error penalization, control effort penalties for energy efficiency, and temporal shaping for sustained stability, optimizing altitude and heading tracking. The closed-loop control architecture, implemented in MATLAB/Simulink, ensures real-time interaction with JSBSim dynamics. Simulations assess performance in single-agent and swarm scenarios. In the single-agent case, an F-16 navigates eight waypoints (27,000–34,000 ft altitude, 47.01°–47.12° latitude, 122.01°–122.14° longitude). Training shows rapid reward improvement, converging near zero by 6,000 episodes, indicating a stable policy. The aircraft achieves precise waypoint tracking, smooth transitions, and stable attitude, validated by metrics like waypoint accuracy and control smoothness. In the swarm scenario, three F-16s follow four shared waypoints in a triangular formation, using the same DDPG policy without communication. Initialized with ±0.005° offsets, the aircraft maintain altitude consistency, avoid collisions, and achieve synchronized arrivals, demonstrating formation coherence and decentralized stability. These results confirm DDPG's generalizability and scalability. The thesis establishes DDPG-based DRL as an effective approach for autonomous aircraft control. Contributions include a DDPG control framework, a randomized waypoint environment, decentralized swarm simulations, and a reward design promoting stability and efficiency. All hypotheses are validated: the agent tracks waypoints without planners, enables shared-policy swarm coordination, accelerates learning via reward shaping, and performs robustly under perturbations. Future work could explore larger swarms, obstacle avoidance, alternative DRL algorithms (e.g., SAC, TD3), and real-world policy transfer via hardware-in-the-loop testing. This study underscores DRL's transformative potential for autonomous aerospace systems, offering a foundation for scalable, learning-based control in dynamic flight environments.
Benzer Tezler
- Scalable planning and learning framework development for swarm-to-swarm engagement problems with reinforcement learning
Pekiştirmeli öğrenme ile sürüden sürüye angajman problemleri için ölçeklenebilir planlama ve öğrenme sistemi geliştirilmesi
UMUT DEMİR
Yüksek Lisans
İngilizce
2022
Savunma ve Savunma Teknolojileriİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
- Mikrodalga frekanslarında ince ve geniş bantlı elektromagnetik soğurucu tasarımı için optimizasyon yaklaşımı
Optimization approach to the design of thin and broadband electromagnetic absorber for microwave frequencies
KADİR ORKUN MISIR
Yüksek Lisans
Türkçe
2019
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. MURAT TAYFUN GÜNEL
- Scientific machine learning supported track-to-track fusion
Bilimsel makine öğrenmesi destekli takip bilgisi füzyonu
RECEP AYZİT
Yüksek Lisans
İngilizce
2025
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. BARIŞ BAŞPINAR
- Electric fish optimization: a new heuristic algorithm based on electrolocation
Elektrik balığı optimizasyonu: elektrolokasyon tabanlı yeni bir sezgisel algoritma
SELİM YILMAZ
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEVİL ŞEN AKAGÜNDÜZ
- Swarm routing based on ant colony algorithm in NDNSIM
NDNSIM'de karınca kolonisi algoritmasına dayalı sürü yönlendirme
ANMAR BALASIM KADHIM
Yüksek Lisans
İngilizce
2025
Elektrik ve Elektronik Mühendisliğiİstanbul Okan ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DİDEM KIVANÇ TÜRELİ