Geri Dön

Wind-optimized route planning with deep reinforcement learning

Derin pekiştirmeli öğrenme ile rüzgar optimizasyonlu rota planlaması

  1. Tez No: 958818
  2. Yazar: MELİH SAFA CENGİZ
  3. Danışmanlar: DOÇ. DR. BARIŞ BAŞPINAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Uçak Mühendisliği, Aeronautical Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Uçak ve Uzay Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Uçak ve Uzay Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 67

Özet

Son yıllarda havacılık sektörü, artan yakıt fiyatları, karbon emisyonlarını azaltma baskısı ve operasyonel verimlilik hedefleri nedeniyle daha sürdürülebilir ve akıllı uçuş planlamalarına yönelmiştir. Uçuş güzergâhlarının optimize edilmesi, bu bağlamda hem ekonomik hem de çevresel açıdan en büyük potansiyel iyileştirme alanlarından birini temsil etmektedir. Özellikle seyir fazında, toplam yakıt tüketiminin büyük bir bölümü gerçekleştiği için, bu fazın optimize edilmesi hem havayolu şirketlerine maliyet tasarrufu sağlar hem de çevresel etkiyi azaltır. Ne var ki, hâlihazırda kullanılan uçuş rotalama yöntemlerinin çoğu, atmosferik değişkenlikleri göz ardı eden statik planlamalara dayanmaktadır. Bu da uçuşların sıklıkla güçlü kuyruk rüzgârı bölgelerini kaçırmasına, zayıf ya da karşı rüzgârlarla karşılaşmasına ve bunun sonucunda rotaların olması gerekenden daha uzun ve maliyetli olmasına neden olmaktadır. Bu çalışma, uçuşların özellikle seyir fazında rüzgâr etkilerinden faydalanarak daha verimli hale getirilmesini hedefleyen Derin Pekiştirmeli Öğrenme (Deep Reinforcement Learning, DRL) temelli bir çözüm önermektedir. Geliştirilen sistem, klasik büyük daire (great-circle) tabanlı planlamalara kıyasla, anlık çevresel değişkenleri analiz ederek karar verebilen bir yapay zeka ajanı eğitir. Problem, sürekli uzayda tanımlanan bir Markov Karar Süreci (MDP) olarak modellenmiş ve ajan, yakıt tüketimini ve uçuş süresini minimize ederken belirli bir hedef noktaya ulaşmayı öğrenmektedir. Bu modelleme çerçevesinde uçuş boyunca alınacak kararlar, gelecekteki kazanımları da hesaba katan ve zamana bağlı belirsizlikleri minimize etmeye çalışan bir yaklaşım ile öğrenilmektedir. Bu bağlamda, geliştirilen yöntem sadece kestirimsel değil aynı zamanda stratejik karar alma süreçlerini de içermektedir. Ajanın gözlem uzayı iki temel yapıdan oluşmaktadır: birincisi, skaler uçuş bilgilerini içeren 22 boyutlu bir vektör; ikincisi ise uçağın konumuna bağlı olarak çevresindeki zonal (U) ve meridional (V) rüzgâr bileşenlerini içeren iki kanallı bir rüzgâr grid tensörüdür. Bu yapı, uçağın lokal atmosfer koşullarını anlaması ve kuyruk rüzgârı gibi avantajları tespit edebilmesi açısından kritik önemdedir. Grid yapı, her bir grid hücresinde 5x5'lik bir pencere kullanılarak uçağın etrafındaki rüzgâr bileşenlerini temsil eder. Bu farklı veri yapılarının işlenebilmesi için hibrit bir sinir ağı mimarisi uygulanmıştır. Convolutional Neural Network (CNN) bölümü, 2D rüzgâr tensörünü işlerken; Multi-Layer Perceptron (MLP) ise skaler gözlemleri değerlendirir. CNN, lokal rüzgâr desenlerini ve yönelimlerini analiz ederken, MLP uçağın genel durumu hakkında karar vermeye katkı sağlar. Her iki ağın çıktıları daha sonra birleştirilerek 256 boyutlu birleşik bir latent vektöre dönüştürülür ve bu vektör, nihai karar verme katmanına iletilir. Bu yapı, ajanın hem mikro (lokal rüzgâr) hem de makro (uçuş hedefi, yakıt, yönelim) düzeyde algı geliştirmesini sağlar. CNN mimarisinde 3 katmanlı filtre yapısı ve ReLU aktivasyonları kullanılırken, fully-connected birleşim katmanlarında dropout ile overfitting'in önüne geçilmiştir. Rüzgâr verisi, Global Forecast System (GFS) kaynaklı dört boyutlu (enlem, boylam, irtifa, zaman) NetCDF formatındaki meteorolojik verilerden elde edilir. Bu veriler, ön işlem aşamasında işlenerek her bir rüzgâr bileşeni için (U ve V) ayrı ayrı 8. dereceye kadar iki boyutlu polinomlarla modellenir. Her bir coğrafi bölge ve zaman dilimi için yaklaşık 45 katsayıdan oluşan bu kompakt temsil, eğitim ve test sırasında uçağın konumuna karşılık gelen rüzgâr vektörünü hızlı ve süreklilik sağlayacak biçimde yeniden üretmekte kullanılır. Bu yapı, düşük bellek kullanımı ve yüksek zamansal verimlilik sağlamanın yanında, simülasyon sırasında rüzgâr alanının süreksizliğe yol açmadan hesaplanabilmesini de mümkün kılar. Ayrıca her bir zaman adımı için rüzgâr alanının zamana bağlı değişimi de interpolasyon yöntemiyle hesaba katılmış ve senaryolar gerçekçi hâle getirilmiştir. Böylelikle sabit alanlar yerine dinamik atmosferik yapıların öğrenilmesi teşvik edilmiştir. Simülasyon ortamı, tamamen özelleştirilebilir fiziksel bir uçuş dinamiği modeline sahiptir. Bu modelde uçağın yer hızı, yönelimi, irtifası, ivmelenmesi ve motor itkisi doğrudan diferansiyel denklemlerle çözülmekte ve zamana bağlı olarak güncellenmektedir. Uçağın kütlesi her zaman adımında yakıt akışı doğrultusunda güncellenmekte, aerodinamik kuvvetler kaldırma ve sürüklenme katsayılarının Mach sayısı ve irtifaya bağlı parametrik ifadelerinden türetilmektedir. İtki modeli, throttle girişine bağlı olarak maksimum itki sınırları dâhilinde doğrusal olmayan bir fonksiyonla modellenmiş, yatış ve tırmanma gibi kontrol yüzeyleri ise fiziksel sınırlamalara tabi tutulmuştur. Böylelikle kontrol girdilerinin uçuş dinamiği üzerindeki etkisi tutarlı bir şekilde modellenmiş, aynı zamanda ajanın alabileceği aksiyonlar gerçekçi sınırlar içinde tanımlanmıştır. Ödül fonksiyonu, ajanın yalnızca hedefe ulaşmasını değil, aynı zamanda yakıt tüketimini, uçuş süresini, rota verimliliğini ve uçuşta yapılan gereksiz manevraların sıklığını da göz önünde bulundurmasını sağlayacak şekilde tasarlanmıştır. Özellikle ani yön değişimleri, sık irtifa değişiklikleri, gereksiz hızlanmalar gibi manevralar cezalandırılırken; kuyruk rüzgârının etkin kullanımı, hedefe etkili yaklaşım, sabit hız ve düzgün seyir gibi stratejiler ödüllendirilmiştir. Böylece ajan sadece minimum süre ve yakıt için değil, aynı zamanda operasyonel verimliliği yüksek bir uçuş profili geliştirmeye yönlendirilmiştir. Bu da modelin yalnızca optimizasyon problemi çözmediğini, aynı zamanda uçuş güvenliği ve yolcu konforunu dolaylı olarak dikkate aldığını göstermektedir. Eğitim süreci, eğitim senaryolarının çeşitliliğini artırmak ve modelin genellenebilirliğini maksimize etmek amacıyla rastgele tohumlarla oluşturulmuş çok sayıda senaryo üzerinden yürütülmüştür. Başlangıç konumu, kütle, hedef noktası ve rüzgâr alanı gibi tüm parametreler her seferinde farklı olacak şekilde yapılandırılmıştır. Eğitimde kullanılan DQN algoritması, klasik Q-learning'in derin sinir ağı ile genişletilmiş hâlidir ve büyük boyutlu gözlem-aksiyon uzaylarında etkili sonuçlar verdiği için tercih edilmiştir. Ayrıca hedef ağ güncelleme stratejisi, deneyim yeniden oynatma tamponu (replay buffer), epsilon-greedy keşif politikası, sabitlenmiş başlangıç bölgesi ve rastgeleleştirilmiş çevresel koşullar gibi unsurlar sistemin öğrenme stabilitesini önemli ölçüde artırmıştır. Test sürecinde, model daha önce hiç karşılaşmadığı 1000 farklı rüzgâr senaryosunda test edilmiştir. Bu test uçuşlarında farklı kütle konfigürasyonları, başlangıç konumları ve hedef bölgeleri kullanılmış, rüzgâr alanları ise yüksek varyasyona sahip olacak şekilde oluşturulmuştur. Ajanın izlediği rotalar büyük daireye göre daha uzun görünse de, bu rotalarda kuyruk rüzgârı etkisinin belirgin olduğu görülmüş, toplam seyir süresi ve yakıt tüketimi klasik yöntemlere kıyasla daha düşük kalmıştır. Test sonuçlarında, ajan ortalama olarak \%0.37 oranında yakıt tasarrufu sağlamış, bazı uçuşlarda bu oran \%9'a ulaşmıştır. Seyir süresinde ise ortalama \%0.39 oranında bir kısalma gözlemlenmiştir. Bu sonuçlar, geliştirilen sistemin operasyonel olarak uygulanabilirliğini ve potansiyel ekonomik katkısını açıkça ortaya koymaktadır. Ajanın eğitildiği ve test edildiği ortam, Python dilinde, Stable Baselines3 altyapısı ile entegre bir şekilde sıfırdan geliştirilmiş, fiziksel parametrelerin, simülasyon çözünürlüğünün ve kontrol sınırlarının esnek şekilde ayarlanabildiği bir yapıya sahiptir. Bu da farklı uçak tipleri, coğrafi bölgeler ve operasyonel kısıtlamalar için sistemin yeniden kullanılabilir ve genişletilebilir olmasını mümkün kılar. Aynı zamanda sistemin çok ajanlı simülasyonlara, hava trafik kontrol sınırlamalarına, no-fly zone gibi hava sahası yapılarına entegre edilebilecek şekilde yapılandırılması da gelecekteki çalışmalara açık bir kapı sunmaktadır. Bunun ötesinde, geliştirilen yaklaşım yalnızca tek uçak bazlı rota optimizasyonuyla sınırlı kalmayıp, çoklu uçak senaryolarında çakışmaları engelleyen kooperatif öğrenme yapılarıyla genişletilebilir niteliktedir. Özellikle yoğun hava sahalarında, uçaklar arası koordinasyon gerektiren senaryolarda ajanların birbirlerinin niyetlerini öngörerek güvenli ve verimli rotalar seçmeleri sağlanabilir. Ayrıca, bu yapı hava trafik kontrol (ATC) kurallarını, rota kısıtlamalarını ve yasaklı bölgeleri içerecek biçimde geliştirilebilir. Bu doğrultuda çok ajanlı pekiştirmeli öğrenme, iletişim tabanlı karar ağları ve merkezi olmayan politika optimizasyonu gibi yöntemlerle sistemin daha da olgunlaştırılması mümkündür. Bu tarz genişletmeler, otonom hava aracı ağları ve geleceğin insansız hava taşımacılığı sistemleri için de önemli bir temel oluşturabilir. Sistemin mevcut sınırlamaları arasında, yalnızca seyir fazının modellenmiş olması, kalkış ve iniş fazlarının dahil edilmemesi ve rüzgâr bilgisinin deterministik kabul edilmesi sayılabilir. Gerçek operasyonel ortamda atmosferik değişkenliklerin belirsizliğini hesaba katmak amacıyla, gelecekte modelin olasılıksal hava durumu tahminleri ile eğitilmesi planlanmaktadır. Ayrıca ajanın aldığı kararların açıklanabilirliğini artırmak, güvenilirlik analizleriyle ajanın güvenli politika üretmesini sağlamak ve adversarial senaryolarla sağlamlığını test etmek, sistemin daha güçlü hâle gelmesine katkı sağlayacaktır. Sonuç olarak bu tez, havacılıkta veri güdümlü, çevresel farkındalığa sahip, yüksek genelleme kapasitesine sahip bir uçuş planlama sisteminin nasıl geliştirilebileceğini göstermektedir. Geliştirilen yaklaşım, operasyonel verimliliği artırmanın yanında sürdürülebilir havacılık hedeflerine katkı sağlayacak potansiyel taşımaktadır. Bu yönüyle yalnızca akademik değil, aynı zamanda sektörel anlamda da uygulanabilirliği olan öncü bir çalışma niteliği taşımaktadır.

Özet (Çeviri)

With rising fuel prices, increased awareness of climate change, and a push for global operational efficiency, optimizing flight trajectories has become a critical goal for the aviation industry. Despite ongoing advancements in aircraft performance and air traffic management systems, existing routing strategies remain largely static, often based on great-circle assumptions and fixed planning templates. These methods typically overlook the ever-changing nature of wind fields, especially during the cruise phase where fuel consumption peaks. As a result, many flights fail to leverage dynamic atmospheric conditions such as jet streams or tailwind corridors, leading to avoidable fuel burn and extended travel times. This thesis proposes a novel approach using Deep Reinforcement Learning (DRL) to optimize aircraft cruise trajectories in the presence of complex wind dynamics. Unlike traditional deterministic methods, the DRL-based approach adapts in real time to environmental conditions and learns strategies that maximize aerodynamic efficiency. The problem is framed as a Markov Decision Process, where the agent's task is to reach a fixed destination from varying origins while minimizing fuel consumption and total flight duration. The observation space consists of scalar flight parameters like altitude, mass, and velocity, along with a localized wind grid centered on the aircraft's position. Actions are continuous and consist of bank angle, climb rate, and throttle adjustments. These actions feed into a physics-based aircraft dynamics model that simulates lift, drag, thrust, and wind influence with realistic constraints. The DRL agent is trained using the DQN algorithm equipped with a hybrid CNN+MLP architecture. Convolutional layers process the wind grid, while scalar observations are embedded into the fully connected layers. The reward function incentivizes fuel and time savings, while penalizing erratic maneuvers and deviation from the optimal heading. To ensure generalization, training is performed over an infinite set of randomized wind maps and departure locations, so that no two training episodes are identical. Evaluation is conducted using 1000 previously unseen seeds, each with a unique wind scenario. This setting prevents overfitting and ensures the learned policy is robust to environmental variability. Results indicate consistent improvements in both fuel and time efficiency. The DRL agent achieves average fuel savings of 0.37\% and time reductions of 0.39\% compared to great-circle baselines. In many scenarios, the agent deliberately chooses longer routes that intersect favorable wind patterns, illustrating its learned ability to trade path length for aerodynamic gain. These strategic behaviors, such as early lateral deviations and selective altitude changes, are non-intuitive but significantly beneficial. Comparisons with greedy and heuristic methods show the superiority of the learned policy, especially in complex wind conditions. While greedy algorithms often get stuck in locally optimal paths, the DRL agent plans ahead and adapts dynamically. Several visualizations of the resulting trajectories highlight the agent's capacity to exploit tailwinds, avoid headwinds, and reduce cross-track error. The trajectories are smooth, aerodynamically efficient, and grounded in physics-based control limits. One notable case demonstrates a wide turn toward a jetstream corridor before converging on the destination—something that would be hard to design manually. Overall, the model effectively learns to balance aerodynamic control, atmospheric exploitation, and mission objectives. Although promising, the method has limitations. The current framework assumes perfect knowledge of wind forecasts, which may not be feasible in real-world applications. Furthermore, the simulation is confined to the cruise phase and does not model climb, descent, or air traffic control constraints. Nonetheless, the methodology offers a solid foundation for future extensions. Incorporating probabilistic wind forecasts, multi-agent coordination, and vertical trajectory management are promising next steps. Additional work could also involve integrating regulatory restrictions, waypoint constraints, or performance-based navigation envelopes. In conclusion, this thesis provides a compelling demonstration of how DRL can be applied to aircraft trajectory optimization under wind uncertainty. By learning from simulated experience across diverse scenarios, the agent develops fuel-aware and time-efficient routing strategies that outperform static planning methods. These results suggest a future where aircraft can adaptively navigate the skies using intelligent, autonomous systems—ushering in a new era of operational sustainability and efficiency in aviation.

Benzer Tezler

  1. Konteyner liman operasyonlarının makine öğrenmesi yöntemleri ile analizi

    Analysis of container port operations using machine learning methods

    ÜSTÜN ATAK

    Doktora

    Türkçe

    Türkçe

    2022

    Deniz Bilimleriİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    PROF. DR. YASİN ARSLANOĞLU

    PROF. DR. TOLGA KAYA

  2. Farklı çevre şartlarında metasezgisel yöntemler ile quadrotor insansız hava aracı rota optimizasyonu ve gerçeklenmesi

    Optimization and implementation of quadrotor unmanned aerial vehicle route with metaheuristic methods in different environmental conditions

    HAYRİ İNCEKARA

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilişim Teknolojileri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SELEK

  3. Aircraft trajectory optimization under wind effect by using optimal control: Environmental impact assessment

    Optimal kontrol ile rüzgar etkisi altında uçak rota optimizasyonu: Havacılığın çevresel etkisinin değerlendirilmesi

    FULİN SEZENOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Savunma ve Savunma Teknolojileriİstanbul Teknik Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    PROF. DR. İBRAHİM OZKOL

  4. Uzun menzilli uçuşların performans ve planlama yöntemlerine dayalı maliyet iyileştirmesi

    Cost improvement based on performance and planning methods of long-haul flights

    ZAFER CAN ÇINAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAYRİ ACAR

  5. Hava koşullarını dikkate alan dron eşlikli son adım teslimat modeli

    Drone-assisted last mile delivery model considering weather conditions

    ÖZLEM GÜREL

    Doktora

    Türkçe

    Türkçe

    2025

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞEYDA SERDAR ASAN