Reinforcement-learning control of a hybrid airship using a high-fidelity digital twin
Yüksek doğruluklu dijital ikiz kullanarak bir hibrit hava gemisinin pekiştirmeli öğrenme ile denetimi
- Tez No: 959697
- Danışmanlar: YRD. DOÇ. DR. İSMAİL BAYEZİT
- Tez Türü: Yüksek Lisans
- Konular: Havacılık ve Uzay Mühendisliği, Aeronautical Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Uçak ve Uzay Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Uçak ve Uzay Mühendisliği Bilim Dalı
- Sayfa Sayısı: 84
Özet
Hibrit kaldırmalı hava gemileri, helyumun sağladığı statik taşıma kuvvetini, kanatsız aerodinamik kaldırma ve yönlendirilebilir itkiyle birleştirerek çalışır. Bu sayede pist gerektirmeden kalkış yapabilir, uzun süre havada kalabilir ve dikey manevraları gerçekleştirebilir. Bu özellikleriyle afet lojistiği, düşük karbonlu yük taşımacılığı ve sınır gözetleme gibi görevler için cazip bir alternatif sunar. Ayrıca, hibrit kaldırmalı platformlar, özellikle kırsal veya altyapıdan yoksun bölgelerde, piste bağımlı geleneksel hava araçlarına kıyasla eşsiz bir operasyonel esneklik sağlar; bu durum, acil insani yardım koridorlarının hızlı kurulumu açısından kritik önem taşır. Günümüzde, iklim krizi bağlamında artan sürdürülebilir mobilite ihtiyacı, bu tür platformların stratejik değerini daha da pekiştirmektedir. Ancak taşıdığı büyük helyum hacmi araca yüksek atalet kazandırır. Aynı anda altı serbestlik derecesini yöneten dört tilt-rotor sistemi, saniyeler içinde tepki veren servo motorlarla çalışır. Bu yavaş ve birbirine bağlı dinamikler, klasik PID denetleyicilerinin sınırlarını zorlar. Her yeni yapılandırma için ayrı ayar gerektirir. Ani rüzgâr darbeleri ya da yük değişimleri gibi durumlarda sistemin hassasiyeti kaçınılmaz olarak azalır. Bu tez, konum, yönelim ve rotor açısı komutlarını tek bir pekiştirmeli öğrenme (RL) politikasıyla üreten öncü bir yaklaşım önerir. Amaç, bir hava gemisini üç boyutlu bir hedefe, ortalama 5 metre hata payıyla yönlendirmektir. Aynı zamanda roll ve pitch açıları 30 derecenin altında tutulmalıdır. Eğitim süreci, masaüstü donanımda günlük iş akışına sığabilecek şekilde, 10 milyon simülasyon adımını geçmemelidir. Bu hedefe ulaşmak için yüksek gerçeklikte bir sayısal ikiz geliştirilmiştir. Simülasyon, MuJoCo fizik motoru kullanılarak sabit adımlı, kilohertz seviyesinde çalışan bir sistemde gerçekleştirilmiştir. Böylece her koşuda aynı sonuçlar alınabilir. Hava gemisinin gövdesi, rijit bir triaxial elipsoid olarak modellenmiştir. Kapalı formüllerle tanımlanmış izdüşüm alanı kullanılmış, sürük katsayıları ise Reynolds sayısına bağlı ampirik verilerden alınmıştır. Bu sayede hem doğrusal hem de dönel sürük kuvvetleri yeterli doğrulukla hesaplanabilmektedir. Dört elektrikli rotor için elde edilen statik test verileri, devir sayısına bağlı olarak kübik spline eğrilerine çevrilmiş; elde edilen eğrilerden itki ve tork değerleri elde edilmiştir. Rotorların tilt servo motorları ikinci dereceden transfer fonksiyonları ile modellenmiş, konum ve hız sınırları doğrudan kesilmiştir. Helyumun kaldırma kuvveti yarı statik kabul edilerek modellenmiş, atmosfer yoğunluğu da hesaba katılmıştır. Tüm bu bileşenler bir araya gelerek altı serbestlik dereceli denge denklemlerini kapatır. Sensör modellemesi için jiroskop ve ivmeölçer gürültüsü eklenmiş, böylece RL ajanı daha gerçekçi gözlemlerle çalışabilmiştir. Kontrol problemi, hedefe bağlı sonlu ufuklu bir Markov Karar Süreci (MDP) olarak tanımlanmıştır. Durum vektöründe, altı boyutlu sürekli yönelim gösterimi (Zhou 6D), doğrusal ve açısal gövde hızları, rotor devir sayıları ve servo açıları yer alır. Hedefin yönü ve uzaklığı normalleştirilmiş halde sisteme dahil edilir. Eylem alanı süreklidir: sol ve sağ rotorların gaz komutları 0 ile 1 arasında sınırlandırılır, iki tilt servo motorunun hızları ise rad/s cinsinden belirlenir. Sistem sınırlarının dışına çıkıldığında değerler kesilir. Bu kapsamda, eylemler doygunluğa girse dahi politika gradyanının sürekliliği korunur; bu da PPO'nun klipli kayıp fonksiyonuyla sinerji oluşturarak öğrenme kararsızlıklarını en aza indirir. Ödül fonksiyonu basit ama yönlendirici olacak şekilde tasarlanmıştır. Hedefe yaklaşma, doğrusal bir uzaklık azaltımıyla ödüllendirilirken; açısal hızlar ve kararsız hareketler küçük ceza katsayıları ile dengelenmiştir. Bu katsayıların tam listesi 5. bölümde verilmiştir. Ajanın politikası, iki gizli katmanlı bir MLP (çok katmanlı algılayıcı) ile temsil edilmiştir. Her katman 256 nörondan oluşur ve tanh aktivasyon fonksiyonu kullanılır. Ağırlıklar küçük rastgele değerlerle başlatılır. Öğrenme sürecinde PPO (Proximal Policy Optimization) algoritması tercih edilmiştir. Yakalama aralığı, avantaj tahmini ve öğrenme oranı gibi hiperparametreler Optuna çerçevesi ile otomatik olarak optimize edilmiştir. Her deney sabit bir eğitim süresi içerir ve en düşük toplam kayba sahip politika seçilerek insan kaynaklı ayar hatalarının önüne geçilir. Simülasyon senaryolarında başlangıç konumu rastgele belirlenmiştir. Bu çeşitlilik sayesinde ajanın genelleme kabiliyeti artar. Aynı zamanda dengesiz adımlarda çarpışmadan önce sıfırlama yapılır. Bu sayede ajan çıkışsız durumlara saplanmaz. Böylelikle, eğitim süresince elde edilen deneyim seti geniş bir durum-uzayını kapsar ve aşırı uyum riskini belirgin şekilde azaltır. Dört rastgele 3B hedef noktasında yürütülen bağımsız testlerde, üretilen politika RMS konum hatasını 3.6 m (tasarım hedefi ≤ 5 m) altında tutmuş, roll açısnı ±5° içinde, pitch sapmalarını ise ±30° ile sınırlamıştır. Bu sonuçlar, tek bir PPO ağının eğitim verisi dışında kalan senaryolarda da yüksek hassasiyet ve kararlılıkla genelleme yapabildiğini göstermektedir. Tezde donanım-içinde-döngü (hardware-in-the-loop) testleri yapılmamıştır. Gerçek zamanlı işletim sistemi ve uçuş kontrol bilgisayarı entegrasyonu gelecekteki çalışmalara bırakılmıştır. Yüksek Reynolds bölgesindeki sürük katsayılarının doğrulanması için ayrıntılı RANS çözümleri yapılmamıştır. Rüzgâr tüneli testleri önerilen ileri çalışmalardandır. Benzer şekilde, servo boşlukları ve batarya gerilim düşüşü gibi ayrıntılı etkiler de modele eklenmemiştir. Bu sadeleştirmeler, eğitim süresini kontrol edilebilir düzeyde tutmak için yapılmıştır. Tezin özgün katkıları beş ana başlıkta toplanabilir. Birincisi, hibrit kaldırmalı bir hava gemisinde konum, yönelim ve tilt kontrolünün tek bir RL politikasıyla yapılabildiğinin gösterilmesidir. İkinci katkı, elipsoid temelli aerodinamik modellemenin ve servo dinamiğinin tek bir deterministik simülasyon şemasında birleştirilmesiyle kilohertz hızında çalışabilen bir altyapının sunulmasıdır. Üçüncü katkı, hiperparametre ayarlarının insan müdahalesi olmadan Optuna aracılığıyla yapılmasıdır. Dördüncü katkı, gimbal kilidini aşan sürekli altı boyutlu yönelim gösteriminin büyük gövdeli hava araçlarında RL ile ilk kez uygulanmasıdır. Beşinci ve son katkı ise, tek bir PPO politikasının, eğitim dışı dört görevde ≤ 3.6 m RMS konum hatası ve ±5° roll sapmasıyla genelleme başarısını nicel olarak belgelemesi. Ortaya konan mimarinin, gelecekteki prototip uçuşlarda pratik fayda sağlayacağı öngörülmektedir. Sayısal ikiz yapısı modülerdir; daha ayrıntılı aerodinamik modeller ya da gerçek sensör verileri kolayca entegre edilebilir. Politika mimarisi ise sürü kontrolü veya güneş enerjili uzun süreli yüksek irtifa görevleri gibi farklı alanlara uyarlanabilir. Dolayısıyla çalışma, yalnızca akademik bir kavramsal kanıt sunmakla kalmayıp, hibrit hava gemilerinin sürdürülebilir hava taşımacılığı ekosistemindeki rolünü hızlandıracak pratik bir yol haritasını da ortaya koymaktadır. Dolayısıyla çalışma, yalnızca akademik bir kavramsal kanıt sunmakla kalmayıp, hibrit hava gemilerinin sürdürülebilir hava taşımacılığı ekosistemindeki rolünü hızlandıracak pratik bir yol haritasını da ortaya koymaktadır. Bunun yanı sıra, ortaya konan yöntem, disiplinlerarası araştırma ortamlarında yeni iş birliklerine kapı aralayacak niteliktedir. Bu da düşük karbon ayak iziyle hava taşımacılığı ve gözlem teknolojilerinde önemli bir adım anlamına gelir. Sonuç olarak, bu tez hibrit kaldırmalı hava gemilerinde pekiştirmeli öğrenmenin uygulanabilirliğini gösterir. Önerilen yöntem, karmaşık kontrol döngülerine ihtiyaç duymadan adaptif ve ölçeklenebilir bir çözüm sunar. Gerçek prototipe geçiş sürecinde sensör füzyonu, arıza toleransı ve donanım kısıtlarının etkisi detaylı şekilde analiz edilmelidir. Bu konularda yapılacak ek çalışmalarla tam otonom, enerji verimli ve güvenilir hibrit hava gemileri gerçeğe bir adım daha yaklaşacaktır.
Özet (Çeviri)
Hybrid-lift airships merge static helium buoyancy with aerodynamic lift and vector thrust propulsion, aiming to combine the loiter endurance of blimps with the vertical agility of multicopters. Their control is complicated by large inertia, slow tilt-servo dynamics, and six strongly coupled degrees of freedom, circumstances that routinely defeat classical cascaded PID loops in gusty or payload-shifting conditions. This thesis introduces a single-policy reinforcement-learning (RL) controller that unifies position, attitude, and tilt-rotor commands, eliminating the need for gain-scheduled architectures. The research begins with the construction of a high-fidelity digital twin in MuJoCo. The hull is idealized as a rigid triaxial ellipsoid; closed-form expressions for the projected area and Reynolds-dependent empirical drag curves accurately reproduce both translational and rotational aerodynamics, providing sufficient fidelity for control design. Each of the four electric rotors is represented by spline-interpolated thrust–torque maps derived from experimental data. At the same time, second-order transfer functions model the finite bandwidth of the tilt servos. A quasi-static buoyancy module accounts for helium lift and atmospheric density variation, and the complete six-degree-of-freedom equations of motion are integrated deterministically at a 100 Hz rate to guarantee bit-exact roll-outs for RL training. The control problem is formulated as a finite-horizon, goal-conditioned Markov Decision Process that covers both precision hover and point-to-point flight. Observations consist of a six-dimensional continuous attitude embedding, body-frame linear and angular velocities, instantaneous rotor states, and a normalized target vector. Actions are left- and right-sided pairs of throttle commands and tilt-rate commands, automatically saturated to actuator limits. Reward shaping balances rapid target acquisition, tight hover accuracy, and rate penalization while preserving a transparent gradient toward feasible optima. Learning is performed using Proximal Policy Optimization (PPO) coupled with Generalized Advantage Estimation (GAE). The policy–value function is a 256–256 multilayer perceptron with tanh activations, chosen to capture higher-order cross-couplings without destabilizing the optimization. Hyperparameters such as learning rate, batch size, discount factor, GAE lambda, and clip range are tuned automatically using Optuna, ensuring a reproducible and efficient search within a predefined compute budget. Across four unseen 3D target positions, the resulting policy achieved an RMS position error of 3.6 m (design goal ≤ 5 m) while maintaining roll within ±5° and limiting pitch excursions to ±30°. These figures demonstrate that a single PPO network can generalize beyond its training set and meet the stringent accuracy and stability requirements imposed by hybrid-lift platforms. The groundwork laid here — namely, the physics-based simulator, formal control framing, and systematic learning pipeline — establishes a transparent and extensible platform for autonomous hybrid airship research. The methodology is broadly applicable to future solar-electric cargo or surveillance vehicles in which buoyancy, aerodynamics, and rotorcraft dynamics must be controlled within a single adaptive policy.
Benzer Tezler
- Deep reinforcement learning approach in control of Stewart platform- simulation and control
Stewart platformunun kontrolünde derin pekistirmeli öğrenme yaklaşımıc- simülasyon ve kontrol
HADI YADAVARI
Doktora
İngilizce
2023
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERHAT İKİZOĞLU
DR. ÖĞR. ÜYESİ VAHİT BARIŞ TAVAKOL
- Kablo ile sürülen paralel robotların model tabanlı ve pekiştirmeli öğrenme ile konum denetimi
Position control of cable-driven parallel robot with model-based and reinforcement learning method
FATMA YAMAÇ
Yüksek Lisans
Türkçe
2020
Makine MühendisliğiKaradeniz Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET İTİK
- Bağlantılı hibrit elektrikli araçlar için pekiştirmeli öğrenme tabanlı akıllı enerji yönetim stratejisi
Reinforcement learning-based intelligent energy management strategy for connected hybrid electric vehicles
OZAN YAZAR
Doktora
Türkçe
2025
Makine MühendisliğiTarsus ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERDAR COŞKUN
- Parameter optimization and maximum power point tracking control of photo-voltaic system based on the hybrid reinforcement learning whale optimization algorithm
Hibrit pekiştirmeli öğrenme balina optimizasyon algoritması tabanlı fotovoltaik sisteminin parametre optimizasyonu ve maksimum güç noktası izleme kontrolü
THAER MASHKOOR AL-JANABI
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiBahçeşehir ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ VAHID TAVAKOL AGHAEI
- Applications of deep reinforcement learning for advanced driving assistance systems
İleri sürüş destek sistemleri için derin pekiştirmeli öğrenme uygulamaları
MUHARREM UĞUR YAVAŞ
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR