Autonomous heading control of a fixed-wing aircraft with deep reinforcement learning
Sabit kanatlı bir uçak için derin pekiştirmeli öğrenme ile otonom yönelim kontrolü
- Tez No: 771377
- Danışmanlar: DR. ÖĞR. ÜYESİ İSMAİL BAYEZİT
- Tez Türü: Yüksek Lisans
- Konular: Uçak Mühendisliği, Aircraft Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Uçak ve Uzay Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Uçak ve Uzay Mühendisliği Bilim Dalı
- Sayfa Sayısı: 105
Özet
Otonom kontrol, son gelişmeler ve derin pekiştirmeli öğrenme (DRL) gibi yeni makine öğrenmesi teknikleri ile daha erişilebilir hale geldi ve uçuş kontrolü dahil her alanda giderek daha popüler hale geliyor. Uçuş kontrolünün otonom hale getirilmesi oldukça önem arz etmektedir, çünkü bu şekilde uçağın kontrolünde dış bir müdahale ihtiyacına gerek kalmamış olur ve ayrıca yapay zekâ kullanılarak ortaya çıkarılmış bir otonom kontrol insan becerilerinden daha iyi olma potansiyeline sahiptir. Makine öğrenmesi gibi yapay zekâ yöntemleri ile kendi kendine uçuş görevlerini yerine getirebilen ve bunu bir pilot veya operatörden daha iyi bir şekilde yapabilen hava araçları elde etmek mümkün olabilir. Otonom uçuşta, uçağın herhangi bir insan müdahalesi olmadan tüm görevlerini tamamlaması beklenir. Tamamen otonom uçuş için, iniş, kalkış, yönelim ve seyir gibi uçuşun farklı bölümlerinin otonom hale getirilebilmesinde kullanılabilecek bir metoda ihtiyaç vardır. Bir makina öğrenmesi yöntemi olan derin pekiştirmeli öğrenme bu ihtiyacı karşılayabilir. Pekiştirmeli öğrenme içinde bulunulan çevreye göre aksiyon alınması gereken durumlarda kullanılan oldukça başarılı bir yöntemdir. Bu yöntemin kendini birçok alanda kanıtlamış derin öğrenme ile birleştirilmesi sonucunda robot kontrolünü mümkün kılan derin pekiştirmeli öğrenme ortaya çıkar. Bu sebeple bu çalışmada derin pekiştirmeli öğrenme ile otonom kontrol üzerinde durulmaktadır. Makine öğrenmesi algoritmaları probleme özgü değillerdir, bu yüzden uçuşun tamamı yerine bu çalışmada sadece yönelim kontrolüne odaklanılmaktadır. Çünkü yönelim kontrolünün bir öğrenme algoritması ile otonom hale getirilmesi, benzer öğrenme algoritmaları kullanılarak diğer uçuş görevlerinin de otonom hale getirilmesinin mümkün olduğu anlamına gelmektedir. Bu nedenle bu çalışmada otonom yönelim kontrolü için bir öğrenme algoritması tasarlamak çalışmanın temel amacı olmuştur ve böylece çalışmada bir öğrenme algoritması geliştirilmiştir. Bu algoritma, bu çalışmada sadece yönelim kontrolüne uygulanmıştır. Bunun yanında algoritma uçuş içerisindeki iniş, kalkış gibi diğer görevlere uygulanabileceği gibi uçuşa bir bütün olarak da uygulanabilir. Ancak bu yaklaşımlar gelecekteki çalışmalara bırakılmıştır Bu çalışmada, sabit kanatlı bir uçağın yönelim manevraları gibi karmaşık bir ortam ve dinamikler gerektiren bir durum için otonom kontrole ulaşmak istenmektedir. Ancak çalışmanın odak noktası ağırlıklı olarak algoritma geliştirme düzeyinde olduğu için, karmaşık ortam ve dinamiklere doğrudan girmek iyi bir fikir değildir. Bu nedenle, bu çalışmada, öğrenme algoritmasını geliştirmek ve test etmek için sabit kanatlı bir uçağı temsil edecek basit dinamiğe sahip modeller kullanılmıştır. Bunun için öncelikle Dubins modeli kullanılmıştır. Sonrasında bu model geliştirilerek sabit kanatlı bir uçak dinamiğini daha iyi temsil edebilecek bir model elde edilmiştir. Bu çalışmada öğrenme algoritması üzerinde durulduğu için bu iki model yeterli görülmüştür. Dubins modeli sadece bir yönü ve hızı olan bir nokta olarak düşünülebilir. Hem iki boyutlu hem de üç boyutlu ortamlarda kolayca uygulanabilir ve çok basit seviyede bir araba sürüşünü veya bir uçağın uçuşunu temsil edebilir. Basit dinamiği sayesinde öğrenme algoritmasının oluşturulması ve test edilmesi sürecine odaklanılmasını kolaylaştırmıştır. Özellikle bu çalışmada kullanılan öğrenme algoritmaları modelden bağımsız olduğu için öncelikle algoritmayı basit bir model için test edip geliştirmek ve sonrasında bu algoritmayı karmaşık gerçek dünya problemlerine adapte etmek iyi bir strateji gibi görünmektedir. Dubins modeli, bazı kısıtlamalar ve dinamiklerine bazı eklemelerle, kolayca sabit kanatlı bir uçağın iyi bir temsiline dönüştürülebilir. Bu yeni temsil, sabit kanatlı bir uçağın tam olarak tanımlanmış dinamiklerinden çok daha basittir, ancak yine de öğrenme algoritmasının nasıl çalıştığını görmek için iyi bir temsildir. Bu nedenle bu çalışmada basitleştirilmiş bir sabit kanatlı uçak modeli elde edilmiş ve öğrenme algoritması bu basitleştirilmiş modelde test edilmiştir. Öğrenme algoritmasının 6 dereceli serbestlik dinamiği ile tam olarak tanımlanmış bir uçağa uygulanması ise gelecekteki çalışmalara bırakılmıştır. Son geliştirilen derin pekiştirmeli öğrenme algoritmaları ve yöntemleri, sabit kanatlı bir uçağın otonom kontrolü için bir çözüm sağlayabilir gibi görünüyor. Problem için uygun bir algoritma bulmak, bu algoritma üzerinde gerekli değişiklikleri yapıp probleme uygulamak otonom kontrol problemine çözüm sunabilir. Ancak bu çalışmada izlenen yol bu değildir. Direk olarak son geliştirilen yöntemlere yönelmek yerine basit ve temel bir öğrenme algoritması ile işe başlanır. Bu algoritma Q-learning yöntemidir ve çalışmada ilk olarak Q-learning ile işe başlanmıştır. Q-learning, içinde bulunulan belirli bir durumda alınabilecek en iyi aksiyonun ne olabileceğini sayılı aksiyon seçenekleri içinden belirleyerek bir davranış politikası oluşturulmasını sağlayan bir yöntemdir. Başlangıçta rastgele olan bu davranışlar ödül sinyali varlığında deneyim ile öğrenilerek işe yarar bir politika haline getirilir. Ancak durumu oluşturan faktörlerin fazla olması bir durumun deneyimlenebilme ihtimalini üstel bir şekilde düşürmektedir, bu da doğal olarak öğrenmeyi çok zorlaştırmaktadır. Bu noktada Q learning derin öğrenmeye ihtiyaç duyar. Derin öğrenme fonksiyon tahmincisi olarak soruna çözüm sunar ve algoritma DQN haline dönüşmüş olur. DQN hala belirli sayıda aksiyon seçeneği ile çalışmaktadır, ancak bir uçağın kontrolü için sürekli bir aksiyon uzayı tanımlamak daha doğru olacaktır. Böyle bir tanımın oluşturulması için ise Actor-Critic yönteminin kullanılması gerekir. Otonom yönelim kontrolü için sürekli durum ve aksiyon uzayı gerekmektedir. Bu gereksinim yukarıda bahsedilen yöntemler ile karşılanabilir, bu sebeple bu çalışmada bu yöntemler üzerinde durulmuştur. Bu çalışmada kullanılan metoda göre, Q learning ile işe başlandıktan sonra algoritma basit bir ortamda denenir ve bu düzeyde tatmin edici sonuçlar alındıktan sonra ortam daha karmaşık hale getirilir. Böylece önceki algoritmanın neden eksik olduğu ve bu yeni ortamda öğrenmeyi mümkün kılmak için nelere ihtiyaç duyulduğu görülebilir. Bu işlemin tekrarlanmasıyla, her seviyede algoritmada iyileştirme veya değişiklik yapma imkânı bulunur ve böylece otonom yönelim kontrolü için uygun bir öğrenme algoritması elde edilmiş olur. Bu algoritma, yukarıda bahsedilen yöntem kullanılarak, DQN ve Actor-Critic yöntemlerin birbirinin içine geçmesi şeklinde oluşturulmuştur. Kendine has bazı özelliklere sahip olan bu algoritma, sürekli durum ve aksiyon uzaylarıyla çalışma gereksinimini karşılamaktadır. Elde edilen bu yeni algoritmanın işe yarayıp yaramadığı ve daha karmaşık görevler ile dinamikler için kullanılıp kullanılamayacağı görülmek istenmiştir. Bu sebeple algoritma oluşturulan Dubins modeli ve basitleştirilmiş sabit kanatlı uçak modeli üzerinde test edilmiştir. Bu modellerde otonom yönelim kontrolü gerçekleşmiş olup öğrenme algoritmasının gelecek vadettiği gösterilmiştir. Ayrıca bu sonuçlar ile, algoritmanın diğer uçuş görevleriyle başa çıkmak için geliştirilebileceği ve karmaşık gerçek dünya problemlerine çözüm sunabileceğini sonuçlarına varılmıştır.
Özet (Çeviri)
Autonomous control has become more reachable with recent advancements and new techniques such as deep reinforcement learning (DRL) and is getting more and more popular in every field including flight control. Autonomous flight is an important trait to attain for an aircraft because it provides to get rid of external involvement in control and it has the potential to excel in human skills. In fully autonomous flight, the aircraft is needed to complete its all tasks without any human involvement. However, instead of fully autonomous flight, this work focuses only on heading control because making the heading control autonomous by a learning algorithm means that it is possible to make other flight tasks autonomous by using a similar learning algorithm. Therefore, in this work, devising a learning algorithm for autonomous heading control is the main goal of the work. In this work, it is desired to attain autonomous control for a case that demands a complex environment and dynamics like the heading maneuvers of a fixed-wing aircraft. However, because the focus of the work is mainly at the algorithmic level, it is not a good idea to dive into the complex environment and dynamics directly. Therefore, firstly the Dubins model is used in this work to represent the fixed-wing aircraft while testing the learning algorithm. Dubins model can be simply considered as just a point that has a heading and a velocity. It can be implemented in both 2D and 3D environments easily and it can represent a car driving or an aircraft flight in a very basic manner. However, with some constraints and some addition to its dynamics, it can be converted easily into a good representation of a fixed-wing aircraft. This new representation is much simpler than a fully described dynamics of a fixed-wing aircraft but it is still a good representation to see how the learning algorithm works. Therefore, in this work, a simplified fixed-wing aircraft model is obtained from a 3D Dubins Airplane model and the learning algorithm is tested in this simplified model. Implementation of the learning algorithm to a fully described 6-degree of freedom dynamics is left for future works. It seems that the state-of-art DRL algorithms can provide a solution for the autonomous heading control of a fixed-wing aircraft. So, finding the most appropriate state-of-art algorithm and implementing it to the problem can offer a solution. But, in this work, it is not the way that is followed. Instead of jumping directly to the state-of-art methods, this work starts with a basic learning algorithm, and it is tested in a simple environment, after getting satisfactory results at this level, the environment is rendered more complex status and the algorithm is made more advanced to deal with new conditions. In this way, it can be seen why the previous methods lack and what is needed to make learning possible in this new condition. By repeating this process, it is aimed at obtaining a DRL algorithm to solve the problem while having the opportunity to make improvements in the algorithm at every level. In this work, the DRL algorithm is obtained by using the aforementioned technique for heading control. This DRL algorithm consists of a combination of DQN and Actor-Critic methods. It meets the requirement of dealing with continuous state and action spaces and it has some unique approaches which do not exist in other algorithms. The new algorithm that has been obtained in this work is tested on the Dubins model and simplified model to see its validity and whether it can be used for more complex tasks and dynamics. The promising results show that the algorithm can be enhanced to deal with other flight tasks also, and it may offer solutions to complex real-world problems.
Benzer Tezler
- Addressing parametric uncertainties in autonomous cargo ship heading control
Otonom kargo gemisi yön kontrolündeki parametrik belirsizliklerin ele alınması
AHMAD IRHAM JAMBAK
Yüksek Lisans
İngilizce
2023
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. İSMAİL BAYEZİT
- İnsansız hava araçlarının topolojik mesafe tabanlı sürü halinde hareket etmesi
Topological distance based flocking with unmanned aerial vehicles
YÜCEL YILMAZ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATİH GÖKÇE
- Development of supramolecular hydrogels with adjustable viscoelastic, mechanical and self-recovering properties
Ayarlanabilir viskoelastik, mekanik ve kendi-kendini onarma özelliklerine sahip supramoleküler hidrojellerin geliştirilmesi
ESRA SU
- Otonom araçlarda clothoid tabanlı lineer zamanla değişen model öngörülü kontrol
Clothoid based linear time varying model predictive control in autonomous vehicles
MUSTAFA CANER SEZER
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. AFİFE LEYLA GÖREN
- GPS destekli uzaktan komutalı sabit silah platformunun tasarımı ve yönlendirilmesi
Design and direction of the GPS aided remote controlled fixed weapon platform
OSMAN ECEOĞLU
Yüksek Lisans
Türkçe
2019
Elektrik ve Elektronik MühendisliğiAkdeniz ÜniversitesiUzaktan Algılama ve Coğrafi Bilgi Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İLKER ÜNAL