Quadcopter trajectory tracking control using reinforcement learning
Pekiştirmeli öğrenme ile quadcopter yörünge takibi kontrolü
- Tez No: 555033
- Danışmanlar: DOÇ. DR. ERDİNÇ ALTUĞ
- Tez Türü: Yüksek Lisans
- Konular: Mekatronik Mühendisliği, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 81
Özet
İnsansız hava araçları (İHA) son yıllarda oldukça yaygın olarak kullanılmaya başlanmıştır. Tarım, güvenlik, haritalama ve arama-kurtarma faaliyetleri İHA'ların aktif olarak kullanıldıkları alanlardan sadece birkaçıdır. İHA'lar içinde özellikle döner kanatlı olan sistemler, dikey iniş-kalkış yapabilme ve havada asılı kalabilme yetenekleri ile ön plana çıkmaktadır. Döner kanatlı İHA'lar arasında en popüler olanı kuşkusuz quadcopterlerdir (dört pervaneli robot helikopter). Quadcopterler hızlı manevra yapabilme kabiliyetleri ve mekanik olarak basit bir yapıya sahip olmaları nedeniyle günlük yaşamda ve kontrol problemlerinin incelenmesi için yapılan çalışmalarda oldukça tercih edilmektedirler. Quadcopterler rotor hızlarını değiştirerek ağırlık merkezleri etrafında yuvarlanma, yunuslanma ve yalpa hareketi oluşturarak hareket ederler. Toplamda 6 serbestlik derecesine sahip olan bu araçlarda yalnızca 4 tane eyleyici bulunduğundan eksik tahrikli sistemlerdir. Quadcopterlere ait sıralanan bu özelliklerin tümü onları kontrol yöntemlerinin deneme alanı haline getirmiştir. Tamamen otonom olarak yörünge takibi yapabilen quadcopterlerde iki adet iç içe geçmiş kontrolcü bulunur. Bunlardan dışarıda yer alan kontrolcü görev planlanmasından sorumludur. İçeride yer alan kontrolcü ise yönelim stabilite kontrolcüsüdür. Geleneksel PID kuşkusuz endüstriyel çalışmalarda en sık uygulanan kontrol yöntemlerinin başında gelmektedir. Ancak PID kontrolcülerin katsayıları lineerleştirilmiş model üzerinde ayarlandığından, gerçek sistemlere uygulandığında model ve gerçek sistem arasındaki farklardan dolayı istenilen performansı sağlayamayabilirler. Buna ek olarak, PID kontrolcüler sistemdeki gürültülere karşı toleranslı değillerdir ve kararsızlık gösterebilirler. LQR, MPC ve SMC yöntemleri PID dışında quadcopterlerle kullanılan yöntemlerden bazılarıdır. Sırası ile, sadece doğrusallaştırılmış model üzerinde çalışabilme, sistemin tam modeline gereksinim duyma ve kontrol girişinde hızlı değişim (süreksizlik) bu yöntemlerin dezavantajlarıdır. Tüm bunların dışında, bu yöntemlerle tasarlanan kontrolcüler quadcopter modeli üzerinde yapılan değişikliklerden sonra kullanıldıklarında istenilen performansı sergileyemezler. Son yıllarda, yapay zeka yöntemlerinin bir alt sınıfı olan pekiştirmeli öğrenme, kontrol problemleri üzerinde uygulanmaya başlanmıştır. Pekiştirmeli öğrenmedeki ana prensip sistemin çevresi ile etkileşimlerinden elde ettiği deneyimleri kullanarak istenilen görevleri yapabilmeyi kendi kendine öğrenmesidir. Fonksiyon yaklaşımcısı olarak genelde doğrusal olmayan yapıdaki yapay sinir ağlarını kullanırlar. İlk uygulamarında, o zamanki bilgisayar teknolojileri, kompleks yapay sinir ağları modelleri oluşturmaya elverişli olmadığından pekiştirmeli öğrenme yöntemleri sadece basit problemlere uygulanmıştır. Ancak GPU teknolojisindeki yeni gelişmelerle yeniden yaygın hale gelmişlerdir. Pekiştirmeli öğrenme, derin öğrenme kategorisinde beraber yer aldığı gözetimli ve gözetimsiz öğrenme yöntemlerine kıyasla doğada daha yaygın olarak karşımıza çıkmaktadır. Farklı problemler için uygulanan ayrık ve sürekli zamanlı metodları bulunmaktadır. Literatürde pekiştirmeli öğrenme yöntemleri kullanılarak doğru bir şekilde eğitilmiş sinir ağlarının bazı zor görevleri insanlardan daha iyi yerine getirdiklerini gösteren çalışmalar mevcuttur. Bu çalışmalar pekiştirmeli öğenme algoritmalarının robotik alanındaki kontrol problemlerini çözmek için uygulanmasına öncülük etmiştir. Üstsezgisel algoritmalar, tıpkı sezgisel yöntemler gibi kontrolcü katsayılarının ayarlanmasında kullanılabilmektedir. Bu çalışmanın ilk aşamasında, benzetim ortamında sezgisel yöntemlerle tasarlanan PD kontrolcü performansını daha iyi hale getirmek için parçacık sürü optimizasyonu (PSO) algoritması kullanılmıştır. Parçacık sürü optimizasyonu doğadaki kuş ve balıkların yem bulma ve avcılardan kaçmak için beraber hareket etmelerinden esinlenerek ortaya çıkmıştır. Elde edilen benzetimler sistemin yörünge takip başarımının geliştirildiğini göstermektedir. İkinci aşamada; bir pekiştirmeli öğrenme algoritması olan DDPG metodu kullanılarak quadcopterin pozisyon kontrolcüsünün yerini alacak yeni bir kontrolcü geliştirilmiştir. DDPG algoritması bünyesinde dört farklı sinir ağı bulundurur. Bunlar aktör, eleştirici, hedef aktör ve hedef eleştirici ağları olarak isimlendirilir. Aktör sinir ağı ajanın içinde bulunduğu durumu göz önüne alarak uygulayacağı eylemleri oluşturur. Eleştirici sinir ağı ise ajanın içinde bulunduğu durumun değerini ölçer. Eğitim esnasında sinir ağı değişkenleri hızlıca değişebilmektedir. Bu durum, ajanın alacağı kararlardan dolayı sistemi kararsızlığa itebilir. Bunu önlemek için hedef sinir ağları kullanılmaktadır. Yukarıda açıklanan iki sinir ağı dışında kalan hedef aktör ve hedef eleştirici sinir ağları, bir gecikme süresi ile değişkenleri güncellenerek kararsızlık ihtimali azaltılır. Algoritmanın uygulamasında, pekiştirmeli öğrenme problemlerinde varolan keşif sorununun çözümü için eğitim esnasında aktör sinir ağının oluşturduğu eylemler üzerine serüven sayısı ile zıt orantılı olacak şekilde gürültü bindirilir. Normalde algoritmanın bir parçası olmayan toptan normalleştirme ve L2 düzenlileştirme methodları sistemin performansını arttırmak için sinir ağları üzerinde uygulanmıştır. Toptan normalleştirme methodu, yapay sinir ağının saklı katmanlarda yer alan değerler arasındaki eşdeğişinti kaymalarını önleyerek öğrenme sürecini hızlandırır. Bunun yanında öğrenmeyi yanlış üst değişken seçimlerine karşı gürbüz hale getirir. L2 düzenlileştirme metodu ise sinir ağı düğümlerinin değerlerini baskılayarak küçük ve birbirlerine yakın değerler almasını sağlar. Algoritma üzerinde uygulanan bu iki ek method, eğitilmiş modelin değişkenleri farklı olan sistemler üzerinde çalışmasına olanak tanıyarak genellemeye katkı sağlar. Gazebo ortamında yapılan benzetimlerde yörünge takip problemi eksenler için yükseklik kontrolü, yatay pozisyon kontrolü ve son olarak da üç boyutta tam pozisyon kontrolü olacak şekilde ayrı ayrı ele alınmıştır. Bu tezin amacı pekiştirmeli öğrenme yöntemlerinden biri olan DDPG algoritması kullanılarak bir quadcopterin otonom olarak önceden oluşturulan bir yörüngeyi takip etmesini sağlamaktır. İlk aşamada farklı eksenler için varolan alt problemler ayrı olarak ele alınmıştır. Bu aşamalarda eğitilen ağların kontrol ettiği eksenler dışında kalan diğer eksenler PD kontrolcü ile kontrol edilmiştir. Son durumda teker teker eğitilen algoritmalar bir araya getirilmiş ve bunun sonucunda tamamen DDPG pekiştirmeli öğrenme algoritması ile çalışan yapay sinir ağı tabanlı bir kontrolcü elde edilmiştir. Pekiştirmeli öğrenmede varolan genelleme özelliğinin gösterimi için daha önce yapılan tüm benzetimler Gazebo ortamındaki quadcopter araç modeli değiştirilerek tekrarlanmıştır. Elde edilen bulgular göstermiştir ki, belirli varsayımlar altında doğru parametreler kullanılarak eğitilen pekiştirmeli öğrenme yöntemleri sürekli zamanlı kontrol problemleri çözümlerini genelleme özelliklerini koruyarak çözebilmektedir. Pekiştirmeli öğrenme ile yapılan yörünge takibinde varolan küçük sapmalar ödül tanımı, ağ yapısı veya üstdeğişkenlerin en iyilenmesi ile giderilebilir. Ancak şimdiki hali ile bile elde edilen bulgular geleneksel bir kontrolcü yöntemiyle kıyaslandığında yeterli görülmüştür.
Özet (Çeviri)
Unmanned aerial vehicles (UAVs) have gained enormous popularity since the last couple of decades. Quadcopters are the most popular subdivisions of UAVs. Their vertically taking-off, landing and hovering abilities make them ideal platforms for military, agriculture, surveillance and exploration missions. Their mechanical simplicity and agile maneuverability are other two reasons why the quadcopters are so popular. These mentioned reasons make the quadcopters excellent proving grounds for control theory applications. Even though designing a conventional controller for quadcopters is a relatively easy task, tuning those control parameters might easily become a time consuming challenge. Moreover, this requires a model of the system and any uncertainties in the system model or later modifications on the vehicle can quickly cause instabilities. Reinforcement learning is a subclass of artificial intelligence. The idea behind reinforcement learning is making an agent learn in an interactive environment by trial and error principle to achieve a specific task. Notwithstanding it has been discovered long ago, it has got its popularity back with the last advancements in the technology. In this thesis, at first, a conventional PD controller performance on a quadcopter model that is modeled on ETHZ Rotors framework in the Gazebo simulation environment was improved by implementing metaheuristic particle swarm optimization (PSO) algorithm. Thereafter using an actor-critic reinforcement learning algorithm called deep deterministic policy gradient (DDPG), quadcopter was trained to follow different trajectories. DDPG is an off-policy and model-free method, which has proven itself in different domains and tasks. DDPG has four neural network function approximators. These are actor, critic, target actor and target critic networks. The critic network approximates the current value of the agent state and the actor network generates actions with respect to state of the agent. During training, network values shift constantly. Using a constantly shifting set of values to adjust network parameters is not a reasonable thing to do. This makes the value estimations unmanageable. In order to avoid this, DDPG algorithm uses target networks that are used to make the training process more stable. These target networks are not updated at each step, contrary only periodically or slowly updated. Weight decay and batch normalization techniques that are normally not part of the original DDPG algorithm were also implemented to improve algorithm's performance. ADAM algorithm was used for optimization purpose. While training continues, the agent was presented a reward for each step in all episodes. Reward function is defined as negative weighted sum of quadcopter's position, velocity and acceleration errors. Tracking was assumed to be successful, if the tracking error is less than 10%. Tracking performances of both controllers were analyzed for different trajectories. PD controller outperforms reinforcement learning agent in most cases. However, it is needed to be stated that performance differences between two controllers are hard to notice and generalization, which is working on different quadcopter models under some assumptions, is the real advantage of reinforcement learning agent. Hyperparameters of the DDPG algorithm shape the learning behavior of the agent. It is highly possible for a reinforcement learning agent to perform equally or better compared to the conventional controllers. Therefore, as future work, with a given sufficient time, optimizing learning algorithm's hyperparameters and modifying network architectures are worth to investigate in order to have better performances.
Benzer Tezler
- Trajectory tracking control of a quadrotor with reinforcement learning
Pekiştirmeli öğrenme ile bir quadrotor'un yörünge takip kontrolü
EREN ÇAKMAK
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA DOĞAN
- Optimal trajectory generation and model reference adaptive control for a package delivery quadcopter
Paket teslimatı yapan dört pervaneli helikopter için optimal yörünge oluşturma ve model referans uyarlamalı kontrol
ATAHAN KURTTİŞİ
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ONUR AKBATI
- Multi-quadcopter salvo attack system with impact time and angle control guidance algorithm based on polynomial trajectory and artificial intelligence
Yapay zeka ve polinom fonksiyonlu yörünge temelli etki zamanı ve açısı kontrollü güdüm algoritmasıyla çoklu dört pervaneli helikopter salvo saldırı sistemi
FURKAN GÖKTUĞ AKBALIK
Yüksek Lisans
İngilizce
2024
Havacılık ve Uzay Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. GÖKHAN İNALHAN
DR. ÖĞR. ÜYESİ BARIŞ BAŞPINAR
- Eş zamanlı öğrenme kontrol tekniği ile dört pervaneli bir insansız hava aracının aerodinamik kuvvetlerinin araştırılması
Investigation of aerodynamic forces of a quadcopter unmanned aerial vehicle with a concurrent learning based adaptive control techniques
BURAK DEMİRTAŞ
Yüksek Lisans
Türkçe
2024
Uçak MühendisliğiNecmettin Erbakan ÜniversitesiUçak Mühendisliği Ana Bilim Dalı
PROF. DR. MUAMMER ÖZGÖREN
DR. ÖĞR. ÜYESİ SERHAT OBUZ
- Design, modeling, and optimal control allocation of a heavy-lift aerial vehicle consisting of large and small tilt-rotors
Büyük ve küçük pervanelerden oluşan ağır yük kaldıran hava aracının tasarımı, modellenmesi ve optimal kontrol tahsisi
GÖKHAN ÖZDOĞAN
Doktora
İngilizce
2021
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET KEMAL LEBLEBİCİOĞLU