Reinforcement learning control for autorotation of a simple point-mass helicopter model

Basitleştirilmiş bir nokta-kütle helikopter modeli otorotasyonu için takviyeli öğrenme kontrolü

PDF İndir

Tez No: 520901
Yazar: KADİRCAN KOPŞA
Danışmanlar: DR. ÖĞR. ÜYESİ ALİ TÜRKER KUTAY
Tez Türü: Yüksek Lisans
Konular: Havacılık Mühendisliği, Aeronautical Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2018
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Havacılık ve Uzay Mühendisliği Ana Bilim Dalı
Bilim Dalı: Havacılık ve Uzay Mühendisliği Bilim Dalı
Sayfa Sayısı: 85

Özet

Bu çalışma, basitleştirilmiş bir nokta-kütle helikopterin otorotasyonda güdümü problemine bir eyleyici-eleştirici takviyeli öğrenme metodu uygulamasını sunmaktadır. Otorotasyonda bir OH-58A helikopterinin nokta-kütle matematiksel modeli oluşturulmuştur. Bir takviyeli öğrenme elemanı, modelden bağımsız bir eyleyici-eleştirici algoritma tarafından, çok çekirdekli bir işlemci üzerinde paralel şekilde eğitilmiştir. Öğrenmenin amacı, yere değme noktasında, sıfır değerine çok yakın yatay ve dikey kinetik enerjiye ulaşmak olarak tanımlanmıştır. Öğrenme evreleri esnasında her bir ayrık zaman adımında takviyeli öğrenme elemanı bir çoğul-şartlı ödül fonksiyonuna bağlı olarak ödüllendirilmekte veya cezalandırılmaktadır. Ödül fonksiyonu yere değme noktasında yatay ve dikey hızlarının karelerinin ağırlıklandırılmış toplamının negatifini vermektedir. Takviyeli öğrenme elemanı eyleyici ve eleştirici olarak iki yapay sinir ağı fonksiyon kestirimcisinden oluşmaktadır. Eleştirici, bir durum değişkeni setinin değerini tahmin etmektedir. Eyleyici çıktıları, bir Gauss dağılımının orta noktasını temsil etmektedir. Bu dağılımlardan örneklenen reel sayılar, durum değişkeni setine karşılık gelen aksiyonları ifade etmektedir. Her iki yapay sinir ağının parametrelerinin güncellenmesi, öğrenme evreleri esnasında toplanan kısmi türevlerden hesaplanmakta ve öğrenme evresi sonunda bir defa gerçekleştirilmektedir. Optimizasyon için RMSProp algoritması kullanılmıştır. Takviyeli öğrenme elemanı tarafından elde edilen sonuçlar, uygulanan metodun birçok başlangıç koşulu için nokta-kütle helikopterin otorotasyonda minimum kinetik enerji ile yere değmesini sağlamakta başarılı olduğunu göstermektedir. Takviyeli öğrenme elemanı tarafından uygulanan kontroller, bir insan pilotun helikopter otorotasyonu esnasında uyguladığı kontrollere benzerlik göstermektedir.

Özet (Çeviri)

This study presents an application of an actor-critic reinforcement learning method to a simple point-mass model helicopter guidance problem during autorotation. A point-mass model of an OH-58A helicopter in autorotation was built. A reinforcement learning agent was trained by a model-free asynchronous actor-critic algorithm, where training episodes were parallelized on a multi-core CPU. Objective of the training was defined as achieving near-zero horizontal and vertical kinetic energies at the instant of touchdown. During each training episode, the agent was presented a reward at each discrete time-step according to a multi-conditional reward function. Reward function was programmed to output the negative of a weighted sum of squared vertical and horizontal velocities at touchdown. The agent consists of two separate neural network function approximators, namely the actor and the critic. The critic approximates the value of a set of states. The actor generates a set of actions given a set of states, sampled from a Gaussian distribution with mean values as output set of the actor network. Updates to the parameters of both networks were calculated from accumulated gradients during each episode and applied once per episode to improve training stability. RMSProp algorithm was used for optimization. Results achieved by the agent indicates that the method is successful at guiding the point-mass helicopter to the ground with minimal kinetic energy for most initial conditions. Controls generated by the reinforcement learning agent were found to be similar to a helicopter pilot's technique.

Benzer Tezler

Tez No
400914
On the reinforcement learning analysis and learning the control of humanoid robot leg
Başlık çevirisi yok
ÖNDER TUTSOY
Doktora
İngilizce
2013
Elektrik ve Elektronik Mühendisliği The University of Manchester
DR. MARTIN BROWN
Tez No
803654
Deep reinforcement learning approach in control of Stewart platform- simulation and control
Stewart platformunun kontrolünde derin pekistirmeli öğrenme yaklaşımıc- simülasyon ve kontrol
HADI YADAVARI
Doktora
İngilizce
2023
Mekatronik Mühendisliği İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERHAT İKİZOĞLU
DR. ÖĞR. ÜYESİ VAHİT BARIŞ TAVAKOL
Tez No
833496
Vibration control of thin structures using a reinforcement learning approach
İnce yapıların güçlendirilmiş öğrenme yaklaşımıyla titreşim kontrolü
SANDRA NAFUNA WANYONYI
Yüksek Lisans
İngilizce
2023
Havacılık ve Uzay Mühendisliği Orta Doğu Teknik Üniversitesi
Havacılık ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. DİLEK FUNDA KURTULUŞ
DR. IPAR FERHAT
Tez No
290004
İnsansız hava araçlarında farklı kontrol tekniklerinin performans karşılaştırması
Performance comparison of different control techniques on unmanned aerial vehicles
NECDET SİNAN ÖZBEK
Yüksek Lisans
Türkçe
2010
Elektrik ve Elektronik Mühendisliği TOBB Ekonomi ve Teknoloji Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. COŞKU KASNAKOĞLU
Tez No
894523
Improving sample efficiency in reinforcement learning control using autoencoders
Pekiştirmeli öğrenme kontrolde otokodlayıcılar ile örnekleme verimliliğini arttırma
BURAK ER
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA DOĞAN

Geri Dön