Geri Dön

Reinforcement learning control for autorotation of a simple point-mass helicopter model

Basitleştirilmiş bir nokta-kütle helikopter modeli otorotasyonu için takviyeli öğrenme kontrolü

  1. Tez No: 520901
  2. Yazar: KADİRCAN KOPŞA
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ALİ TÜRKER KUTAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Havacılık Mühendisliği, Aeronautical Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Havacılık ve Uzay Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Havacılık ve Uzay Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 85

Özet

Bu çalışma, basitleştirilmiş bir nokta-kütle helikopterin otorotasyonda güdümü problemine bir eyleyici-eleştirici takviyeli öğrenme metodu uygulamasını sunmaktadır. Otorotasyonda bir OH-58A helikopterinin nokta-kütle matematiksel modeli oluşturulmuştur. Bir takviyeli öğrenme elemanı, modelden bağımsız bir eyleyici-eleştirici algoritma tarafından, çok çekirdekli bir işlemci üzerinde paralel şekilde eğitilmiştir. Öğrenmenin amacı, yere değme noktasında, sıfır değerine çok yakın yatay ve dikey kinetik enerjiye ulaşmak olarak tanımlanmıştır. Öğrenme evreleri esnasında her bir ayrık zaman adımında takviyeli öğrenme elemanı bir çoğul-şartlı ödül fonksiyonuna bağlı olarak ödüllendirilmekte veya cezalandırılmaktadır. Ödül fonksiyonu yere değme noktasında yatay ve dikey hızlarının karelerinin ağırlıklandırılmış toplamının negatifini vermektedir. Takviyeli öğrenme elemanı eyleyici ve eleştirici olarak iki yapay sinir ağı fonksiyon kestirimcisinden oluşmaktadır. Eleştirici, bir durum değişkeni setinin değerini tahmin etmektedir. Eyleyici çıktıları, bir Gauss dağılımının orta noktasını temsil etmektedir. Bu dağılımlardan örneklenen reel sayılar, durum değişkeni setine karşılık gelen aksiyonları ifade etmektedir. Her iki yapay sinir ağının parametrelerinin güncellenmesi, öğrenme evreleri esnasında toplanan kısmi türevlerden hesaplanmakta ve öğrenme evresi sonunda bir defa gerçekleştirilmektedir. Optimizasyon için RMSProp algoritması kullanılmıştır. Takviyeli öğrenme elemanı tarafından elde edilen sonuçlar, uygulanan metodun birçok başlangıç koşulu için nokta-kütle helikopterin otorotasyonda minimum kinetik enerji ile yere değmesini sağlamakta başarılı olduğunu göstermektedir. Takviyeli öğrenme elemanı tarafından uygulanan kontroller, bir insan pilotun helikopter otorotasyonu esnasında uyguladığı kontrollere benzerlik göstermektedir.

Özet (Çeviri)

This study presents an application of an actor-critic reinforcement learning method to a simple point-mass model helicopter guidance problem during autorotation. A point-mass model of an OH-58A helicopter in autorotation was built. A reinforcement learning agent was trained by a model-free asynchronous actor-critic algorithm, where training episodes were parallelized on a multi-core CPU. Objective of the training was defined as achieving near-zero horizontal and vertical kinetic energies at the instant of touchdown. During each training episode, the agent was presented a reward at each discrete time-step according to a multi-conditional reward function. Reward function was programmed to output the negative of a weighted sum of squared vertical and horizontal velocities at touchdown. The agent consists of two separate neural network function approximators, namely the actor and the critic. The critic approximates the value of a set of states. The actor generates a set of actions given a set of states, sampled from a Gaussian distribution with mean values as output set of the actor network. Updates to the parameters of both networks were calculated from accumulated gradients during each episode and applied once per episode to improve training stability. RMSProp algorithm was used for optimization. Results achieved by the agent indicates that the method is successful at guiding the point-mass helicopter to the ground with minimal kinetic energy for most initial conditions. Controls generated by the reinforcement learning agent were found to be similar to a helicopter pilot's technique.

Benzer Tezler

  1. Deep reinforcement learning approach in control of Stewart platform- simulation and control

    Stewart platformunun kontrolünde derin pekistirmeli öğrenme yaklaşımıc- simülasyon ve kontrol

    HADI YADAVARI

    Doktora

    İngilizce

    İngilizce

    2023

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERHAT İKİZOĞLU

    DR. ÖĞR. ÜYESİ VAHİT BARIŞ TAVAKOL

  2. Vibration control of thin structures using a reinforcement learning approach

    İnce yapıların güçlendirilmiş öğrenme yaklaşımıyla titreşim kontrolü

    SANDRA NAFUNA WANYONYI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Havacılık ve Uzay MühendisliğiOrta Doğu Teknik Üniversitesi

    Havacılık ve Uzay Mühendisliği Ana Bilim Dalı

    PROF. DR. DİLEK FUNDA KURTULUŞ

    DR. IPAR FERHAT

  3. İnsansız hava araçlarında farklı kontrol tekniklerinin performans karşılaştırması

    Performance comparison of different control techniques on unmanned aerial vehicles

    NECDET SİNAN ÖZBEK

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Elektrik ve Elektronik MühendisliğiTOBB Ekonomi ve Teknoloji Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. COŞKU KASNAKOĞLU

  4. Improving sample efficiency in reinforcement learning control using autoencoders

    Pekiştirmeli öğrenme kontrolde otokodlayıcılar ile örnekleme verimliliğini arttırma

    BURAK ER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA DOĞAN