Geri Dön

Deep reinforcement learning off-policy algorithms for robotic manipulator control

Robotik manipülatör kontrolü için derin takviyeli öğrenme politikasız algoritmaları

  1. Tez No: 691613
  2. Yazar: ALTUN RZAYEV
  3. Danışmanlar: YRD. DOÇ. DR. VAHID TAVAKOL AGHAEI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mekatronik Mühendisliği, Mechatronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 57

Özet

Yapay Zeka belirli görevleri yerine getirmek için, istatistik ve matematik kullanarak, insan zekasını taklit eden, elinde bulunan bilgilere dayanarak karar veren ve yeni bilgileri kullanarak hep kendini geliştiren sistemdir. Yapay Zeka sayesinde artık teknolojiyi farklı bir boyutta kullanıyoruz. Sağlık teknolojileri ile hastalıkları erken teşhisle belirliyor, otonom araçlarla yol güvenliği sağlıyor, akıllı ev asistanlarıyla hayatımızı daha verimli hale getiriyoruz. Robot teknolojilerinde de önemli boyutta kullanılan yapay zeka, fabrika verimliliğinin artırılmasından, ameliyatların daha hassas yapılmasına kadar geniş bir yelpazeye sahiptir. Özellikle bu teze konu olan robot kolların, farklı görevler için kontrolünde kullanılan karmaşık ve doğrusal olmayan modellerin daha basite indirgenmesinde Yapay Zeka önemli bir rol oynamaktadır. Yapay Zekanın öğrenme kademesi olan Makine Öğrenmesi temelde üç farklı öğrenme yöntemiyle verileri ayrıştırıyor ve bunları verimli şekilde kullanıyor. Gözetimli Öğrenme yöntemi etiketlenmiş verileri gerekli şekilde ayrıştırıp kullanmayı mümkün kılar. Gözetimsiz Öğrenme yöntemi ise çok büyük hacimde bulunan etiketlenmemiş verilerin sınıflandırılmasını ve ayrıştırılmasını çok daha kolay hale getirir. Bu çalışmaya konu olan Takviyeli Öğrenme yöntemiyle de optimizasyon ve kontrol konuları ele alınır. Diğer iki yöntemden farklı olan Takviyeli Öğrenme yönteminde sınıflandırma veya ayrıştırma yerine, veriler karar vermek için kullanılır. Takviyeli Öğrenme yönteminde bir ajan çevre ile etkileşime geçerek aldığı kararlar doğrultusunda bir ödül puanı kazanır ve kararlarını optimize ederek ödülünü yükseltmeye çalışır. Ödül-Ceza yöntemi ile çalışan bu yöntem, özellikle kontrol alanında yüksek verimlilik sağlamaktadır. Bu yöntemin temeli Markov Karar Sürecine dayanır ve olasılıksal kararlar doğrultusunda bir ilke (policy) eğitilir. Bu tezde ilke olarak Yapay Sinir Ağları kullanılarak Derin Takviyeli Öğrenme ile yedi serbestlik derecesine sahip bir Fetch robotu dört farklı görevi öğrenecek şekilde eğitilmiştir. Bu eğitimlerde üç farklı politikasız (off-policy), yani geçmişe dayalı tecrübeleri kullanan, yöntem olan DDPG, TD3 ve SAC algoritmaları kullanılmıştır. Bu algoritmalar aynı zamanda aktör-kritik zamansal fark metodu olup hem ilke hem de değer fonksiyonlarını optimize eder. Kontrollü olarak tek bir ortamda test edilen bu üç yöntemin verimliliği karşılaştırılmış ve bu gibi görevlerde en verimli ve en hızlı olacak yöntem seçilmiştir. Sonuç olarak, en hızlı algoritmanın belirlenmesi, ilerleyen süreçlerde otonom araç gibi yüksek parametreleri olan çalışmalarda daha başarılı sonuç almamıza olanak sağlayacaktır.

Özet (Çeviri)

With technological advancements, new world applications are developed to function under the control of artificial intelligence. In order to avoid conventional controlling methods which created obstacles due to the complexity of systems and intense demand on data density, engineers started developing modern, and therefore more efficient, controlling methods. One of the main processes that promoted the development of new methods is Machine Learning. Machine Learning is being utilized to control, classify and interpret data that has been inputted externally and is divided into three main branches: Supervised, Unsupervised and Reinforcement Learning. This specific thesis focuses on Reinforcement Learning, which is based on Markov Decision Process by being utilized for robotics control and in solving optimization problems. The applied method depends on the so-called 'penalty-reward' principle, by which it becomes possible to work on complex and nonlinear models, which can immensely hinder the process, and to acquire faster, more precise and efficient results. In this study, three Reinforcement Learning algorithms; DDPG, TD3 and SAC have been used to train Fetch robotic manipulator which has seven degrees of freedom, for four different tasks. All of these algorithms are off-policy and able to achieve their target by optimizing both policy and value functions. In this thesis it is intended to measure the efficiency of these three algorithms and test them in a single controlled environment.

Benzer Tezler

  1. Pekiştirmeli öğrenme ile robot kol yörünge kontrolü

    Robotic arm trajectory control with reinforcement learning

    ABDURRAHMAN SEFER DOĞRU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Mekatronik MühendisliğiBursa Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET MERT

  2. Data efficient offline reinforcement learning & reinforcement learning with imitation learning applications to autonomous driving and robotics

    Veri verimli çevrimdışı pekiştirmeli öğrenme & taklit öğrenmeyle pekiştirmeli öğrenme otonom sürüş ve robotik uygulamaları

    FEYZA NUR EKSEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NAZIM KEMAL ÜRE

  3. Quadcopter trajectory tracking control using reinforcement learning

    Pekiştirmeli öğrenme ile quadcopter yörünge takibi kontrolü

    MUSTAFA ERDEM

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERDİNÇ ALTUĞ

  4. A comparative study of deep reinforcement learning methods and conventional controllers for aerial manipulation

    Derin pekiştirmeli öğrenme yöntemleri ve geleneksel kontrolcülerin havasal manipulasyon için karşılaştırmalı çalışması

    KAZIM BURAK ÜNAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. SİNAN KALKAN

    PROF. DR. AFŞAR SARANLI

  5. Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms

    Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri

    FURKAN BURAK MUTLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN SERDAR KOZAT

    PROF. DR. SİNAN GEZİCİ

    DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ