Deep reinforcement learning off-policy algorithms for robotic manipulator control
Robotik manipülatör kontrolü için derin takviyeli öğrenme politikasız algoritmaları
- Tez No: 691613
- Danışmanlar: YRD. DOÇ. DR. VAHID TAVAKOL AGHAEI
- Tez Türü: Yüksek Lisans
- Konular: Mekatronik Mühendisliği, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
Yapay Zeka belirli görevleri yerine getirmek için, istatistik ve matematik kullanarak, insan zekasını taklit eden, elinde bulunan bilgilere dayanarak karar veren ve yeni bilgileri kullanarak hep kendini geliştiren sistemdir. Yapay Zeka sayesinde artık teknolojiyi farklı bir boyutta kullanıyoruz. Sağlık teknolojileri ile hastalıkları erken teşhisle belirliyor, otonom araçlarla yol güvenliği sağlıyor, akıllı ev asistanlarıyla hayatımızı daha verimli hale getiriyoruz. Robot teknolojilerinde de önemli boyutta kullanılan yapay zeka, fabrika verimliliğinin artırılmasından, ameliyatların daha hassas yapılmasına kadar geniş bir yelpazeye sahiptir. Özellikle bu teze konu olan robot kolların, farklı görevler için kontrolünde kullanılan karmaşık ve doğrusal olmayan modellerin daha basite indirgenmesinde Yapay Zeka önemli bir rol oynamaktadır. Yapay Zekanın öğrenme kademesi olan Makine Öğrenmesi temelde üç farklı öğrenme yöntemiyle verileri ayrıştırıyor ve bunları verimli şekilde kullanıyor. Gözetimli Öğrenme yöntemi etiketlenmiş verileri gerekli şekilde ayrıştırıp kullanmayı mümkün kılar. Gözetimsiz Öğrenme yöntemi ise çok büyük hacimde bulunan etiketlenmemiş verilerin sınıflandırılmasını ve ayrıştırılmasını çok daha kolay hale getirir. Bu çalışmaya konu olan Takviyeli Öğrenme yöntemiyle de optimizasyon ve kontrol konuları ele alınır. Diğer iki yöntemden farklı olan Takviyeli Öğrenme yönteminde sınıflandırma veya ayrıştırma yerine, veriler karar vermek için kullanılır. Takviyeli Öğrenme yönteminde bir ajan çevre ile etkileşime geçerek aldığı kararlar doğrultusunda bir ödül puanı kazanır ve kararlarını optimize ederek ödülünü yükseltmeye çalışır. Ödül-Ceza yöntemi ile çalışan bu yöntem, özellikle kontrol alanında yüksek verimlilik sağlamaktadır. Bu yöntemin temeli Markov Karar Sürecine dayanır ve olasılıksal kararlar doğrultusunda bir ilke (policy) eğitilir. Bu tezde ilke olarak Yapay Sinir Ağları kullanılarak Derin Takviyeli Öğrenme ile yedi serbestlik derecesine sahip bir Fetch robotu dört farklı görevi öğrenecek şekilde eğitilmiştir. Bu eğitimlerde üç farklı politikasız (off-policy), yani geçmişe dayalı tecrübeleri kullanan, yöntem olan DDPG, TD3 ve SAC algoritmaları kullanılmıştır. Bu algoritmalar aynı zamanda aktör-kritik zamansal fark metodu olup hem ilke hem de değer fonksiyonlarını optimize eder. Kontrollü olarak tek bir ortamda test edilen bu üç yöntemin verimliliği karşılaştırılmış ve bu gibi görevlerde en verimli ve en hızlı olacak yöntem seçilmiştir. Sonuç olarak, en hızlı algoritmanın belirlenmesi, ilerleyen süreçlerde otonom araç gibi yüksek parametreleri olan çalışmalarda daha başarılı sonuç almamıza olanak sağlayacaktır.
Özet (Çeviri)
With technological advancements, new world applications are developed to function under the control of artificial intelligence. In order to avoid conventional controlling methods which created obstacles due to the complexity of systems and intense demand on data density, engineers started developing modern, and therefore more efficient, controlling methods. One of the main processes that promoted the development of new methods is Machine Learning. Machine Learning is being utilized to control, classify and interpret data that has been inputted externally and is divided into three main branches: Supervised, Unsupervised and Reinforcement Learning. This specific thesis focuses on Reinforcement Learning, which is based on Markov Decision Process by being utilized for robotics control and in solving optimization problems. The applied method depends on the so-called 'penalty-reward' principle, by which it becomes possible to work on complex and nonlinear models, which can immensely hinder the process, and to acquire faster, more precise and efficient results. In this study, three Reinforcement Learning algorithms; DDPG, TD3 and SAC have been used to train Fetch robotic manipulator which has seven degrees of freedom, for four different tasks. All of these algorithms are off-policy and able to achieve their target by optimizing both policy and value functions. In this thesis it is intended to measure the efficiency of these three algorithms and test them in a single controlled environment.
Benzer Tezler
- Pekiştirmeli öğrenme ile robot kol yörünge kontrolü
Robotic arm trajectory control with reinforcement learning
ABDURRAHMAN SEFER DOĞRU
Yüksek Lisans
Türkçe
2022
Mekatronik MühendisliğiBursa Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET MERT
- Data efficient offline reinforcement learning & reinforcement learning with imitation learning applications to autonomous driving and robotics
Veri verimli çevrimdışı pekiştirmeli öğrenme & taklit öğrenmeyle pekiştirmeli öğrenme otonom sürüş ve robotik uygulamaları
FEYZA NUR EKSEN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
- Quadcopter trajectory tracking control using reinforcement learning
Pekiştirmeli öğrenme ile quadcopter yörünge takibi kontrolü
MUSTAFA ERDEM
Yüksek Lisans
İngilizce
2019
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERDİNÇ ALTUĞ
- A comparative study of deep reinforcement learning methods and conventional controllers for aerial manipulation
Derin pekiştirmeli öğrenme yöntemleri ve geleneksel kontrolcülerin havasal manipulasyon için karşılaştırmalı çalışması
KAZIM BURAK ÜNAL
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. SİNAN KALKAN
PROF. DR. AFŞAR SARANLI
- Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms
Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri
FURKAN BURAK MUTLU
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT
PROF. DR. SİNAN GEZİCİ
DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ