Motion planning and control with randomized payloads using deep reinforcement learning
Derin pekiştirmeli öğrenme kullanarak rastgele yükler ile hareket planlama ve kontrol
- Tez No: 550541
- Danışmanlar: DOÇ. DR. VOLKAN SEZER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mekatronik Mühendisliği, Computer Engineering and Computer Science and Control, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 76
Özet
Yakın zamanda literatürde yaygın olarak kullanılmaya başlayan derin pekiştirmeli öğrenme algoritmaları, kendilerine farklı kullanım alanları bulmuştur. Günden güne gelişen teknolojide akıllı sistemler oldukça yaygın hale gelirken, bu akıllı sistemlerin kontrolü ve çevreden haberdar olması konuları hala üzerine çalışılan konulardır. Bu çalışmada da otonom forkliftler gibi değişken yükler altında çalışacak olan robotların hareket planlama ve kontrolü problemlerine farklı bir çözüm önerilmiştir. Önerilen yöntem ile robotların üzerlerindeki yükler altında nasıl hareket edebildiklerini derin pekiştirmeli öğrenme yöntemi ile öğrenmeleri sağlanmıştır. Ardından robotlar daha önceden kendilerine öğretilmiş olan görevi, öğretim zamanı kendilerine verilmemiş yük miktarlarında da tekrarlamış ve başarılı olmuşlardır. Endüstriyel robotların sadece güvenli değil aynı zamanda güvenilirliklerinden ödün verilmeksizin hızlı olması da beklenmektedir. Önerilen yöntem ile robotların sadece bir görevi yerine getirmesi değil aynı zamanda bu görevi klasik yöntemlerden daha hızlı yerine getirmeleri de sağlanmıştır. Bunun yanı sıra geliştirilen yöntem robot kontrolü için ham girdi sağladığından hareket planlama algoritmasının ayrıca bir düşük seviyeli hız kontrolcüsüne olan gereksinimini ortadan kaldırılmıştır. Böylece daha ucuz, daha güvenilir ve daha hızlı bir hareket planlama algoritması ortaya konulmuştur. Bütün bu bilgiler ışığında yöntemin endüstriyel alanlarda da kullanılabileceği düşünülmektedir. Bu çalışmada yeni bir hareket planlayıcı değişen bir sürekli zaman düşük seviye kontrolcü ile sunulmuştur. Bu hareket planlama algoritması farklı yükler altında çalışmakta olan diferansiyel tahrikli bir robot üzerinde test edilmiştir. Hareket planlayıcı, bir derin pekiştirmeli öğrenme metodu olan DDPG [1] algoritması ile eğitilmiş olup, yapay sinir ağının girdisi 11 boyutlu bir vektördür. Hareket planlayıcı bu 11 boyutlu durum vektörünü alıp, 2 boyutlu bir çıktı üretmektedir. Bu çıktılar ise diferansiyel tahrikli robotun iki motoru için o anda istenen tork değerleridir. Elde edilen bu tork değerleri robotun motorlarına yada eğer simülasyon ortamında çalışılıyor ise robotun dinamik modeline beslenmektedir. Ardından robotun içinde bulunduğu yeni 11 boyutlu durum vektörü yapay sinir ağına beslenip robot için bu yeni durumda istenecek tork değerleri hesaplanmaktadır. Daha önce yapılan derin pekiştirmeli öğrenme çalışmalarına bakıldığında, kavşak geçiş probleminin farklı kütleler altındaki robotlar için değerlendirilmediği görülmüştür. Bu çalışmanın uygulama alanı olarak özellikle robot yüklerinin değişebildiği servis robotları ve endüstriyel yük robotları için yararlı olacağı düşünülmektedir. Bu çalışmada derin pekiştirmeli öğrenme metodu tabanlı bir hareket planlayıcısı, dinamik ve kinematik bağlılıkları da gözeterek ele alınmıştır. Sistem üç ana parçadan oluşmaktadır; bunlardan ilki yapay sinir ağı, ikincisi robotun dinamik modeli (gerçek robot uygulamalarında robotun kendisi), üçüncüsü ise robotun bulunduğu ortamdır. Yapay sinir ağı giriş katmanı, iki tümüyle bağlı gizli katman ve bir çıkış katmanından oluşmaktadır. Robotun dinamik modeli Euler - Lagrange metodu kullanılarak elde edilmiştir. Ortam ise simülasyon ortamı yada eğer gerçek robot kullanılıyorsa, gerçek fiziksel ortam olarak düşünülmelidir. Ortamdan alınan durum vektörünün girdilerinden bazıları sensörler yardımı ile verilmiş, bazıları ise bilinen parametreler olup direkt olarak elle girilmiştir. Sensörler vasıtasıyla elde edilenlere lidar sensörü ile elde edilen en yakın cismin uzaklığı ve göreceli açısı verilebilir. Elle girilenlere örnek olarak ise robotun yükü örnek olarak gösterilebilir. Robotun yükü bilindiği ve görev tamamlanana kadar değişmediği için statik olarak elle verilmiştir. Simülasyon sonuçlarına bakıldığında, geliştirilen metot ile hareket eden robotun, daha önce eğitim zamanında verilmemiş olan yükler altında bile %98:2 oranla başarılı olduğu gözlemlenmiştir. Bir diğer yapay sinir ağı da karşılaştırma amaçlı, hiç yük verilmeden eğitilmiş ve eğitimi tamamlandıktan sonra test edilirken farklı yükler verilmiştir. Ardından iki yapay sinir ağı algoritmasının performansları değişken yükler altında test edilmiş ve eğitim zamanı kendisine farklı yükler verilen yapay sinir ağı, diğer yapay sinir ağını %40'tan fazla bir performans farkı ile geçmiştir. Bu sonuçlara bakılarak kavşak geçiş problemlerinde yük robotlarının kendi yüklerinden haberdar olmasının önemi ortaya konulmuştur. Ardından önerilen yöntem ile TTC (Time To Collision) algoritmasının karşılaştırılması gerçekleştirilmiştir. TTC algoritmasında farklı süre eşikleri ile geçiş kararı verilmekte olup, bu eşik kavşağa yaklaşan diğer robotun ne kadar süre sonra kavşakta olacağını belirtmektedir. Eğer verilen eşik değeri, diğer robotun kavşağa geliş süresinden düşükse o halde geçiş kararı alınmakta olup, değilse diğer robotun geçişine izin verilip ardından geçiş kararı alınmaktadır. TTC'ye verilen eşik değeri arttırıldıkça algoritmanın kazasız geçiş performansı ve geçiş için harcanan süre artmaktadır. Bu nedenle karşılaştırma yapılırken iki parametreye dikkat edilmiştir. Bunlardan birisi kazasız geçiş oranı, diğeri ise kazasız geçişler için harcanan ortalama süredir. Karşılaştırmanın doğru şekilde yapılabilmesi için yeni yapay sinir ağı eğitilmiş ve bu sefer durum vektörü 11 boyutludan 5 boyutluya indirgenmiştir. Bu 5 boyutlu vektör; robotun o anki sahip olduğu yük, robota en yakın cismin uzaklğı ve cismin robota göre açısı, robotun kendi hızı ve kavşağa yaklaşan diğer robotun hızından oluşmaktadır. TTC algoritmasında geçiş kararı alındığında iki motora alabilecekleri en yüksek torklar verildiği için, yapay sinir ağına sahip robotun da iki motora aynı torku uygulayarak düz bir geçiş yapmasını sağlamak adına yapay sinir ağının çıktı sayısı ise 1'e düşürülmüştür. Yapay sinir ağının uygulayacağı tork miktarına müdahale edilmemiş olup, motorların desteklediği aralıklarda istediği torku uygulamasına izin verilmiştir. Yapılan karşılaştırma sonuçlarında önerilen yöntem ile geçiş yapan robotun kazasız geçme oranı TTC ile çalışan robottan %3 fazla (Önerilen %99:4, TTC %96:4) iken, aynı zamanda harcanan zaman kıyaslamasında da önerilen yöntemin %9:6 daha az (Önerilen 10:82s, TTC 11:97s) zaman harcadığı gözlemlenmiştir. TTC'nin eşiği arttırılıp %100 kazasız geçmesi sağlandığında ise, TTC kazasız geçişlerde sadece %0:6 fark oluşturmuş, fakat %17:8 daha fazla zaman harcamıştır. TTC ile karşılaştırma için eğitilmiş olan yapay sinir ağı, gerçek robot üzerinde de uygulanmıştır. Gerçek uygulama için iki senaryo belirlenmiştir. Bunlardan ilki robotun hiç yükünün olmadığı senaryo olup, diğeri ise robotun 10kg yüke sahip olduğu senaryodur. Her iki durumda da yapay sinir ağına sahip robot aynı noktadan başlatılmıştır. Yine her iki durumda da kavşağa yaklaşmakta olan diğer robotun başlangıç anındaki pozisyonu ve hızı değiştirilmemiştir. Yapılan gözlemlerde yapay sinir ağına sahip robotun yüksüz olduğu durumda diğer robotu beklemeden geçtiği, üzerinde 10kg yük varken ise diğer robotun geçişini tamamlamasının ardından geçiş yaptığı gözlemlenmiştir.
Özet (Çeviri)
In this thesis, it is presented a unified motion planner with low-level controller for continuous control of a differential drive mobile robot under variable payload values. The deep reinforcement agent takes 11 dimensional state vector as input and calculates each wheel's torque value as a 2 dimensional output vector. These torque values are fed into the dynamic model of the robot, and lastly steering commands are gathered. In previous studies, intersection navigation solutions that uses deep - RL methods, have not been considered with variable payloads. This thesis is focused specifically on service robotic applications where payload is subject to change. In this thesis, deep-RL based motion planning is performed by considering both kinematic and dynamic constraints. According to the simulations in a dynamic environment, the agent successfully navigates to target with 98.2% success rate in test time with unseen payload masses during training. Another agent is also trained without payload randomization for comparison. Results show that our agent outperforms the other agent, that is not aware of its own payload, with more than 40% gap. Another network is also trained with variable payload information, but this time dimension of the input state vector is reduced to 5 and output dimension of the neural network is reduced to 1. This neural network structure is used to compare our method with TTC algorithm. Two parameters are selected for comparison, these are; ratio of reaching target and average time that is spent to reach the target. Since TTC has time threshold and when it decides to move, both robot wheels takes maximum torque and it directly goes to the target, for making the comparison just, output dimension of the neural network is reduced to 1 to make it goes directly to the target when it decides to move. But torque values are still controlled by the neural network itself. Results of the comparisons show that while agent is outperformed the TTC algorithm by 3% for collision-free passages, it also uses 9:6% less time to reach the goal. But of course as time threshold of TTC is increased, its collision-free performance is also increases. So, for the threshold that makes TTC to reach 100% percent collision-free performance. It also increased time that is spent to accomplish the task. While TTC reach to 100% collision free performance which is only 0:6% more than our agent, it spends 17:8% more time than our agent. Hence, it is clearly shown that proposed method not only robust but also faster than the conventional methods. After the simulation results, same learned neural network parameters, which is used in comparison with TTC, are applied to the real world robots. Same behaviors are observed and our agent is accomplished to reach to the target. In the real world application, in order to remove all the environmental affects, only the dummy robot is left in the detection range of the agent robot. For the detection a lidar sensor is used. Only the nearest object that lidar detect is used as an input. These inputs from the lidar sensor are relative angle of the detected robot and its distance. Two scenarios are selected for real world application, these are; when agent has no payload and when agent has 10kg payload. In both scenarios, initial position and velocity of obstacle robot are kept same. In the first scenario, when there is no payload, agent passes across the junction without waiting incoming obstacle robot and in the second scenario when agent has 10kg payload, agent is waited for obstacle robot to pass, and then pass across the junction.
Benzer Tezler
- Hızlıca keşfeden rastgele ağaç yöntemi ile insansı robot kolu yörünge planlaması
Trajectory planning of a humanoid robot arm by using rapidly-exploring randomized tree method
BURAK BOYACIOĞLU
Yüksek Lisans
Türkçe
2016
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. ŞENİZ ERTUĞRUL
- Real-time physics-based motion control with an efficient inverse dynamics method
Verimli bir ters dinamik yöntemi ile gerçek zamanlı fiziksel hareket kontrolü
ERSAN KAVAFOĞLU
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Grafiği Ana Bilim Dalı
YRD. DOÇ. DR. SERDAR ARITAN
- Motion planning and control of underactuated systems over optimized trajectories
Kısıtlı tahrikli sistemlerin optimize yörüngeler üzerinde hareket planlaması ve kontrolü
EMİNALP KOYUNCU
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA MERT ANKARALI
- Birden fazla gezgin robotla nesne taşıma için hareket planlama ve kontrol
Motion planning and control scheme for cooperative transportation by multiple mobile robots
ALPASLAN YUFKA
Yüksek Lisans
Türkçe
2010
Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. METİN ÖZKAN
- Feedback motion planning with stochastic model predictive control
Olasılıksal model tahminlemeli kontrol ile geri beslemeli hareket planlama
TUVANA DENİZ DEVECİ
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA MERT ANKARALI
PROF. DR. AFŞAR SARANLI