Kapalı ortamlar için derin pekiştirmeli öğrenme algoritmaları ile mobil robotların navigasyonu
Navigation of mobile robots with deep reinforcement learning algorithms for indoor environments
- Tez No: 823541
- Danışmanlar: DR. ÖĞR. ÜYESİ ALPASLAN BURAK İNNER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 107
Özet
Mevcut mobil robotik araştırmalarındaki en önemli konulardan biri otonom navigasyondur. Navigasyon; yol planlama ve hareket planlama olarak iki kısımdan oluşur. Bununla birlikte yol ve hareket planlama, haritası çıkarılmamış ortamlarda zorlu bir görevdir. Bu zorlukları aşmak için son yıllarda derin pekiştirmeli öğrenme (DPÖ) yöntemleri sıklıkla kullanılmaktadır. Bu çalışmanın amacı, haritası çıkarılmamış ortamlarda düşük maliyetli sensörler kullanarak bir mobil robotun navigasyonu için derin pekiştirmeli öğrenme yöntemlerinin kullanımını araştırmak, modellemek ve kıyaslamaktır. Belirtilen amaca ulaşmak için iki aşamalı bir yöntem belirlenmiştir. Birinci aşamada kapalı bir oda ortamı iki boyutlu grid olarak temsil edilmiştir. Bu ortam üzerinde A2C, DQN, TRPO, PPO gibi ayrık eylem uzayında çalışabilen farklı pekiştirmeli öğrenme algoritmalarının performansları kıyaslanmıştır. Bu karşılaştırmayı yaparken belirli bir öğrenme kriteri eklenmiştir ve ayrıca epsilon değeri, adım sayısı gibi parametreler değiştirilerek eğitim ve test aşamalarındaki değişiklikler analiz edilmiştir. Değerlendirme ölçütü olarak bölüm başına alınan ortalama ödül kullanılmıştır. Daha yüksek ödül, bir robotun çarpışmadan veya zaman adımı sınırını aşmadan daha fazla sayıda hedefe ulaşabildiği anlamına gelir. Bu ortamlarda PPO ajanının daha başarılı olduğu görülmüştür. İkinci aşamada Gazebo benzetim ortamında üç boyutlu hazır ortamlarda algoritmaların performansı değerlendirilmiştir. Sürekli eylem uzaylarında çalışan TD3, SAC, PPO algoritmaları Gazebo ortamında kıyaslandı. 2B ortamında başarı sağlayan hiperparametreler 3B ortamda da kullanıldı. Bu şekilde TD3 ajanı daha başarılı sonuçlar almıştır. Son olarak ise hem ayrık hem de sürekli eylem uzayında çalışabilen ve 2B ortamda en başarılı olan PPO ajanı ile sadece sürekli eylem uzayında çalışan ve 3B ortamda başarısı görülen TD3 ajanı kıyaslandı ve gözlemler sonucunda TD3 ajanının daha başarılı olduğu görüldü.
Özet (Çeviri)
One of the most important topics in current mobile robotics research is autonomous navigation. Navigation consists of two parts: path planning and motion planning. However, path and motion planning is a challenging task in unmapped environments. To overcome these challenges, deep reinforcement learning (DRL) methods have been widely used in recent years. The aim of this work is to investigate, model and benchmark the use of deep reinforcement learning methods for navigation of a mobile robot using low-cost sensors in unmapped environments. In order to achieve the stated goal, a two-stage methodology was defined. In the first stage, an indoor room environment is represented as a two-dimensional grid. The performances of different reinforcement learning algorithms such as A2C, DQN, TRPO, PPO which can operate in discrete action space are compared on this environment. While making this comparison, a specific learning criterion was added and also parameters such as epsilon value, number of steps were changed and the changes in the training and testing phases were analyzed. The average reward per episode was used as the evaluation criterion. Higher reward means that a robot is able to reach a greater number of targets without colliding or exceeding the time step limit. The PPO agent was found to be more effective in these environments. In the second phase, the performance of the algorithms was evaluated in three-dimensional ready-made environments in the Gazebo simulation environment. TD3, SAC, PPO algorithms operating in continuous action spaces were compared in Gazebo environment. Hyperparameters that were successful in 2D environment were also used in 3D environment. Finally, PPO agent, which can work in both discrete and continuous action space and is the most successful in 2D environment, and TD3 agent, which works only in continuous action space and is successful in 3D environment, were compared and TD3 agent was more successful.
Benzer Tezler
- Deep reinforcement learning approach in control of Stewart platform- simulation and control
Stewart platformunun kontrolünde derin pekistirmeli öğrenme yaklaşımıc- simülasyon ve kontrol
HADI YADAVARI
Doktora
İngilizce
2023
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERHAT İKİZOĞLU
DR. ÖĞR. ÜYESİ VAHİT BARIŞ TAVAKOL
- Applications of deep reinforcement learning for advanced driving assistance systems
İleri sürüş destek sistemleri için derin pekiştirmeli öğrenme uygulamaları
MUHARREM UĞUR YAVAŞ
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR
- Binalarda enerji tüketimi ve kullanıcı termal konforu optimizasyonu için derin pekiştirmeli öğrenme tabanlı bina işletim stratejilerinin geliştirilmesi
Development of deep reinforcement learning based building operation strategies for energy consumption and user thermal comfort optimization in buildings
MERVE KURU ERDEM
Doktora
Türkçe
2024
İnşaat MühendisliğiEge Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLBEN ÇALIŞ
- Oscillation problems of the closed seas
Kapalı denizlerin salınım problemleri
SİNAN ÖZEREN
Yüksek Lisans
Türkçe
1997
Jeoloji Mühendisliğiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. H. NÜZHET DALFES
- Evaluation of groundwater resourges in the upper middle part of chaj doab area, Pakistan
Chaj Doab Pakistan bölgesinin üst-orta kısımlarında yeraltı suyu kaynaklarının incelenmesi
NİAZ AHMAD
Doktora
İngilizce
1998
Meteorolojiİstanbul Teknik ÜniversitesiUygulamalı Jeoloji Ana Bilim Dalı
PROF. DR. ZEKAİ ŞEN