Curriculum learning for robot navigation in dynamic environments with uncertainties
Belirsiz dinamik ortamlarda robot seyrüseferi ı̇çin müfredatlı öğrenme
- Tez No: 896404
- Danışmanlar: DR. ÖZGÜR ERKENT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 92
Özet
Çalışmamızda, Derin Pekiştirmeli Öğrenme (DRL) ajanlarının eğitim sürecini daha da kolaylaştırmanın ve verilen görevlerde başarı oranını optimize etmenin bir yolunu bulmak istedik. Yakınsama hızını artırmak için müfredat öğrenme tekniklerini benimsedik. Otomatik araçların önemi her geçen gün artmakta ve bilinmeyen ortamlarda hedef arama gibi yetenekler daha fazla ilgi görmektedir. Bu da bizi, insan hayatının risk altında olduğu veya insanların bulunduğu ortamlarda hedef aramanın ve rota oluşturmanın ne kadar önemli olduğuna getiriyor. Bildiğimiz üzere karmaşık gerçek dünya uygulamalarında, güvenlik ve risk farkındalığı kaçınılmaz öneme sahiptir. Risk bilincine sahip sistemleri, bilinmeyen farklı ortamlarda, modelin yer belirlemede ve rota oluşturmada güvenilirliliğini test etmek için kullandık. Ayrıca eğitim sırasında karşılaşılmayan durumlarda modelin performansını görmek için de kullandık. Risk bilincine sahip olmayan sistemler, başarısızlıklara yol açacak optimal olmayan kararların alınmasına yol açabilir. Bu rota oluşturma çabaları yüksek hesaplama süresi gerektirir. Çarpışmasız bir şekilde, statik ve dinamik engeller arasında hareket edebilen, istenilen risk düzeyine, yüksek performans ve uyum yeteneğine sahip riske duyarlı, risk farkındalığının artırıldığı karar verme süreçlerini geliştirmek zorundaydık. DRL algoritmaları, öğrenme ve ödül sinyallerini hesaplama konusunda yeteneklerini gösterdiler. Ancak, uzun eğitim süreleri gerektirmeleri nedeniyle gerçek dünya uygulamaları için sınırlı uygulama alanına sahipler. Bu nedenle bizde Müfredat öğrenme ve DRL algoritmalarını kullanarak hedef odaklı bir model oluşturduk. Bunu yaparak daha hızlı yakınsama elde ettik, hedef arama süresini aynı miktardaki eğitim sayısı içerisinde azalttık. Çarpışma oranı azaldı. Eğitim sürecinde eğitimin hangi sırayla gerçekten zorlaştığını anlayabilmek adına, farklı yöntemlerle yapay ağ parametrelerine gauss gürültüsü enjekte ettik, farklı ortamlar kullandık, ajanın davranışını, tahmin başarısını görmek için sensör bilgilerini geciktirdik ve sadece statik engeller kullanarak, dinamik engeller kullanarak ve son olarak her iki engeli birden kullanarak sistemi test ettik. Simülasyon ortamlarının çoğu kısmen gözlemlenebilirken, tamamen gözlemlenebilir ortamlarda da sistemi test ettik, ancak DRL ajanlarının bu ortamları kolayca çözebildiğini gördük. Bu çalışmayı yapabilmek ve verimliliğini ölçmebilmek için 2 boyutlu bir simülasyon ortamı oluşturduk. Performansı, simülasyon sonuçlarının analizi ile doğrulandı. Ajanın verimliliğini toplam çarpma oranı metrikleri ile ölçtük. Deneyler, müfredat öğrenme yöntemi ile eğitilmiş ajanın daha iyi başarı oranına ulaştığını, daha iyi kontrol sağladığını, gürültülü koşullar altında daha iyi performans gösterdiğini ve bilinmeyen ortamlara daha hızlı uyum sağlayabildiğini göstermektedir.
Özet (Çeviri)
In our study we wanted to see if there is any way we can make the training process of a DRL agent much easier, and optimize the success rate in the given tasks. In order to increase the speed of convergence we adopted curriculum learning techniques. Since the importance of the automated vehicles are increasing day by day, and the capabilities such as target search in unknown environments are gaining more attention, that brings us to the importance of path generation, and the exploration of the environment, when human life is at risk or if humans exist in the environment. As we know in complex real-world applications, safety and risk awareness become unavoidable aspects. We used risk-aware systems in unknown environments for testing the model's robustness in localization and path generation to observe the performance under the situations that are not encountered during training. Systems that are not risk-aware may lead to suboptimal decisions that will lead to failures. These explorations require high computation time. We needed to make improved risk-aware decision making to train a risk-sensitive policy that can have high performance and adaptability to required risk. And can navigate in collision free manner, while acting among static and dynamic obstacles. DRL algorithms showed their capabilities, in learning also easy to compute reward signals. But they require long training times that makes them limited for real-world applications. Therefore, we used curriculum learning and DRL algorithms to build a goal-oriented model. By doing that we achieved faster convergence, search time for the targets is reduced for the same amount of training episodes. Collision rate is reduced. In the training process we wanted to understand in which order the training becomes really hard. For that reason we injected Gaussian noise to neural network parameters in different forms, we used different environments, delayed the sensory information to see the agents behavior, prediction success and also tested with only static obstacles, with dynamic obstacles, and finally we added both of the obstacles together. Many of the environments were partially observable, we also tested in fully observable environments as well, but we saw that DRL agents can solve these environments easily. In order to make this study and measure the efficiency, we build a 2D simulation environment. The performance is verified with results of the simulation analysis. We measured the efficiency of the agent, by collecting the total hit ratio metrics. Experiments show the agent with curriculum learning reaches a better success rate, is efficient at control, performs better under noisy conditions, can adapt faster to unknown environments.
Benzer Tezler
- Dynamic obstacle avoidance using reinforcement learning
Pekiştirmeli öğrenme kullanarak dinamik engel kaçınımı
MUHARREM KÜÇÜKYILMAZ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKAN USLU
- Hierarchical reinforcement learning in complex wargame environments
Kompleks savaş oyunu ortamlarında hiyerarşik pekiştirmeli öğrenme
KUBİLAY KAĞAN KÖMÜRCÜ
Yüksek Lisans
İngilizce
2024
Astronomi ve Uzay Bilimleriİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
- Self-collision aware reaching and pose control in large workspaces using deep reinforcement learning
Büyük çalışma alanlarında derin pekiştirmeli öğrenme tabanlı kendi kendine çarpışma farkındalığına sahip erişim ve poz kontrolü
TUMUÇİN BAL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BARIŞ AKGÜN
- 4. sınıf fen bilimleri dersi mikroskobik canlılar ve çevremiz ünitesinde robotik kodlama uygulamalarının öğrenme ürünlerine etkisi
The effect of robotic coding practices on learning products on microscopic living and environment unit at 4th grade science lesson
SERKAN ÇAKIR
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimZonguldak Bülent Ecevit ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ APDULLAH KORAY
- Fiziksel olaylar öğrenme alanı için Lego program tabanlı fen ve teknoloji eğitiminin öğrencilerin akademik başarılarına, bilimsel süreç becerilerine ve Fen ve Teknoloji dersine yönelik tutumlarına etkisi
The effect of Lego programme based science and technology education on the students academic achievement, science process skills and their attitudes toward Science and Technology course for pyhsical facts learning field
EDA ÖZDOĞRU
Yüksek Lisans
Türkçe
2013
Eğitim ve ÖğretimDokuz Eylül Üniversitesiİlköğretim Ana Bilim Dalı
PROF. DR. TEOMAN KESERCİOĞLU