Learning to drive in a simulated environment using deep reinforcement learning

Derin pekiştirmeli öğrenme kullanarak simüle edilmiş bir ortamda araç kullanmayı öğrenmek

PDF İndir

Tez No: 731857
Yazar: MUSTAFA CEMİL GÜNEY
Danışmanlar: DR. ÖĞR. ÜYESİ YAKUP GENÇ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Gebze Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 55

Özet

Kendi kendini sürebilen araçlar yıkıcı bir teknoloji olabilir ve Derin Pekiştirmeli Öğrenme ile araç kullanmayı öğrenmek hala zorlu ve çözülmemiş bir problemdir. Uçtan uca pekiştirmeli öğrenme yöntemleri, son zamanlarda video oyunlarında ve belirli kendi kendine sürüş görevlerinde başarılı olduğu gösterilmiştir. Bu yöntemler çoğunlukla simülasyon ortamlarında veya oyunlarda çalışır ve amaçlanan sürüş politikasını yakalamak için iyi tanımlanmış ödül işlevlerine ve ayrıca çoğunlukla kullanılan sezgisel optimizasyon yöntemlerine (rasgele gradyan inişi gibi) büyük ölçüde güvenirler. Bu tezde, daha karmaşık bir 3 boyutlu sürüş simülasyonunun ara yüzü olan 2 boyutlu bir sürüş ortamı inşa edildi. Bu sürüş ortamı pekiştirmeli öğrenme algoritmalarının ihtiyaç duyduğu ödül fonksiyonuna sahiptir ve gözlemler sunar. Sıkça kullanılan Derin Q-Ağları algoritması bu ortamda sürüş politikası öğrenmek için başarılı bir şekilde eğitildi. Ancak, elde edilen sonuçlara göre öğrenilen sürüş politikası için çok sayıda deney gerekirken, tüm senaryoları çarpmadan bitirememekte ve düz bir şekilde hareket edememektedir. Pekiştirmeli öğrenmede optimal bir politikaya yakınsamak için çok fazla veri ve zaman gerekir. Bu yöntemlerin ihtiyaç duyduğu basit ödül fonksiyonları güvensiz ve istenmeyen sürüş politikalarına yol açabilir. Pekiştirmeli öğrenmede sonuçlar her zaman kolayca tekrarlanabilir değildir. Kapsayıcı bir ödül fonksiyonu tasarlamak yerine, gerçek sürücülerin yargılarından ödül fonksiyonu öğrenmeye çalışılabilir. Bu tezde, literatürdeki ödül fonksiyonu yakınsaması yöntemleri bir sürüş simülasyonunda çalışabilecek şekilde genişletildi. Bu yöntemler insanlardan toplanan geribildirimlerin yumuşatılması, insan sürüş örneklerinin kullanılması ve bozuk senaryoların tekrar edilmesi gibi özetlenebilir. Sonuç olarak elde edilen sürüş politikası diğer yöntemlere göre daha hızlı yakınsamıştır. Daha düzgün ve güvenli hareketlerle daha uzun süreler çarpmadan sürüş yapabilmektedir.

Özet (Çeviri)

Self-driving vehicles can be a disruptive technology and learning to drive with Deep Reinforcement Learning is still challenging and unsolved. End-to-end reinforcement learning methods recently have yielded successful models in video games and specific self-driving tasks. These methods primarily work on simulation environments, and they heavily rely on well-defined reward functions for capturing intended driving policy and mainly use heuristic optimization methods (such as stochastic gradient descent). This thesis builds a 2D driving environment appropriate to Reinforcement Learning algorithms while providing observations, applying actions, and giving rewards with its defined reward function. A generally used Deep Q-Networks algorithm trained on it successfully to learn a driving policy. However, it cannot move without collision in all scenarios, and it is also moving erratically. Although simple reward functions work very well for static environments, wrongly designed reward functions can lead to unsafe and unwanted driving policies. The optimization methods require a lot of data and time to converge. In this thesis, the research is enhanced by extending human-in-the-loop reinforcement learning to learn a driving policy. Instead of designing a reward function, one can capture it from actual drivers. As an extension, the smooth feedback mechanism is proposed to capture scenarios such as, instead of making a sharp turn, going for a gradual one. Furthermore, scenes repeated until the agent gained positive rewards, allowing the system to overcome the problematic states. Finally, explanation-based learning is applied by letting the user drive initially, and demonstrations used to be positive and negative feedback. The resulting method applied to the driving simulation environment yields successfully trained models. The method converged faster, and learned driving policy lasts longer without errors with smoother and safer movements than prior Reinforcement Learning and human-in-the-loop works.

Benzer Tezler

Tez No
638083
Automated lane change decision making for autonomous vehicles using machine learning techniques
Makine öğrenmesi teknikleri ile otonom araçlarda şerit değişimine karar verme
MEHDI NASIRI
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. GÜLAY ÖKE GÜNEL
Tez No
856260
Applications of deep reinforcement learning for advanced driving assistance systems
İleri sürüş destek sistemleri için derin pekiştirmeli öğrenme uygulamaları
MUHARREM UĞUR YAVAŞ
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR
Tez No
765013
Driver behavior modeling
Sürücü davranış modellemesi
FERHAT MELİH DAL
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. LALE AKARUN ERSOY
Tez No
800513
Data-driven delay estimation and anomaly detection: A study on European and Turkish air traffic
Veri güdümlü gecikme tahmini ve anomali tespiti: Avrupa ve Türkiye hava trafiği üzerine bir çalışma
MUHAMMET AKSOY
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Uçak ve Uzay Mühendisliği Ana Bilim Dalı
DR. EMRE KOYUNCU
Tez No
955617
Swarm fighter aircraft control with deep reinforcement learning approach
Derin pekiştirmeli öğrenme ile sürü savaş uçaklarının kontrolü
METİN SARI
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. FİKRET ÇALIŞKAN

Geri Dön