Learning to drive in a simulated environment using deep reinforcement learning
Derin pekiştirmeli öğrenme kullanarak simüle edilmiş bir ortamda araç kullanmayı öğrenmek
- Tez No: 731857
- Danışmanlar: DR. ÖĞR. ÜYESİ YAKUP GENÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Gebze Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 55
Özet
Kendi kendini sürebilen araçlar yıkıcı bir teknoloji olabilir ve Derin Pekiştirmeli Öğrenme ile araç kullanmayı öğrenmek hala zorlu ve çözülmemiş bir problemdir. Uçtan uca pekiştirmeli öğrenme yöntemleri, son zamanlarda video oyunlarında ve belirli kendi kendine sürüş görevlerinde başarılı olduğu gösterilmiştir. Bu yöntemler çoğunlukla simülasyon ortamlarında veya oyunlarda çalışır ve amaçlanan sürüş politikasını yakalamak için iyi tanımlanmış ödül işlevlerine ve ayrıca çoğunlukla kullanılan sezgisel optimizasyon yöntemlerine (rasgele gradyan inişi gibi) büyük ölçüde güvenirler. Bu tezde, daha karmaşık bir 3 boyutlu sürüş simülasyonunun ara yüzü olan 2 boyutlu bir sürüş ortamı inşa edildi. Bu sürüş ortamı pekiştirmeli öğrenme algoritmalarının ihtiyaç duyduğu ödül fonksiyonuna sahiptir ve gözlemler sunar. Sıkça kullanılan Derin Q-Ağları algoritması bu ortamda sürüş politikası öğrenmek için başarılı bir şekilde eğitildi. Ancak, elde edilen sonuçlara göre öğrenilen sürüş politikası için çok sayıda deney gerekirken, tüm senaryoları çarpmadan bitirememekte ve düz bir şekilde hareket edememektedir. Pekiştirmeli öğrenmede optimal bir politikaya yakınsamak için çok fazla veri ve zaman gerekir. Bu yöntemlerin ihtiyaç duyduğu basit ödül fonksiyonları güvensiz ve istenmeyen sürüş politikalarına yol açabilir. Pekiştirmeli öğrenmede sonuçlar her zaman kolayca tekrarlanabilir değildir. Kapsayıcı bir ödül fonksiyonu tasarlamak yerine, gerçek sürücülerin yargılarından ödül fonksiyonu öğrenmeye çalışılabilir. Bu tezde, literatürdeki ödül fonksiyonu yakınsaması yöntemleri bir sürüş simülasyonunda çalışabilecek şekilde genişletildi. Bu yöntemler insanlardan toplanan geribildirimlerin yumuşatılması, insan sürüş örneklerinin kullanılması ve bozuk senaryoların tekrar edilmesi gibi özetlenebilir. Sonuç olarak elde edilen sürüş politikası diğer yöntemlere göre daha hızlı yakınsamıştır. Daha düzgün ve güvenli hareketlerle daha uzun süreler çarpmadan sürüş yapabilmektedir.
Özet (Çeviri)
Self-driving vehicles can be a disruptive technology and learning to drive with Deep Reinforcement Learning is still challenging and unsolved. End-to-end reinforcement learning methods recently have yielded successful models in video games and specific self-driving tasks. These methods primarily work on simulation environments, and they heavily rely on well-defined reward functions for capturing intended driving policy and mainly use heuristic optimization methods (such as stochastic gradient descent). This thesis builds a 2D driving environment appropriate to Reinforcement Learning algorithms while providing observations, applying actions, and giving rewards with its defined reward function. A generally used Deep Q-Networks algorithm trained on it successfully to learn a driving policy. However, it cannot move without collision in all scenarios, and it is also moving erratically. Although simple reward functions work very well for static environments, wrongly designed reward functions can lead to unsafe and unwanted driving policies. The optimization methods require a lot of data and time to converge. In this thesis, the research is enhanced by extending human-in-the-loop reinforcement learning to learn a driving policy. Instead of designing a reward function, one can capture it from actual drivers. As an extension, the smooth feedback mechanism is proposed to capture scenarios such as, instead of making a sharp turn, going for a gradual one. Furthermore, scenes repeated until the agent gained positive rewards, allowing the system to overcome the problematic states. Finally, explanation-based learning is applied by letting the user drive initially, and demonstrations used to be positive and negative feedback. The resulting method applied to the driving simulation environment yields successfully trained models. The method converged faster, and learned driving policy lasts longer without errors with smoother and safer movements than prior Reinforcement Learning and human-in-the-loop works.
Benzer Tezler
- Automated lane change decision making for autonomous vehicles using machine learning techniques
Makine öğrenmesi teknikleri ile otonom araçlarda şerit değişimine karar verme
MEHDI NASIRI
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. GÜLAY ÖKE GÜNEL
- Applications of deep reinforcement learning for advanced driving assistance systems
İleri sürüş destek sistemleri için derin pekiştirmeli öğrenme uygulamaları
MUHARREM UĞUR YAVAŞ
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR
- Driver behavior modeling
Sürücü davranış modellemesi
FERHAT MELİH DAL
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. LALE AKARUN ERSOY
- Data-driven delay estimation and anomaly detection: A study on European and Turkish air traffic
Veri güdümlü gecikme tahmini ve anomali tespiti: Avrupa ve Türkiye hava trafiği üzerine bir çalışma
MUHAMMET AKSOY
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DR. EMRE KOYUNCU
- Data efficient offline reinforcement learning & reinforcement learning with imitation learning applications to autonomous driving and robotics
Veri verimli çevrimdışı pekiştirmeli öğrenme & taklit öğrenmeyle pekiştirmeli öğrenme otonom sürüş ve robotik uygulamaları
FEYZA NUR EKSEN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE