Geri Dön

Learning to drive in a simulated environment using deep reinforcement learning

Derin pekiştirmeli öğrenme kullanarak simüle edilmiş bir ortamda araç kullanmayı öğrenmek

  1. Tez No: 731857
  2. Yazar: MUSTAFA CEMİL GÜNEY
  3. Danışmanlar: DR. ÖĞR. ÜYESİ YAKUP GENÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Gebze Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 55

Özet

Kendi kendini sürebilen araçlar yıkıcı bir teknoloji olabilir ve Derin Pekiştirmeli Öğrenme ile araç kullanmayı öğrenmek hala zorlu ve çözülmemiş bir problemdir. Uçtan uca pekiştirmeli öğrenme yöntemleri, son zamanlarda video oyunlarında ve belirli kendi kendine sürüş görevlerinde başarılı olduğu gösterilmiştir. Bu yöntemler çoğunlukla simülasyon ortamlarında veya oyunlarda çalışır ve amaçlanan sürüş politikasını yakalamak için iyi tanımlanmış ödül işlevlerine ve ayrıca çoğunlukla kullanılan sezgisel optimizasyon yöntemlerine (rasgele gradyan inişi gibi) büyük ölçüde güvenirler. Bu tezde, daha karmaşık bir 3 boyutlu sürüş simülasyonunun ara yüzü olan 2 boyutlu bir sürüş ortamı inşa edildi. Bu sürüş ortamı pekiştirmeli öğrenme algoritmalarının ihtiyaç duyduğu ödül fonksiyonuna sahiptir ve gözlemler sunar. Sıkça kullanılan Derin Q-Ağları algoritması bu ortamda sürüş politikası öğrenmek için başarılı bir şekilde eğitildi. Ancak, elde edilen sonuçlara göre öğrenilen sürüş politikası için çok sayıda deney gerekirken, tüm senaryoları çarpmadan bitirememekte ve düz bir şekilde hareket edememektedir. Pekiştirmeli öğrenmede optimal bir politikaya yakınsamak için çok fazla veri ve zaman gerekir. Bu yöntemlerin ihtiyaç duyduğu basit ödül fonksiyonları güvensiz ve istenmeyen sürüş politikalarına yol açabilir. Pekiştirmeli öğrenmede sonuçlar her zaman kolayca tekrarlanabilir değildir. Kapsayıcı bir ödül fonksiyonu tasarlamak yerine, gerçek sürücülerin yargılarından ödül fonksiyonu öğrenmeye çalışılabilir. Bu tezde, literatürdeki ödül fonksiyonu yakınsaması yöntemleri bir sürüş simülasyonunda çalışabilecek şekilde genişletildi. Bu yöntemler insanlardan toplanan geribildirimlerin yumuşatılması, insan sürüş örneklerinin kullanılması ve bozuk senaryoların tekrar edilmesi gibi özetlenebilir. Sonuç olarak elde edilen sürüş politikası diğer yöntemlere göre daha hızlı yakınsamıştır. Daha düzgün ve güvenli hareketlerle daha uzun süreler çarpmadan sürüş yapabilmektedir.

Özet (Çeviri)

Self-driving vehicles can be a disruptive technology and learning to drive with Deep Reinforcement Learning is still challenging and unsolved. End-to-end reinforcement learning methods recently have yielded successful models in video games and specific self-driving tasks. These methods primarily work on simulation environments, and they heavily rely on well-defined reward functions for capturing intended driving policy and mainly use heuristic optimization methods (such as stochastic gradient descent). This thesis builds a 2D driving environment appropriate to Reinforcement Learning algorithms while providing observations, applying actions, and giving rewards with its defined reward function. A generally used Deep Q-Networks algorithm trained on it successfully to learn a driving policy. However, it cannot move without collision in all scenarios, and it is also moving erratically. Although simple reward functions work very well for static environments, wrongly designed reward functions can lead to unsafe and unwanted driving policies. The optimization methods require a lot of data and time to converge. In this thesis, the research is enhanced by extending human-in-the-loop reinforcement learning to learn a driving policy. Instead of designing a reward function, one can capture it from actual drivers. As an extension, the smooth feedback mechanism is proposed to capture scenarios such as, instead of making a sharp turn, going for a gradual one. Furthermore, scenes repeated until the agent gained positive rewards, allowing the system to overcome the problematic states. Finally, explanation-based learning is applied by letting the user drive initially, and demonstrations used to be positive and negative feedback. The resulting method applied to the driving simulation environment yields successfully trained models. The method converged faster, and learned driving policy lasts longer without errors with smoother and safer movements than prior Reinforcement Learning and human-in-the-loop works.

Benzer Tezler

  1. Automated lane change decision making for autonomous vehicles using machine learning techniques

    Makine öğrenmesi teknikleri ile otonom araçlarda şerit değişimine karar verme

    MEHDI NASIRI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    DOÇ. GÜLAY ÖKE GÜNEL

  2. Applications of deep reinforcement learning for advanced driving assistance systems

    İleri sürüş destek sistemleri için derin pekiştirmeli öğrenme uygulamaları

    MUHARREM UĞUR YAVAŞ

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Mekatronik Ana Bilim Dalı

    DOÇ. DR. TUFAN KUMBASAR

  3. Driver behavior modeling

    Sürücü davranış modellemesi

    FERHAT MELİH DAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. LALE AKARUN ERSOY

  4. Data-driven delay estimation and anomaly detection: A study on European and Turkish air traffic

    Veri güdümlü gecikme tahmini ve anomali tespiti: Avrupa ve Türkiye hava trafiği üzerine bir çalışma

    MUHAMMET AKSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DR. EMRE KOYUNCU

  5. Data efficient offline reinforcement learning & reinforcement learning with imitation learning applications to autonomous driving and robotics

    Veri verimli çevrimdışı pekiştirmeli öğrenme & taklit öğrenmeyle pekiştirmeli öğrenme otonom sürüş ve robotik uygulamaları

    FEYZA NUR EKSEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NAZIM KEMAL ÜRE