Geri Dön

Applications of deep reinforcement learning for advanced driving assistance systems

İleri sürüş destek sistemleri için derin pekiştirmeli öğrenme uygulamaları

  1. Tez No: 856260
  2. Yazar: MUHARREM UĞUR YAVAŞ
  3. Danışmanlar: DOÇ. DR. TUFAN KUMBASAR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Otomotiv Mühendisliği, Computer Engineering and Computer Science and Control, Automotive Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Mekatronik Ana Bilim Dalı
  12. Bilim Dalı: Mekatronik Bilim Dalı
  13. Sayfa Sayısı: 119

Özet

Günümüzde ileri sürü¸s destek sistemleri her geçen gün yaygınla¸sıyor. Örne˘gin adaptif hız sabitleyici 1980 senesinden beri seri üretim araçların bazılarında bulunmasına kar¸sın, bugün hemen her yeni çıkan araç modelinde mevcut ve özellikle geli¸smekte olan teknoloji ile sıkı¸sık trafik durumlarında da kullanılabilir hale geliyor. Öte yandan otoban ortamları için geli¸stirilen otonom ¸serit ortalama fonksiyonu sayesinde, sürücülerin üzerindeki sürü¸s yükü giderek hafifliyor. Teknolojideki ilerleme ve yaygınla¸smanın temel sebeplerinden bir tanesi, çevre algıma sensörlerindeki ilerleme. Akıllı kamera ve radar sensörlerinden gelen verinin harmanlanması ile karar-alıcı algoirtmalar ¸seritlerin konumlarının yanı sıra, yoldaki di˘ger araçların da hız ve konumlarını yüksek do˘gruluk payı ile elde edebiliyor. Yapay zeka ara¸stırmlarındaki ilerlemeler sayesinde; etraftaki di˘ger araçların durumlarını de˘gerlendirerek seyir takip hızını, ne kadar gaz veya fren uygulanmasını gerekti˘gini ve son olarak ¸serit de˘gi¸stirme kararını derin peki¸stirmeli ö˘grenme ile gerçekle¸stirmek bu tezin ana konusudur. Derin peki¸stirmeli ö˘grenme, derin ö˘grenme devrimi ile ortaya çıkan yeni nesil yapay sinir a˘glarının peki¸stirmeli ö˘grenme teorisine yerle¸stirilmesi ile ortaya çıkmı¸stır. Önerilen metodlarda hem adaptif hız sabitleyici hem de otonom ¸serit de˘gi¸stirme fonksiyonlarında, derin peki¸stirmeli ö˘grenme ile tasarlanan karar-alıcılar klasik algoritmlardan hem daha optimum kararlar almı¸s hem de alınan kararların insan sürücüler ile olan benzerli˘gi ortaya konmu¸stur. Adaptif hız sabitleyici sistemler ço˘gunlukla en yakın mesafedeki aracın mesafe bilgisi kullanarak, güvenli sürü¸s mesafesini belirleyecek ivme miktarını hesaplar. Bu durum sürü¸s esnasında bütün trafi˘gi tarayarak, kendi kullandı˘gı aracın yakın çevresindeki dinamik unsurları hesaba katarak kullanan insan kullanımı ile uyumlu de˘gildir. Önerdi˘gimiz özgün çözümlerin bir tanesinde, adaptif hız sabitleyici fonksiyonunu model tabanlı derin peki¸stirme metodu ile tasarladık. Model tabanlı peki¸stirmeli ö˘grenmede, karar alma poliçesi sistemle etkile¸simini minimum seviyede tutmaya çalı¸sarak, e˘gitim sırasında kendi iç modelini kullanır. Dolayısı ile bir yapay sinir a˘gı karar alma poliçesini, ikinci bir a˘g ise iç modeli olu¸sturur. Bu ¸sekilde iki sinir a˘gını kapalı çevrim e˘gitmek için önerilen meta ö˘grenme yakla¸sımı ile, tek bir lider araç yerine iki lider araç bilgisini algoritma girdisi belirledik. Benzetim ortamında yaptı˘gı˘gımız de˘gerlendirmede, model tabanlı yapay zeka algoritması klasik akıllı sürücü modeline göre daha ba¸sarılı oldu. Öte yandan sistemin iç modeline ekledi˘gimiz bir sorug mekanizması ile, e˘ger karar alma poliçesindeki iç mmodel ile gerçek dünya gözlemleri belirli bir süre örtü¸smezse, klasik sürüc modeline geçi¸s yapan hibrit bir metod önerdik. xxv Adaptif hız sabitleyicler konusunda önerilen ikinci özgün çalı¸smada ise, insan sürüclerin araç kullanımından esinlenerek, do˘grudan gaz ve fren pedallarını manipule eden ayrık bir sürücü modeli önerdik. Gerçek hayattan toplanmı¸s bir veri setinden gerçekle¸stirilen analizde, öncelikle sürücülerin belirli gaz ve fren pedalında stabil halde sürdükleri ve dinamik ko¸sullarla, delta fren veya pedal uygulayarak ba¸sa çıktıkları görüldü. Bu veri seti üzerinden yapılan istatiksel çıkarım ile farklı gaz ve fren delta seviyeleri belirlendi. Yapay zeka algoritmasının girdileri olarak bu kez çok ¸seritli bir otobandaki, öz aracın önündeki bütün araçların konum ve hızları olarak belirlendi. Bir önceki çalı¸smamızdaki tek ¸serit iki lider aracın tek lider araçla çalı¸san algoritmalara üstünlü˘gü dü¸sünüldü˘günde, kom¸su ¸seritlerdeki araçların bilgisi öz aracın lider aracının de˘gi¸simi durumlarında yardımcı olacaktır. Karar alma algoritması olarak bu kez ayrık çıktılarda en iyi sonuçları veren derin Q ö˘grenme algoritması kullanıldı. Gerek benzetim gerekse gerçek test verileri üzerinde yapılan de˘gerlendirmelerde, önerilen algoritma en yüksek skoru elde etti. Özellikle taktiksel karar alma olarak de˘gerlendirebilece˘gimiz, hem gaz hem pedala hiç basmadan, 0 çıktı vererek, aracın kendi sürtünmeleri do˘grultusunda yava¸slaması, tasarlanan algoritma tarafından sıklıkla tercih edildi. Adaptif hız sabitleyici çalı¸smalarından çıkan özgün çıktılar ¸su ¸sekilde özetlenebilir: 1. ˙Insan sürücüler tek bir lidear araç yerine trafikteki öteki araçların da gelecek hamlelerini dü¸sünerek araç kullanır. 2. ˙Insan sürücüler sürü¸s sırasında birden fazla takip mesafesi kullanabilir. 3. Adaptif hız sabitleme problemi ayrık bir çıktı yapısı ile de ba¸sarılı biçimde tasarlanabilir. 4. ˙Insansı sürü¸s ve taktiksel karar alma için derin peki¸stirmeli ö˘grenme kullanan algoritmalar son derece ba¸sarılı olmu¸stur. 5. Ba¸sarım kriteri komfor, güvenlik ve insan sürü¸süne olan benzerlik olarak belirlenmi¸stir. Tez çalı¸smalarında ara¸stırlan di˘ger bir ileri sürü¸s destek sistemi, otonom ¸serit de˘gi¸stirme fonksiyondur. Burada gerçekle¸stirilen ilk özgün çalı¸smada, otonom ¸serit de˘gi¸stirme, derin peki¸stirmeli ö˘grenme metodu ile tasarlanmı¸s ve normalde oldukça uzun süren e˘gitim süreci önerilen güvenlik ödül geri beslemesi ile 5 kat hızlandırılmı¸stır. Otonom ¸serit de˘gi¸stirme probleminde, kritk olan, trafikteki ön ve arka olmak üzere bütün araçlardan gelen konum ve hız bilgilerinin i¸slenerek, do˘gru zamanda, güvenli biçimde, hız artı¸sına sebep verecek hamlelerin yapılmasıdır. Özellikle benztim ortamında yaratılan kopmpleks trafik senaryolarında, klasik algoritmalar sensör belirsizlikleri ve gürültülerinden olumsuz etkilenirken, ayrıca çoklu araçların dinamik sürü¸slerinde optimal performansı gösterememektedirler. Tasarlanan derin peki¸stirmeli ö˘grenme algoritmasnıda bulunan belirsizlik hesabı ile verilen kararların güven oranı gözlemlenerek, yapay zekanın önemli ara¸stırma alanlarından olan açıklanabilir yapay zeka konusunda da ilerleme kaydedilmi¸stir. Günümüzde derin peki¸stirmeli ö˘grenme tekniklerinin ula¸stı˘gı büyük ba¸sarılara ra˘gmen gerçek hayat uygulamalarında integrasyon sorunları ile kar¸sıla¸sılmaktadır. Öncelikle, algoritmaların e˘gitimi milyonlarca adım sürmekte, ve bu süreçte poliçeler deneme yanılma yöntemi ile ödülü maksimize etmeye çalı¸stı˘gından, gerçek sistemlerde e˘gitim mümkün de˘gildir. Önemli ara¸stırma alanlarından birisi, sim2real olarak adlandırılan transfer metodu ile simülasyonda e˘gitilen bir poliçeyi do˘grudan gerçek hayatta devreye almak ¸seklindedir. Otonom ¸serit de˘gi¸stirme konusunda yaptı˘gımız ikinci özgün çalı¸smada, sim2real transferin getirdi˘gimiz yeni yakla¸sım ile birisi dü¸sük çöznürlüklü, ötekisi yüksek çözünürlükte iki simülatör arasındaki transfer ile, transfer becerisini ölçümleyerek, gerçek hayata en iyi transferi sa˘gladık. Ayrıca yine bu çalı¸smada, ¸serit xxvi de˘gi¸stirme kararı verildi˘ginde ortaya çıkan trafik tablosunda üretilen insansı kullanma skoru ile, ödül fonksiyonunu düzenledik. Bu ödül fonksiyonu ile gerçekle¸stirilen e˘gitimde, önerdi˘gimiz metod referans metodları hem verimlilik ve güvenlik konusunda geride bıraktı hem de en yüksek insansı ¸serit de˘gi¸stirme skorunu elde etti. Tez boyunca yapılan özgün çalı¸smalarda derin peki¸stirmeli ö˘grenmenin; ileri sürü¸s destek sistemlerine yapaca˘gı katkılar açık ¸sekilde gözlemlenmi¸stir. Derin peki¸stirmeli ö˘grenme teknikleri kullanılarak önerilen adaptif hız sabitleyici ve otomatik ¸serit de˘gi¸stirme fonksiyonlarında hem daha yüksek performans elde edilmi¸s hem de gerçek sürü¸s verileri do˘grultusunda tanımlanan insansı sürü¸s kriterlerinde klasik algoritmalara üstünlük sa˘glanmı¸stır. Gerek tüketici anketlerinde gerek do˘gal sürü¸s veri setlerinde gözlemlenen durum, insanların trafi˘gin mevcut durumunu ve gelecekteki durumlarını dü¸sünerek takip mesafesi ve ¸serit de˘gi¸stirme kararı aldıklarını göstermektedir. Bu kararlar, trafikteki di˘ger araçların hız, konum ve gelecek tahminlerini içerdi˘ginden, klasik algoritmalar ile geli¸stirlen çözümler insansı kullanım metriklerinde geride kalmı¸stır. Öte yandan, yapay sinir a˘glarının do˘grusal olmayan modelleme becerisi ve peki¸stirmeli ö˘grenmenin taktiksel karar almadaki ba¸sarısı bir araya getirildi˘ginde, hem ideal takip mesafesi ve hızının belirlenmesinde hem de ¸serit de˘gi¸stirme kararında ba¸sarım oranı önemli ölçüde yükselmi¸stir. Bu çalı¸smanın, ileri sürü¸s destek sistemlerine olan katkısı dü¸sünülerek, bir çok yeni çalı¸smaya zemin hazırlayacağı düşünülmektedir.

Özet (Çeviri)

Nowadays, advanced driving support systems are becoming more prevalent every day. For instance, although adaptive cruise control has been present in some mass-produced vehicles since 1980, it is now available in almost every new vehicle model and is becoming usable, especially in congested traffic situations, with the help of developing technology. On the other hand, the autonomous lane centering function developed for highway environments reduces the driving load on drivers. One of the main reasons for the advancement and prevalence of technology is the progress in environmental perception sensors. Decision-making algorithms can obtain high-accuracy positions of lanes and other vehicles' speed and positions on the road by blending data from intelligent camera and radar sensors. Thanks to advancements in artificial intelligence research, the main topic of this thesis is to evaluate the conditions of surrounding vehicles to achieve cruise follow speed, the amount of gas or brake applied, and finally, the lane changing decision by deep reinforcement learning. Deep reinforcement learning is the integration of reinforcement learning theory into new generation artificial neural networks that emerged with the deep learning revolution. In the proposed methods, both the adaptive cruise control and autonomous lane-changing functions designed with deep reinforcement learning have taken more optimal decisions than classical algorithms and the similarity between the decisions taken and those taken by human drivers has been revealed. Adaptive cruise control systems typically calculate the amount of acceleration required to maintain a safe following distance by using information about the distance to the closest vehicle. However, this method is not compatible with human driving behavior, as it involves scanning the entire traffic and taking into account the dynamic elements surrounding the vehicle being driven. In one of our proposed solutions, we designed the adaptive cruise control function using a model-based deep reinforcement learning method. In model-based reinforcement learning, the decision-making policy uses its own internal model during training to minimize interaction with the system. Therefore, one artificial neural network creates the decision-making policy, while a second network creates the internal model. By using the proposed meta-learning approach to train the two neural networks in a closed-loop fashion, we selected two leader vehicle data inputs for the algorithm instead of a single one. In our simulation environment, the model-based artificial intelligence algorithm performed better than the classical intelligent driver model. Additionally, we proposed a hybrid method that switches to the classical driver model if the internal model and real-world observations do not match for a certain period of time, with a fallback mechanism added to the system's internal model. xxiii In the second proposed study on adaptive cruise control, we suggested a discrete driver model inspired by human drivers' use of gas and brake pedals to manipulate them directly. In the analysis performed using data collected from real life, it was observed that drivers were driving at a stable state with certain gas and brake pedals and coped with dynamic conditions by applying delta brake or pedal. Different gas and brake delta levels were determined through statistical inference based on this dataset. In this case, as the inputs of the artificial intelligence algorithm, the position and speeds of all vehicles in a multi-lane highway in front of the vehicle were determined. When considering the superiority of the algorithms that work with a single leader vehicle compared to two leader vehicles on a single lane, the information of the vehicles on the adjacent lanes will help in case of changes in the leading vehicle of the ego vehicle. The deep Q-learning algorithm, which provides the best results in discrete outputs, was used as the decision-making algorithm. In the evaluations performed on both simulation and real test data, the proposed algorithm obtained the highest score. Especially, slowing down the vehicle in line with its own friction by giving a 0 output without pressing both gas and brake pedals, which can be evaluated as tactical decision-making, was frequently preferred by the designed algorithm. The other advanced driver assistance system studied in the thesis work is the autonomous lane-changing function. In the first original study, autonomous lane-changing was designed using deep reinforcement learning method, and the normally long training process was accelerated 5 times with the proposed safety reward feedback. In the autonomous lane-changing problem, the critical task is to process the position and speed information from all vehicles in front and behind in traffic and make safe maneuvers that will cause speed increase at the right time. Especially in complex traffic scenarios created in simulated environments, classical algorithms are adversely affected by sensor uncertainties and noises, and they cannot show optimal performance in the dynamic driving of multiple vehicles. With the uncertainty calculation in the designed deep reinforcement learning algorithm, the confidence level of the decisions made is observed, and progress is made in the important research area of explainable artificial intelligence. It seems that although deep reinforcement learning techniques have achieved significant successes, they still face integration issues in real-world applications. One of the main problems is the lengthy training process, which can take millions of steps, and the fact that policies are optimized through trial and error, making training in real systems impossible. One promising area of research is sim2real transfer, which involves transferring policies trained in simulation directly to real-world applications. In the second original study on autonomous lane changing, a new approach was introduced to measure the transferability between two simulators with different resolutions. The transferability was evaluated using a human-like usage score generated from the traffic situations when lane-changing decisions were made. In the training process, an adjusted reward function was used, and the proposed method outperformed reference methods in terms of both efficiency and safety, achieving the highest human-like lane-changing score.

Benzer Tezler

  1. Automated lane change decision making for autonomous vehicles using machine learning techniques

    Makine öğrenmesi teknikleri ile otonom araçlarda şerit değişimine karar verme

    MEHDI NASIRI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    DOÇ. GÜLAY ÖKE GÜNEL

  2. A comparative study of nonlinear model predictive control and reinforcement learning for path tracking

    Yol izleme için doğrusal olmayan model öngörülü kontrol ve pekiştirmeli öğrenmenin karşılaştırmalı çalışması

    GAMZE TÜRKMEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. OVSANNA SETA ESTRADA

  3. Missile evasion maneuver generation with model-free deep reinforcement learning

    Modelden bağımsız derin pekiştirmeli öğrenme ile füzeden kaçınma manevraları

    MUHAMMED MURAT ÖZBEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    DOÇ. DR. EMRE KOYUNCU

  4. High-speed trajectory replanning and trajectory tracking for collision avoidance

    Çarpışma önlemek için yüksek hızlı rota planlama ve rota takibi

    MEHMET HASANZADE

    Doktora

    İngilizce

    İngilizce

    2021

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE KOYUNCU

  5. Novel sampling strategies for experience replay mechanisms in off-policy deep reinforcement learning algorithms

    Derin deterministik politika gradyani algoritmaları için yeni tecrübe tekrarı stratejileri

    FURKAN BURAK MUTLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN SERDAR KOZAT

    PROF. DR. SİNAN GEZİCİ

    DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ