Advanced reinforcement learning applications in autonomous driving
Otonom araçlarda ileri pekiştirmeli öğrenme uygulamaları
- Tez No: 688768
- Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Ulaşım, Computer Engineering and Computer Science and Control, Science and Technology, Transportation
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Uçak ve Uzay Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Uçak ve Uzay Mühendisliği Bilim Dalı
- Sayfa Sayısı: 89
Özet
Son yıllarda yapay zeka ve uygulamaları buzdolaplarından kullandığımız araçlara kadar her yerde görülmeye başlandı. İnsanların hayatını kolaylaştıran ve fayda sağlayan bu uygulamalar, bilim adamlarını bu uygulamaları geliştirmek için hep daha fazla çalışmaya teşvik etti. İnsan hayatını kolaylaştıran ve bilim adamlarının da üzerinde yoğun olarak üzerinde çalıştığı en temel yapay zeka uygulamalarından biri de otonom araçlar üzerine yapılan çalışmalardı. İnsanların A noktasından B noktasına hiçbir gayret göstermeden hareket edebileceği fikri her zaman insanları heyecanlandırmıştır. Özellikle bilgisayar ve bilişim teknolojileri alanındaki inanılmaz hızlı gelişmeler, silikon boyutlarının küçülmesi ve verimliliklerinin artması ile otonom araçların yetenekleri de önemli ölçüde arttı. Ancak tüm bunlara karşı otonom araçların daha da yaygınlaşması için hala çözülmesi gereken birkaç temel problem bulunuyor. İnsan hayatlarını makinelere emanet etmek başlı başına bir etik problemi iken, trafikteki yayalar ve diğer araçlar gibi aktörler de göz ününe alındığında güvenlik, çözülmesi gereken problemler listesinde ilk sırayı alıyor. Otonom araçların performansları ve dolayısıyla da güvenlikleri hava koşulları, yol geometrileri, o anki trafiğin akışı gibi bir çok koşuldan etkileniyor. Bu sorundan yola çıkarak bu tez üzerinde ileri pekiştirmeli öğrenme ve derin öğrenme teknikleri kullanılarak iki farklı çalışma gerçekleştirildi ve yapılan çalışmalar ile otonom araçların güvenlikleri ve farklı koşullar altında adapte olabilme yeteneklerinin iyileştirilmesi hedeflendi. Tez kapsamında yapılan ilk çalışmada, belirsiz ve dinamik ortamlarda eğitilen pekiştirmeli öğrenme modellerinin farklı ortamlara adapte olma yetenekleri iyileştirilmeye çalışıldı. Geçmiş çalışmalar incelendiğinde, şerit değiştirme ve adaptif hız kontrolü gibi konular yeteri kadar olgunlaşmış olsa da şerit değiştirmenin hala üzerinde uğraşılan bir problem olduğu görülür. Bir karar verme problemi olarak düşünüldüğünde şerit değiştirme aksiyonları, genel olarak literatürde o anki trafik kondisyonlarının dikkate alınmadığı ve problemin yerel bir bakış açısıyla değerlendirildiği uygulamalar şeklinde karşımıza çıkar. Çoğu durumda otoyoldaki trafiğin karmaşık dinamiklerini anlamak için stratejik bir karar verme yaklaşımıyla problemi çözmeye çalışmak gerekir. Genel olarak bakıldığında pekiştirmeli öğrenme ajanları gerçek dünya koşullarında, eğitildikleri simülasyon ortamına kıyasla daha kötü performans sergilemektedirler. Bunun asıl sebebi ise eğitilmiş oldukları simülasyon ortamlarının kural ve algoritma tabanlı olmaları ve gerçek dünya koşullarını yeteri kadar simüle edememelerinden kaynaklanmaktadır. Bu problemle başa çıkabilmek için ilk etapta pekiştirmeli öğrenme ajanlarının eğitimi ve değerlendirimlesi üzere kullanılması için bir özelleştirilebilir otoyol simülatörü tasarlandı. Tasarlanan bu simülatör üzerinde otoyoldaki şerit sayısı ve otoyol üzerinde bulunan araçlar gibi farklı parametrelerin ortamın zorluğunu kolayca değiştirmek için özgür bir şekilde değiştirilmesi de mümkün kılındı. İkinci aşamada ise, oluşturulan simülatör üzerindeki diğer araçların hareketlerini olabildiğince gereç hayata yakın bir şekilde oluşturmak için, gerçek araçların trafikteki konum ve hızlarını içeren NGSIM adındaki veri seti kullanılarak GAN bazlı bir yörünge üreticisi eğitildi. Simülasyon ortamının ve yörünge üreticisinin hazırlanmasından sonra 2 farklı pekiştirmeli öğrenme ajanı eğitildi. İlk ajan IDM ve MOBİL algoritmalarını kullanan kural bazlı simülatör ortamında eğitildi. İkinci pekiştirmeli öğrenme ajanı ise, trafikteki araçların hareketlerini olabildiğince gerçek hayattaki gibi simüle etmeye çalışan ortamda eğitildi. Daha sonra bu iki ajan hem birbirleriyle hem de kural bazlı algoritmalarla simülatörün her iki halinde de test edilip karşılaştırıldı. Çalışmalardan sonra da kullanılan GAN bazlı yörünge üreticinin performansını arttırmak için kod üzerinde bazı modifikasyonlar yapıldı. Özellikle SocialGAN mimarisi içinde bulunan pooling modülü, rasterizasyon ile hareket eden ve convolüsyonel işlemden geçen bir yapıyla değiştirildi. Aynı frame üzerindeki araçlar birbirelerine göre olan konumlarına göre bir tuval üzerine yerleştirildi ve araçların hızlarına göre de filtreler uygulandı. Toplamda 3 adet farklı filtre denendi. Bunlar sırasıyla Gaussian kernel, 1D ve 2D kerneldir. Eğitimler yapıldıktan sonra 3 farklı veriseti üzerinde test edildi. Bunlardan ikisi yaya tabanlı verisetleri olan zara1 ve univ verisetleri, diğeri ise LYFT tarafından üretilen otonom araç verisetidir. Sonuçlar incelendiğinde yeni metodun eskisine nazaran daha yüksek bir doğrulukla yörünge üretebildiği gösterilmiştir. Tez kapsamında yapılan ikinci çalışmada ise eğitilen pekiştirmeli öğrenme ajanlarının farklı yol geometrileri ve hava koşulları altında performanslarının iyileştirilmesi amaçlandı. Her ne kadar pekiştirmeli öğrenme uygulamaları otonom araçlar kısmında popüler olarak kullanılsa da farklı hava ve trafik koşulları altında eğitilen bu ajanların her daim yüksek performans sergilemesini sağlamak hala çok açık bir problemdir. Özellike farklı bir kaç kondisyonda iyi performans almaya çalışmak hem insanların problemi uygun hale getirmesi hem de yapılan eğitimlerin süresi açısından çok zaman alır. Müfredat stratejisi ise basit ve ufak problemleri gittikçe zorlaşan bir şekilde çözmeye çalışır ve genel olarak performansı arttırmayı hedefler. Eğitilen ajanların farklı ortamlarda da yüksek performans almasını sağlamak için yapılan bu çalışma kapsamında planlı bir müfredat takip edildi. Simulator tarafında gerçekçi bir şekilde araç dinamiklerini modelleyebilen ve SimStar adında bir simülatör kullanıldı. Eğitim için bu simülatör üzerinde toplamda 3 adet (düz yol, U dönüşü, tam pist) farklı yol ve 3 adet (kuru, yağmurlu, karlı) farklı hava kulanıldı. Değişen hava koşullarına göre pist ve tekerlek üzerindeki sürtünme katsayısı simülatör üzerinde değiştirildi ve ortamların zorlukları ayarlandı. Tüm ayarlamalar yapıldıktan sonra toplamda 5 adet faklı müfredat oluşturuldu. Bu müfredatlar genel olarak kolay bir yol geometrisi ve hava koşulundan başladı ve gittikçe zorlaşan koşullar kullanılarak hazırlandı. Yol zorlukları her yol üzerinden yapılan ayrı eğtimler sonucunda belirlendi. En kolay yol düz yol ve kuru hava olarak olarak seçilirken en zor yol da tam pist ve karlı hava oldu. Müfredatlar da oluşturulduktan sonra tüm yol geometrilerinin tüm kombinasyonları için referans olması açısından her kombinasyonda sıfırdan pekiştirmeli öğrenme ajanları eğitildi. Düz yol olan senaryolar 75000 iterasyon, U dönüşü olan yollar 50000 iterasyon ve tam pis olan yol da 200000 iterasyon boyunca eğitildi. Sonuçlar kaydedildikten sonra da 5 farklı müfredatın hepsi için ayrı ayrı ajanlar eğitildi. Bu ajanların her yol için eğitileceği iterasyon miktarı daha önceden belirlendi ve her müfredat içinde bir yol için eğitim bittikten sonra, model sonraki yola taşındı ve eğitim kaldığı yerden devam ettirildi. Toplam müfredat eğitimi iterasyon bütçesi 200000 olarak belirlendi ve bu limit sonunda eğitimler durduruldu. Daha sonra da eğitilen referans ajanların sonuçları ile müfredat stratejisi sonucunda eğitilmiş ajanların performansları karşılaştırıldı. İlk çalışmanın sonuçları, dinamik ve değişken bir ortamda eğitilen pekiştirmeli öğrenme ajanının, statik ortamda eğitilen ajana kıyasla çok daha iyi performans gösterdiği görüldü. Eğitilen ajan arasında yapılan karşılaştırmalar simülatörün hem dinamik hem de statik hali kullanılarak yapıldı. Statik ortamda yapılan karşılaştırmalarda, dinamik ortamda eğitilen ajanın, statik ortamda eğitilen ajana göre bazı senaryolarda hiç kaza yapmadığını, bazı senaryolarda ise daha az kaza yaptığını gösterdi. Simülatörün dinamik halinde yapılan karşılaştırmalarda ise her iki ajan da MOBİL algoritması ile kıyaslandı. Bu kıyaslamalarda da dinamik ortamda eğitilen ajan hem MOBİL algoritmasına hem de statik ortamda eğitilen ajana göre çok daha yüksek sonuçlar aldı. Statik ortamda eğitilen ajan ise, dinamik ortamda çok kötü bir performans sergiledi. İkinci çalışmanın sonuçlarıda ise müfredat yaklaşımının sağladığı faydalar gözlemlendi. Müfredat yaklaşımını kullanmak hem ajanların aldıkları en yüksek ödül miktarını kaydadeğer bir şekilde arttırdı, hem de bu ödüllere ulaşma sürelerini kısalttı. Referans olarak eğitilen modeller bazı hava koşulları ve yol geometrilerinde yolu tamamlamayı başaramazken, müfredat yaklaşımı ile eğitilen modeller farklı koşullara daha iyi bir şekilde adapte olup pistleri basarıyla tamamladı ve bazı koşullarda 10 kata kadar daha fazla ödül topladı. Tez kapsamında yapılan her iki çalışmada da, pekiştirmeli öğrenme eğitimlerine ilk etapta kısmen daha kolay bir ortamda başlayıp daha sonra bu eğitime daha zor bir ortamda devam etmenin hem ajanların performanslarını arttırdığı, hem de farklı koşullara adapte olma yeteneklerini geliştirdiği gözlemlendi.
Özet (Çeviri)
Autonomous vehicles becoming an important part of our lives. With the improvements in the field of computer science, the capabilities of autonomous vehicles have also increased. However, there are still some problems in the field of autonomous vehicles that needs to be solved like traffic safety. In that sense, two different studies which use advanced reinforcement learning techniques, have been carried out in this thesis in order to improve the safety and generalization capabilities of the self driving vehicles. The main goal of the first study is to improve the generalization capabilities of such self driving agents in uncertain traffic scenarios and highway environments. Reinforcement learning agents tends to perform worse on real world scenarios because, they are usually trained on rule based simulators which fails to simulate the real world conditions. To tackle with this, as a first step, a custom made highway simulator has been created for the purpose of training a reinforcement learning agent and evaluating it on the same environment. This environment is highly customizable and parameters like the total vehicle count and number of lanes can be changed to change the difficulty of the environment. In the second step a GAN based trajectory generator has been trained from the real world NGSIM dataset in order to predict and simulate real world behavior of the vehicles in the created environment. After the creation of the environment and the trajectory generator, 2 reinforcement learning agents have been trained. The first agent has been trained in the rule based version of the simulator. The second agent has been trained in the version where the trajectories of the vehicles have been generated by the said trajectory generator. Then the two agents have been compared in the both versions of the simulator. The main goal of the second study is to increase the performance of the trained reinforcement learning agents on different weather conditions and complex road geometries. In order to achieve this, a structured curriculum approach has been followed. A simulator called SimStar, which can simulate vehicle dynamics realistically has been used. 3 different types of roads have been created to be used in the training process and the friction coefficient between the tires and the road have been adjusted according to different weather types in the simulator. After that, 5 different curricula have been created. These curricula consist of the combination of 3 road geometries and 3 weather types. In order to make the results comparable, for each weather and road combination, a reinforcement learning agent has been trained and results have been recorded. After the training of the base agents, 5 different agents have been trained on 5 curricula. The results of the curriculum trainings and base agent trainings have been compared with each other. The results of the first study shows that the reinforcement learning agent which has been trained on the dynamic environment performed superbly compared with the agent trained on the rule based environment. The dynamic agent has also performed better than the rule based algorithms in the dynamic environment. The results of the second study shows that using a curriculum approach increased the performance of the trained reinforcement learning agent and decreased the convergence time in different weather and road conditions. In both studies, it is possible to say that training a reinforcement learning agent on a relatively simple environment, then continuing the training process in a more complex environment resulted in a performance increase.
Benzer Tezler
- A comparative study of nonlinear model predictive control and reinforcement learning for path tracking
Yol izleme için doğrusal olmayan model öngörülü kontrol ve pekiştirmeli öğrenmenin karşılaştırmalı çalışması
GAMZE TÜRKMEN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. OVSANNA SETA ESTRADA
- Applications of deep reinforcement learning for advanced driving assistance systems
İleri sürüş destek sistemleri için derin pekiştirmeli öğrenme uygulamaları
MUHARREM UĞUR YAVAŞ
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR
- Automated lane change decision making for autonomous vehicles using machine learning techniques
Makine öğrenmesi teknikleri ile otonom araçlarda şerit değişimine karar verme
MEHDI NASIRI
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. GÜLAY ÖKE GÜNEL
- Model reference adaptive controller design with augmented error method for lane tracking
Serit takibi kontrolü için artıtılmış hata yöntemi ile model referans uyarlanabilir kontrolör tasarımı
MEHMET NURİ DİYİCİ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. YAPRAK YALÇIN
- Missile evasion maneuver generation with model-free deep reinforcement learning
Modelden bağımsız derin pekiştirmeli öğrenme ile füzeden kaçınma manevraları
MUHAMMED MURAT ÖZBEK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiSavunma Teknolojileri Ana Bilim Dalı
DOÇ. DR. EMRE KOYUNCU