Data efficient offline reinforcement learning & reinforcement learning with imitation learning applications to autonomous driving and robotics

Veri verimli çevrimdışı pekiştirmeli öğrenme & taklit öğrenmeyle pekiştirmeli öğrenme otonom sürüş ve robotik uygulamaları

PDF İndir

Tez No: 894545
Yazar: FEYZA NUR EKSEN
Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 88

Özet

Pekiştirmeli Öğrenme'de amaç, beklenen kümülatif ödülü maksimize edecek bir davranışın öğrenilmesidir. Ortamdaki öğrenen, deneme yanılma yoluyla en uygun stratejiyi öğrenen ajan olarak adlandırılır. Yani etmen ortama bir eylemde bulunur ve bu bağlamda ödül olarak adlandırılan geri bildirim alır. Pekiştirmeli Öğrenme'nin tamamen veri odaklı alt alanı, Çevrimdışı Pekiştirmeli Öğrenme olarak bilinir. Çevrimdışı Pekiştirmeli Öğrenme, daha önce çeşitli davranış politikalarıyla toplanan statik veri kümelerinden iyi politikaları çıkarmak için kullanılır. Önceden toplanan verileri kullanma açısından, diğer Derin Öğrenme problem formülasyonlarına çok benzer. Ama objektifleri tamamen farklıdır. Çevrimdışı Pekiştirmeli Öğrenme'de yine Pekiştirmeli Öğrenme'de olduğu gibi beklenen kümülatif ödülü en üst düzeye çıkaran bir politika yakalamaya çalışıyoruz, ancak diğer Derin Öğrenme görevlerinde amaç ya sınıflandırma ya da regresyon yapmaktır. Uzman davranış politikası mevcut olduğunda, uzman davranışını taklit etmek için örnekler oluşturabilir ve kullanabiliriz. Ancak Taklit Öğrenme'de, mevcut uzman politikası/verileri tüm vakaları kapsamayabilir ve/veya öğrenilmiş politika, uzman politikası kadar iyi performans göstermeyebilir. Öte yandan Pekiştirmeli Öğrenme, keşfedici davranışa sahip olduğu için pratiktir. Taklit Öğrenme'de olduğu gibi başka herhangi bir davranış politikasını takip etmez. Keşif yeteneği sayesinde, öğrenilen bir politikanın başarısız eylemlerini belirlenmiş bir durum için düzeltebiliriz. Politika öğrenimi için, uzman verileri mevcut olduğunda, Taklit Öğrenme ile başlamak ve Pekiştirmeli Öğrenme ile sınırlı başarısızlık durumlarını düzeltmek işlevsel hale gelir ve bu her iki yöntemin de en iyi yönlerini kullanmamıza izin verir. Otonom sürüş için, Taklit Öğrenme ile bir başlangıç politikası eğitildikten sonra, bu politika tüm yollarda değerlendirilir ve değerlendirme sırasında başarısızlık noktaları ve senaryolar kaydedilir. Belirli bir başarısızlık senaryosu için Pekiştirmeli Öğrenme ajanı, bu belirli senaryo için davranışını optimize edecek şekilde eğitilir. Daha sonra Pekiştirmeli Öğrenme ile eğitilen politika, eğitilen politikalar kitaplığına eklenir. Politika sınıflandırıcı olan bir diğer bileşen de bu noktada Pekiştirmeli Öğrenme ajanlarının en güncel kütüphanesi ile her biri yeni bir sınıf olacak şekilde eğitilmektedir. Çıkarım zamanında, her adımda karşılaşılan durumun verdiği ödülü değerlendiririz, ödül belirli bir durum için sıfırın üzerinde olduğunda önceden eğitilmiş Taklit Öğrenme aracısını kullanırız. Sıfırın altındaki durumlarda ise bu hata yapılan senaryoda kullanılması için eğitilmiş politika sınıflandırıcımızdan kütüphanedeki eğitilmiş Pekiştirmeli Öğrenme ajanlarından hangisinin verilen durum için uygun olduğunu tahmin ederiz. Sadece trafikte sıkışmış ve sollama yapılması gerekilen hatalı senaryo durumuyla bile, bu yöntem CARLA simülatörünün farklı sürüş ölçütlerinde ve yol koşullarında önceki metodlardan daha iyi performans gösterir veya onlarla rekabet edebilir hale gelir. Veri setlerini karar alma motorlarına dönüştürürken veri verimliliğini göz önünde bulundurmalıyız. Hangi veri noktalarının veya veri alt kümelerinin değerlendirme performansını iyileştirmeye katkıda bulunduğunu bulabilirsek, veri toplama sırasında veya eğitim sırasında veri kümesinden seçim yaparken hesaplama ve bellek kaynaklarımızı verimli bir şekilde kullanmış olabiliriz. Veri noktalarının eğitimdeki rolünü de keşfedebilir ve daha etkili öğrenme sistemleri tasarlayabiliriz. Ayrıca, performansı artıracak veri noktaları bulmak için çalışabiliriz. Bu çalışmada, Çevrimdışı Pekiştirmeli Öğrenme algoritmalarından olan Konservatif Q Learning (CQL) kullanarak veri kümesindeki bir verinin değerini hesaplayan yeni bir budama metriği sunuyoruz. Budama metriği, herbir verinin Konservatif Q Learning kritik ağı üzerindeki değişim etkisi üzerinden hesaplanmıştır. Bu skora Off_critic skoru denir. Bu puan her veri noktası (s_t, a, r(s_t, a_t), s_t+1) için hesaplanır. Ön eğitim kullanılır, çünkü bu skor kritik ağdan değer tahmini içerir. Ön eğitim sayesinde ağ, ağdan hesaplanan skorlar arasında yüksek bir korelasyon olana kadar eğitilir. Yapılan öncü deneyler sayesinde skorun hesaplanması için ağın ne kadar eğitilmesi gerektiğine karar verildi. Erken eğitim yaparak hesaplanan Off_critic skoru hangi verinin veri setinden silineceğine karar verilirken kullanılacak metrik olarak tasarlanmıştır. Herbir verinin skoru, o verinin kritik ağı üzerindeki değişime katkısı olarak düşünüldüğünden en çok katkı yapan verinin tutulması ve en az katkı yapan verinin silinmesinin mantıklı olacağı öngörülmüştür. En az katkı yapan yani skoru en düşük verilerin silinmesi şeklinde veri setinden budama yapılmıştır. Öncü deneyler sırasında farklı budama stratejileri denenmiştir. En düşük skorlu öğrenim noktalarının silinmesiyle elde edilen performansın en iyi, en yüksek skorluların silinmesiyle elde edilen performansın en kötü olması, tanımı yapılan budama skorunun mantıklı bir metrik olduğunu deneysel olarak göstermiştir. Bunun dışında tanımlanan bir diğer budama stratejisi olan en düşük olasılıksal budamanın en düşük budamaya göre veriler arasında korelasyon olmasını engelleyip düşük skorlu veriden az da olsa örnekleme yaparak çeşitliliği sağlayacağı öngörülmüş olsa da bu budama yöntemi öncü deneylerde düşük performans göstermiştir. Deneyler 4 farklı veri seti kullanılarak yapılmıştır. Bunun nedeni Çevrimdışı Pekiştirmeli Öğrenme'de veri toplanılırken kullanılan davranış politikasına bağlı olarak toplanan verinin özelliklerinin değişmesidir. Önerilen budama metriğinin başarısı, farklı özelliklere sahip verisetleri olan APS, DIAYN, PROTO ve RANDOM'da deney yapılarak gösterilmiştir. Hiçbir veri seti birbirine karıştırılmamış, adil olması için tüm verisetlerinin performansları ilgili veri setinin diğer performanslarıyla kıyaslanmıştır. Her bir veri seti 1 milyon tane veri barındırmaktadır. Deneylerde önce her bir veri seti için tüm veri noktalarının kullanıldığı ve hiçbir budama olmayan Çevrimdışı Pekiştirmeli Öğrenme deneyi yapılmıştır. Her bir öğrenme süreci 1 milyon adım sürmüştür. Bu deney sayesinde her bir veri setinin budama olmadan gösterdiği değerlendirme puanı bulunmuştur. Bu değerlendirme puanı, budama olduktan sonraki performans değişimini hesaplamak için baz olarak kullanılmıştır. Ayrıca bu deney sayesinde eldeki bu 4 veri setiyle öğrenim yapılabildiği gösterilmiş olup hangi hiperparametreleri kullanmak gerektiği sabitlenmiştir. Daha sonraki deneyler adil bir karşılaştırma olması için hep aynı hiperparametre setini kullanır. Öncü deneyler yapıldıktan sonra skor hesaplanacak önceden eğitilmiş model adımının 90 000, budama stratejisinin de en düşük olmasına karar verilmiştir. Kaynaklar yetersiz olduğundan tüm model adımları ve budama stratejileri tüm veri setleri için denenememiştir. Bu adımda bu parametreler sabitlenmiştir. Önerilen budama skorlarının ve budama yönteminin performansını göstermek için her bir veri setinden adım adım veri silinerek yeni veri setleri oluşturulmuştur. Budama yüzdesi 0.1 ile 0.9 arasında 0.1 ile artarak gitmektedir. Her adımda veri setinden 100 bin veri silinmiş olup yeni oluşturulan veri setiyle herhangi bir ağ ağırlığı başlatması yapılmaksızın sıfırdan eğitim yapılmıştır. 1 milyon öğrenme adımından sonra öğrenilen politikanın değerlendirilmesiyle elde edilen değerlendirme skoru karşılaştırma metriği olarak kullanılmıştır. Ancak bu metrik sadece son değerlendirme skorunu içerdiğinden, eğitim sırasındaki diğer değerlendirme skorlarını da içeren yumuşatma sayesinde eğitim sırasındaki değerlendirme trendini de içeren metrik tanımlanmıştır. Önerilen budama metriği kullanılarak yapılan budamanın ne kadar başarılı olduğunu yorumlamak için rastgele budama yapan taban çizgisi deneyleri de yapılmıştır. Bu deneylerde ilgili budama yüzdesi kadar veri, veri setinden rastgele bir şekilde silinir. En düşük skorluları budama, en iyi budama stratejisidir. DIAYN veri setinin %50'sini budama için en düşük skorluları budama, olasılıksal olarak en düşük skorluları budamadan daha iyi performans gösterir. DIAYN için, verilerin %70'i budandıktan sonra performansta önemli bir düşüş gözlenmektedir. Aynı zamanda DIAYN'nin nihai performansı veri setinin %60'ı silinene kadar zarar görmez, hatta biraz iyileşir. PROTO, performansın %50'ye kadar budama ile hemen hemen aynı kaldığı DIAYN'ye benzer. PROTO için %90 budamadan sonra yalnızca 100.000 eğitim noktası kalsa bile performans düşüşü yalnızca %24.68'dir. APS ve RANDOM monotonik olmayan davranış gösterir, bu nedenle bu veri kümeleri daha fazla araştırma gerektirir. Spesifik olarak, RANDOM verileri bize, veri kümesini budamanın mutlaka performansa zarar vermediğini, bunun yerine nihai performansta bir artışa yol açabileceğini göstermektedir. Off_critic budama skorunu hiç budama yapmamaya ve rastgele bir budama yapmaya göre deneysel olarak değerlendirdik. Ancak deneysel sonuçların ötesinde daha fazla teorik çalışmaya ihtiyaç vardır. Budama yöntemimiz rastgele budamadan %61 ila %67 daha başarılıdır.

Özet (Çeviri)

The aim in the Reinforcement Learning is learning a behavior such that maximizes the expected cumulative reward. The learner in the environment is called the agent, who learns the optimal strategy by trial and error which means that the agent takes an action into the environment and receives some feedback called reward in this context. Fully data-driven subfield of RL is known as Offline Reinforcement Learning. Offline Reinforcement Learning is used to extract good policies from static datasets which are previously collected with various behavior policies. It is very similar to other Deep Learning problem formulations in terms of learning from previously collected data. But their objectives are completely different. In Offline RL, we still try to capture a policy which maximizes the expected cumulative reward but in other Deep Learning tasks, the objective is either classification or regression. When the expert behavior policy is available, we can generate and use samples to imitate the expert behavior. But in Imitation Learning, the expert policy/data available might not cover all cases and/or learned policy might not perform as good as expert policy. On the other hand Reinforcement Learning is practical since it has explorative behavior. It does not strictly follow any other behavior policy as in Imitation Learning. With its exploration capability, we can recover failed actions of a learned policy in a given environment. For policy learning, when the expert data is available, starting with Imitation Learning and recovering limited failure cases with Reinforcement Learning becomes functional and allows us to use best of both worlds. After a starting policy with Imitation Learning is trained, it is evaluated on the full trajectories and during evaluation failure points and scenarios are saved. For a specific failure scenario Reinforcement Learning agent to optimize its behavior for this particular scenario is trained. Then trained policy with Reinforcement Learning is added to the library of trained policies. Another component which is policy classifier is trained at this point with the most up-to-date library of Reinforcement Learning agents as each being a new class. At inference time, we evaluate each of the state's reward at each step, when the reward is above zero for a given state, we always use pre-trained IL agent while for below zero cases we predict the class from our trained policy classifier to understand which of the trained RL agent from the library is suitable for the given state. Even with only introducing stuck vehicle failure case, method outperforms or becomes competitive to previous benchmarks in different driving metrics and road conditions of CARLA simulator. We must consider data efficiency when transforming datasets into decision-making engines. If we can find which data points or subsets of data contribute to improving the evaluation performance, we may have used our computational and memory resources efficiently during data collection or when choosing from the dataset when training. We can also explore the role of data points in training and design more effective learning systems. Further we can work on finding data points that will improve performance. In this study, we present a new pruning metric that calculates the value of a data point in the dataset using Conservative Q Learning (CQL), which is one of the Offline Reinforcement Learning algorithms. The pruning metric is calculated over the change effect of each data on the Conservative Q Learning critic network. This score is called the Off_critic score. This score is calculated for each data point (s_t, a, r(s_t, a_t), s_t+1). Pre-training is used because this score includes value estimation from the critic network. With pre-training, the network is trained until there is a high correlation between the scores calculated with the network. With preliminary experiment, we decide how much the network had to be trained to calculate the score. The Off_critic score calculated by early training is designed as the metric to be used when deciding which training sample to prune from the dataset. Since the score of each data point is considered as its contribution to the change on the critic network of that data point, it is reasonable to hypothesize to keep the data point that contributed the most and to delete the one that contributed the least. The dataset was pruned by deleting the data points that contributed the least, those with the lowest score. During the preliminary experiments, different pruning strategies were attempted. The performance obtained by deleting the lowest-scoring training points is the best and the performance obtained by deleting the highest-scoring ones is the worst. It experimentally shows that the defined pruning score is a logical metric. Although it was assumed that the lowest stochastic pruning, which is another pruning strategy defined, prevents correlation between the data compared to the lowest pruning and provides diversity by sampling even less from low-score data, this pruning method showed poor performance in preliminary experiments. Experiments were conducted using 4 different datasets. The reason for working with different datasets is that the characteristics of the collected data change depending on the behavior policy used while collecting data in Offline Reinforcement Learning. The success of the proposed pruning metric has been demonstrated by experimenting with datasets as APS, DIAYN, PROTO, and RANDOM. Datasets were not mixed together, and to be fair, the performances of all datasets were compared with the other performances of the relevant dataset. Each dataset contains 1 million pieces of data. In the experiments, an Offline Reinforcement Learning experiment was conducted, in which all data points were used for each dataset and there was no pruning on them. Each learning experiment takes 1 million steps. With these experiments the evaluation score of each dataset without pruning was found. This evaluation score was used as a basis for calculating performance change after pruning. Additionally, it has been shown that learning can be done with these 4 datasets, and which hyperparameters should be used has been fixed. Subsequent experiments always use the same set of hyperparameters for fair comparison. After the preliminary experiments were done, it was decided that the pre-trained model step for which the score would be calculated should be 90 000 and the pruning strategy should be kept as lowest. Not all model steps and pruning strategies were tested for all datasets due to insufficient resources. These parameters are fixed in subsequent experiments. In order to demonstrate the performance of the proposed pruning scores and pruning method, new datasets were created by deleting data from each dataset gradually. The pruning percentage goes between 0.1 and 0.9, increasing by 0.1. At each step, 100 thousand data was deleted from the dataset and training was performed from scratch with the newly created dataset without any network weight initialization. The evaluation score obtained by evaluating the learned policy after 1 million learning steps was used as a comparison metric. However, since this metric includes only the final evaluation score, the metric including the evaluation scores during training was defined, with the smoothing. Random pruning baseline experiments were also conducted to interpret how successful the pruning was using the proposed pruning metric. In these experiments, data up to the relevant pruning percentage is randomly deleted from the dataset. Pruning the lowest scoring training samples is the best pruning strategy. For pruning 50% of the DIAYN dataset, pruning the lowest-scoring all the other pruning strategies. For DIAYN, a significant drop in performance is observed after pruning 70% of the data. Further, DIAYN's final performance is not damaged until 60% of the dataset is deleted, it even increases. PROTO is similar to DIAYN where performance remains almost the same with pruning up to 50%. Even if only 100,000 training points remain after 90% pruning, the performance degradation is only 24.68% for PROTO. APS and RANDOM show non-monotonic behavior and these datasets require further investigation. Specifically, the RANDOM data shows us that pruning the dataset doesn't necessarily hurt performance, but can instead lead to an increase in final performance. We empirically evaluated the Off_critic pruning score against no pruning and random pruning. However, more theoretical studies are needed beyond the experimental results. Our pruning method is 61% to 67% more successful than random pruning.

Benzer Tezler

Tez No
776487
IQ-flow: Mechanism design for inducing cooperative behavior to self-interested agents in sequential social dilemmas
TQ-akışı: Ardışıl sosyal ikilemlerdeki çıkarcı etmenleri işbirlikçi davranışa teşvik etmek için mekanizma tasarımı
BENGİSU GÜRESTİ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
Tez No
637468
Congestion and packet classification based flow management for software-defined networks
Yazılım tanımlı ağlarda tıkanıklık ve paket sınıflandırmaodaklı akış yönetimi
MERTKAN AKKOÇ
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BERK CANBERK
Tez No
691771
Data reduction methods in just-in-time-learning
Anında öğrenim ve veri azaltma yöntemleri
ONUR CAN BOY
Yüksek Lisans
İngilizce
2021
Kimya Mühendisliği Boğaziçi Üniversitesi
Kimya Mühendisliği Ana Bilim Dalı
DOÇ. DR. BURAK ALAKENT
Tez No
810449
Data driven positioning analysis of music streaming platforms
Müzik platformlarının veriye dayalı konumlandırma analizi
AYŞE BAŞAK İNCEKAŞ
Yüksek Lisans
İngilizce
2023
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. UMUT ASAN
Tez No
783650
Efficient super-resolution and MR image reconstruction networks
Verimli süper çözünürlük ve MR imgeleri geriçatım ağları
DURSUN ALİ EKİNCİ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilişim Uygulamaları Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN

Geri Dön