Failure prevention in robot manipulation using adversarial reinforcement learning
Çekişmeli pekiştirmeli öğrenme ile robot etkileşimlerinde hata önleme
- Tez No: 815451
- Danışmanlar: DOÇ. DR. SANEM SARIEL UZER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 67
Özet
Robot etkileşimi, imalat, tarım ve sağlık gibi alanlardaki uygulamalarıyla önemli bir araştırma alanıdır. Ancak bu görevlerdeki hata senaryolarının maliyetli ve bazen tehlikeli sonuçları olabilir. Bu zorluğun üstesinden gelmek için, robot sistemlerinin emniyetli ve güvenilir şekilde çalışmasını sağlayabilecek hata önleme politikaları geliştirilmesi kritik bir öneme sahiptir. Bu tezde, robot etkileşimindeki çeşitli hatalara karşı gürbüz politikalar geliştirmek için çekişmeli pekiştirmeli öğrenmeden (adversarial reinforcement learning) yararlanan yeni bir yaklaşım önerilmiştir. İncelenen ilgili çalışmalarda çekişmeli pekiştirmeli öğrenmenin gürbüz etmenler eğitebilmek amacıyla kullanımının giderek yaygınlaştığı görülmektedir. Önerilen yaklaşımda, öncelikle temel beceri tanımlanmış ve bu görevi yerine getirebilecek bir temel etmen (agent) eğitilmiştir. Karmaşık temel beceriler için öğrenme sürecini hızlandırmak adına taklit yoluyla öğrenme (imitation learning) kullanımı önerilmiştir. Ardından, olası bir hata seti belirlenmiştir. Her hata için, ortamın o hata olayına ne kadar yakın olduğunu gösteren bir risk fonksiyonu tanımlanmıştır. Bu risk fonksiyonları manuel olarak tasarlanıp normalize edilmiştir. Temel etmene benzer şekilde, her hata türü için bir rakip etmen eğitilmiştir. Rakip etmenlere ödül fonksiyonu olarak daha önce o hata için tanımlanan risk fonksiyonu verilmiştir. Bu süreç izolasyon eğitim aşaması olarak isimlendirilmiştir. Eğitimin son aşamasında daha önce eğitilen temel beceri etmeni başlangıç durumunu oluşturmak için, rakip etmenler ise bu başlangıç durumu üzerinde hata risklerini belirli bir eşiğe çıkarmak için kullanılmıştır. Bu şekilde kurulumu yapılan bölümlerde hata risklerini düşürmeye yönelik bileşik bir baş etmen veya ayrık birden fazla baş etmen eğitilmiştir. Rakibin ödülü, baş etmenin cezası olarak belirlenmiş ve bu nedenle eğitim süreci sıfır toplamlı bir oyuna (zero-sum game) dönüşmüştür. Genelleştirme adına yardımcı girdiler de rastgele seçilerek farklı hata tipleriyle birlikte aynı hata tipinin farklı senaryolarına karşı gürbüz etmenler eğitilmesi hedeflenmiştir. Bu tezde deneysel analiz için insansı bir robotun simülasyon ortamında kaşık ile kase karıştırma görevini yürütmesi ele alınmıştır. Hata senaryoları olarak devrilme, kayma ve taşma olayları göz önüne alınmıştır. Hedef ise bu hata senaryolarının yaklaştığını tespit edip onları önleyebilecek bir sistem oluşturmaktır. Öncelikle temel görev olan karıştırmayı öğrenebilmek adına taklit yoluyla öğrenmenin alt dalı olan davranış klonlama (behavior cloning) algoritması kullanılmıştır. Bu algoritmanın başarılı bir şekilde kullanabilmesi için başarılı ve genelleşmiş bir uzman veri setinin bulunması gereklidir. Bu veri seti, kaşığın kase içerisinde alçalıp büyüyen yarıçaplara sahip dairesel hareketlerle ilerletilmesiyle oluşturulmuştur. Veri setinin daha kapsayıcı olması adına aksiyonların üzerine rastgele gürültü eklenmiştir. Oluşturulan veri seti ile çalıştırılan davranış klonlama eğitim süreci başarıyla tamamlanmış ve böylelikle hata senaryolarını henüz dikkate almayan ancak görevini tatmin edici şekilde yerine getirebilen bir temel etmen oluşturulmuş olunur. Önerilen yöntemin ikinci aşaması olan rakip eğitimlerinde ise daha önce seçilen hata senaryoları olan devrilme, kayma ve taşma olaylarının modellenmesi hedeflenmiştir. Her hata senaryosu için bir rakip etmen eğitilir ve bu etmenler devirme, kaydırma ve taşırma rakipleri olarak adlandırılır. Hataların risk fonksiyonları uzman yoluyla belirlenmiş ve 0-1 aralığına normalize edilmiştir. Bu işlem eğitimin ileri aşamasında farklı rakiplerin benzer şekilde değerlendirilmesi için faydalı olmaktadır. Devirme rakibi için kasenin eğim miktarı, kaydırma rakibi için kasenin başlangıç pozisyonuna göreceli konumu, taşırma rakibi için ise kase içerisindeki en yüksek topun göreceli yüksekliği kullanılmaktadır. Modellenen risk fonksiyonları rakip etmenler için ödül fonksiyonu olarak belirlenmiştir. Ek olarak etmenlerin daha genelleşmiş şekilde hata oluşturabilmeleri için yardımcı girdiler gerekmektedir. Bu yardımcı girdilerin eğitim sırasında aldığı değerlere göre etmenin hatayı kase üzerinde farklı açılardan oluşturabilmesi hedeflenmiştir. İstenen açıda oluşmayan hatalarda ödül fonksiyonuna bir ceza terimi uygulanmıştır. Tüm etmenler derin deterministik politika gradyanı (deep deterministic policy gradient, DDPG) algoritmasıyla eğitilmiştir. Eğitim sonrasında rakip etmenler kendi hata risklerini ortam üzerinde başarıyla ve genelleşmiş şekilde artırmayı öğrenebilmişlerdir. Eğitimin son aşamasında ise devirme, kaydırma ve taşırma rakiplerine baş etmenler eğitilmiştir. Temel beceri etmeni kaseyi belirli bir süre karıştırıp başlangıç durumunu belirlemektedir. Sonrasında rastgele seçilen bir rakip ortamda hata riskini artırır. Örneğin; devirme rakibi kaseyi belirli bir açıya kadar eğer ve hata gerçekleşmeden görevini tamamlayarak robot kontrolünü baş etmene devreder. Eğitim bölümüne bu durumdan başlayan baş etmen, DDPG algoritmasının çalışma mantığıyla uyumlu olarak öncelikle rastgele adımlar atar. Eğitim ilerledikçe geçmiş tecrübeleri de kullanarak kasenin devrilmesi yerine stabil başlangıç pozisyonuna dönmesi için gerekli aksiyonları almaya başlar. Tez kapsamında hem bileşik hem ayrık baş etmenler eğitilip performansları karşılaştırılmıştır. Baş etmenin hata önleme performansı yükselmiş bir hata riskini belirli bir süre içinde düşürüp düşüremediğine ve kaç adımda düşürebildiğine göre değerlendirilmektedir. Değerlendirme sonuçları, çekişmeli öğrenmenin hata önleme politikalarını öğrenmenin etkili ve başarılı bir yolu olduğunu göstermiştir. Bileşik baş etmen karşılaştığı rakiplerden birbirine benzer olan devrilme ve taşırmaya karşı iyi performans gösterirken kaydırma rakibine karşı daha zayıf kalmıştır. Devrilme ve taşırma hatalarını kaşığı basitçe yukarı kaldırarak engelleyebileceğini öğrenmiştir. Bu da bileşik şekilde eğitim sırasında etmenin çoğulcu bir politika izlemeye başladığını göstermiştir. Kaydırma rakibinin oluşturduğu riski engellemek içinse kaseyi başlangıç konumuna sürüklemesi gerektiğini öğrenmekte zorlanmıştır. Ayrık baş etmenler ise kendi rakiplerine karşı özelleşip bileşik baş etmenden daha iyi sonuçlar ortaya koymuşlardır. Bileşik baş etmen gibi devrilme ve taşırma hatalarını kaşığı yukarı kaldırarak engellemeyi daha kısa sürede öğrenmişlerdir. Kaydırma rakibine özel olarak eğitilen baş etmen ise bileşik baş etmenin aksine kaseyi başlangıç pozisyonuna sürükleyerek riski başarıyla düşürmeyi öğrenmiştir. Sonuç olarak, hata senaryolarına karşı gürbüz etmenler eğitebilmek adına yapılan bu çalışmada eğitimi daha verimli hale getirebilecek bir yöntem önerişlmiştir. Hata senaryolarının başlangıç prosedürlerini elle ayarlamak yerine bunların genelleşmiş ve başarılı şekilde üretebilen rakip etmenler yoluyla yapılması sağlanmıştır. Çekişmeli pekiştirmeli öğrenmenin robot etkileşimlerinde hata önleme amacıyla kullanılabileceği de gösterilmiş olmuştur.
Özet (Çeviri)
Robotic manipulation is an important area of research with applications in fields such as manufacturing, agriculture, and healthcare. However, failure scenarios in these tasks can have costly and sometimes dangerous consequences. To address this challenge, there has been a growing interest in developing failure prevention policies that can ensure the safe and reliable operation of robotic systems. In this thesis, we propose a novel approach that leverages adversarial reinforcement learning to train robust policies against various failures in robotic manipulation. We start by defining the base skill and train a base agent that can accomplish this task. We propose to employ imitation learning to speed up the learning process for complicated base skills. Then, we determine a possible set of failures. For each failure, we define a risk function that indicates how much the environment is close to a catastrophic event associated with that failure type. These risk functions are manually engineered and normalized. Similar to the base agent, we train an adversary for each failure type with the reward function defined as the risk function for that failure. We call this process the isolated training phase. After the isolated training, we place the protagonist (or multiple protagonists) and the adversaries in a self-play environment. In this environment, agents take turns controlling the robot and try to maximize their respective rewards. The reward of the adversary is set as the penalty for the protagonist and the training process becomes a zero-sum game. After some training, the protagonist becomes more proficient in preventing the failures caused by the adversaries. As the domain, we have chosen the task of stirring a bowl with a spoon using a humanoid robot. We have implemented and tested the proposed method in a simulation environment that contains a bowl and 40 balls inside it. The agents move the spoon in a 3D space to interact with the environment and collect low-dimensional observations and rewards. For training a protagonist, we can either train a compound protagonist that can single-handedly prevent all failure types, or we can train distinct protagonists for each of the failure types. In this thesis, we take both approaches and compare the results. We evaluate the failure prevention performance of the protagonist by measuring the failure prevention success rate in a time window and the total number of steps required to reduce the risk below a certain threshold. The set of distinct protagonists outperforms the compound protagonist slightly. Overall, evaluation results show that adversarial learning is an efficient and successful way to learn prevention policies.
Benzer Tezler
- Dual-arm safe robot manipulation with second arm assistance
Çift kollu robotlarda ikinci kol destekli güvenli robot etkileşimi
ASEL MENEKŞE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SANEM SARIEL UZER
- Esnek imalat sistemleri ve alternatif rotaları göz önünde bulundurarak esnek ortamlar için üretim hücrelerinin dizaynı
Flexible manufacturing systems and design of manufacturing cells for flexible environmental
GİRAY İLKER ÇELİK
Yüksek Lisans
Türkçe
1994
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. GÖNÜL YENERSOY
- Bilişsel robotlar için öğrenme güdümlü sembolik planlama
Learning guided symbolic planning for cognitive robots
PETEK YILDIZ
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SANEM SARIEL TALAY
- İnşaat sektöründe iş kazası araştırmalarında kusur dağılımı
Defect distribution in occupational accidents in construction sector
SEBAHİTTİN KORKMAZ
Yüksek Lisans
Türkçe
2017
İnşaat MühendisliğiDüzce Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. RIFAT AKBIYIKLI
- Kalite maliyetleri sisteminde faaliyet bazlı maliyetlendirme yönetiminin kullanımı
A Model for aquality costing on the metodology of activity based costing
NAĞME MAHMUTOĞLU
Yüksek Lisans
Türkçe
1997
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET TANYAS