Geri Dön

Self-collision aware reaching and pose control in large workspaces using deep reinforcement learning

Büyük çalışma alanlarında derin pekiştirmeli öğrenme tabanlı kendi kendine çarpışma farkındalığına sahip erişim ve poz kontrolü

  1. Tez No: 843995
  2. Yazar: TUMUÇİN BAL
  3. Danışmanlar: DR. ÖĞR. ÜYESİ BARIŞ AKGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 95

Özet

Erişim, poz kontrolü ve ters kinematik, diğer görevlerin temelini oluşturan robotik manipülator görevleridir. Bu nedenle literatürde, bahsedilen görevler için çeşitli alanları kapsayan bir çok çalışma mevcuttur. Kontrol, planlama ve son zamanlardaki öğrenme metodları bu alanların arasındadır. Geleneksel kontrol algoritmaları tekillik ve eklem sınırları etrafında başarısız olma eğilimindedir ve kendi kendine çarpışma farkındalığını doğal olarak ele alamazlar. Planlama tabanlı yöntemler, reaktif davranışlar için yeterince hızlı değildir ve çalışmak için kontrolcüler dahil ek altyapı gerektirir. Bu sorunları ele almak için öğrenmeye dayalı yöntemler ortaya çıkmıştır. Ancak öğrenmeye dayalı yöntemlerin birçoğu serbest başlangıç ve hedef pozlarını ele almaz, kendi kendine çarpışma farkındalığını göz ardı eder, hedeflerinde oryantasyon bilgisi içermez, küçük çalışma alanlarında çalışır. Ek olarak bir çoğu sadece kaba başarı metrikleri ile değerlendirilmiştir. Bu tezde, erişim, poz kontrolü ve ters kinematik konularındaki boşlukları doldurmak için modelden-bağımsız Pekiştirmeli Öğrenme (PÖ) ve yalancı-ters kontrolü birleştiren, durum uzayı ve ödül fonksiyon tasarımını içeren yeni bir hibrit yaklaşım sunuyoruz. Yalancı-ters kontrol, istenilen görev uzayı (örneğin, uç işlevci pozu) hızları verildiğinde zaten eklem hızlarını hesaplar ve sadece robotun kinematik yapı- lanmasına ihtiyaç duyar. Yalancı-ters kontrol, genellikle eklem sınırlarından, tekilliklerden ve bireysel bağlantı elemanlarının birbirleriyle çarpışmadan uzak olduğu durumlarda güvenilirdir. Yaklaşımımızın ana fikri, PÖ'yü yukarıda bahsedilen durumların üstesinden gelmek için kullanmaktır. Bu amaçla, yeni bir durum uzayı ve ödül fonksiyonu tasarladık. Ödül fonksiyonumuz, pozisyon (erişim görevi) veya poz (ters kinematik ve poz kontrol görevleri) hatalarını, kendine çarpmaları azaltmayı ve hedefe yakın eklem hızlarını en aza indirmeyi amaçlamaktadır. Ek olarak, öğrenmeye yardımcı olması için bir müfredat öğrenme metodolojisi geliştirdik. Son olarak, görev performansını daha da artırmak için“anahtarlama”adını verdiğimiz basit bir değişiklik sunduk. Yaklaşımımızı, çeşitli durumlar ve görevler için benzetim ortamında dört robot ile değerlendirdik ve geleneksel ve öğrenmeye-dayalı yaklaşımlarla karşılaştırdık. Sonuçlarımız, yaklaşımımızın erişim görevlerinde ortalama hata, çeşitli eşiklerde başarı oranları ve son hız açısından temel yaklaşımları belirgin bir şekilde geride bıraktığını göstermektedir. Ek olarak, tüm senaryolarda kendi kendine çarpma sayısını azalttık. Oryantasyon eklendiğinde yaklaşımımız daha iyi sonuçlar elde etti, ancak yöntemlerin hiçbiri (özellikle öğrenmeye-dayalı temel aldığımız yöntemler) çok iyi performans göstermedi. Literatürdeki öğrenmeye-dayalı yöntemlerin neredeyse her zaman oryantasyonu göz ardı ettiğini görüyoruz. Bu nedenle, oryantasyon başarısızlığının nedenlerini ve potansiyel çözümleri kapsamlı bir şekilde tartışıyoruz.

Özet (Çeviri)

Reaching, pose control, and inverse kinematics are fundamental robotic manipulator tasks that underpin other tasks and as such, there is a vast body of related literature from various fields. Control, planning, and more recently learning fields are among the main ones. Traditional control algorithms are prone to failure around singularities and joint limits and do not naturally handle self-collisions. Planning methods are not fast enough for reactive behaviours and require additional infrastructure, including controllers, to work. Learning-based methods have emerged to tackle these issues. However, most of them do not handle arbitrary initial and target poses, ignore self-collisions, do not include orientation information in their targets, work in small workspaces and evaluate themselves with coarse success metrics. In this thesis, we introduce a novel hybrid approach that combines Pseudo-inverse control (PinvC) and model-free reinforcement learning (RL), including state space and reward function design, to fill these gaps in the context of reaching, pose control and inverse kinematics. PinvC already calculates joint velocities given desired task-space (e.g. the end-effector pose) velocities and only requires the kinematic structure of the robot. PinvC is mostly reliable away from joint limits, singularities and when individual links are not prone to collisions. The main idea behind our approach is to use RL to handle these situations. Towards this end, we design a novel state space and reward functions. Our reward function aims to minimize position (reaching task) or pose (inverse kinematics and pose control tasks) errors, reduce self-collisions and reduce joint velocities near the target. Furthermore, we develop a curriculum learning methodology to aid learning. Lastly, we introduce a simple modification, which we call“switching”to further improve task performance. We evaluate our approach with four simulated robots for various problem settings and compare it against traditional and learning-based approaches. Our results show that our approach decidedly outperforms the baselines in terms of mean error, success rates at various thresholds and terminal speed for reaching tasks. In addition, we reduced the number of self-collisions across all the scenarios. Our approach achieved better results when orientation was included, but none of the methods performed very well, especially the learning baselines. We note that the learning-based methods in the literature almost always ignore orientation. As a result, we comprehensively discuss the reasons for orientation failure and potential remedies.

Benzer Tezler

  1. Investigation of energy efficient traffic adaptive MAC layer protocols for multi-hop Ad-Hoc networks

    Çok komşulu Ad-Hoc ağları için enerji tasarruflu trafik uyumlu MAC katmanı protokollerinin incelenmesi

    MURAT SENEM

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. BUYURMAN BAYKAL

  2. Denizde can kurtarma techizatları üreticilerinde EFQM mükemmellik modelinin uygulanması

    Application of efqm excellence model on the life saving appliances manufacturers

    İSMAİL IŞIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Denizcilikİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÖZCAN ARSLAN

  3. The possibility and limit of liberal middle power policies: The case of Turkish foreign policy toward the Middle East during the AKP Period

    Liberal orta güç politikalarının olasılığı ve sınırı: AKP Döneminde Ortadoğu?ya yönelik Türk dış politikası

    KOHEİ İMAİ

    Doktora

    İngilizce

    İngilizce

    2011

    Uluslararası İlişkilerOrta Doğu Teknik Üniversitesi

    Uluslararası İlişkiler Ana Bilim Dalı

    PROF. DR. MELİHA ALTUNIŞIK

  4. 'Vatan için ölmek': Türkiye'de şehit asker kültünün sosyo-politik inşası ve şehit aileleri dernekleri

    'Dying for the motherland': The socio-political construction of martyr soldier cult and martyr family associations in Turkey

    ŞAFAK AYKAÇ

    Doktora

    Türkçe

    Türkçe

    2022

    DinGalatasaray Üniversitesi

    Siyaset Bilimi Ana Bilim Dalı

    PROF. DR. BİROL CAYMAZ

  5. Self collision detection system for sign tutoring humanoid robot

    İşaret dili eğitmeni insansı robot için çarpışma tespit sistemi

    YAKUP ÖZDEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HATİCE KÖSE