Geometric reinforcement learning for robotic manipulation
Robotik manipulasyon için geometrik takviyeli öğrenme
- Tez No: 858141
- Danışmanlar: PROF. DR. HATİCE KÖSE, DR. ÖĞR. ÜYESİ FARES J. ABU-DAKKA
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 113
Özet
Takviyeli Öğrenme (TÖ) veya İngilizce adı ile“Reinforcement Learning (RL)”, literatürde geniş kapsamlı kullanım alanı bulan, bir öğrenme ajanının çevre ile etkileşimi doğrultusunda deneme yanılma yordamıyla insana benzer yeteneklerin makina tarafından öğrenilmesini sağlayan bir tekniktir. Geleneksel \ac{rl}, pozisyon, hız ve ivme gibi Öklidyen veriler ile tanımlanabilen robotik manipülasyon yeteneklerinin öğrenmesi konusunda başarı göstermiştir. Ancak robotik uygulamalarda, sıklıkla, yönelim ve katılık gibi Öklidyen olmayan veri ile karşı karşıya gelinmektedir. Bu noktada Öklidyen olmayan veri üzerinde yapılan geometrik farkındalık uygulamalarının farklı öğrenme metodları (taklit öğrenmesi) üzerinde kullanılması ve bu uygulamaların başarısının gözlemlenmesi, bu yöntemin, bu tez çalışması öncesinde henüz çalışma bulunmayan \ac{rl} üzerinde uygulanabilirliğinin denenmesini motive etmiştir. Bu tez çalışması, Öklidyen olmayan veri üzerinde geometrik farkındalık enjekte edilmiş bir takviyeli öğrenme çerçevesinin nasıl oluşturabiliceği ve önerilen bu çerçevenin (\ac{grl}) mevcuttaki \ac{rl} yöntemlerine karşın ne gibi avantajları olduğunun gösterilmesi üzerinedir. Bu kapsamda literatür, geniş bir kapsamda ele alınarak önerilen yöntemle karşılaştırma yapmak adına birçok farklı \ac{rl} algoritmasına ve optimizasyon tekniklerine yer verilmiştir. Bunlar içinde en eski olarak kabul edilebilecek yaklaşım, 2006 yılında yayınlanan \ac{cmaes} yaklaşımı olmuştur. \ac{cmaes}, Hessian matrisinin tersinin alınmasına gerek duyulmayan bir siyah-kutu optimizasyon algoritmasıdır ve robotik uygulamalarda halen sıklıkla kullanılmaktadır. Kronolojik sırayla ilerlediğimizde, 2010 yılında \ac{power} karşımıza çıkmaktadır. Birkaç yıl boyunca referens algoritma olarak kullanılan \ac{power}, iyi bir politika parametrizasyonu ve görece küçük durum uzayı olması koşulu ile kombine edildiğinde halen etkili bir yaklaşım olarak ele alınmaktadır. Devam edecek olursak, en son teknolojik gelişmelerden olan ve Derin Takviyeli Öğrenmenin referans algoritmaları olarak kullanılan Derin Takviyeli Öğrenme algoritmaları \ac{ppo}(2017) ve \ac{sac}(2018) karşımıza çıkmaktadır. Önerilen yöntemle karşılaştırmak adına kullanılacak son yöntem ise \ac{bpp} olacaktır. Karşılaştırma için kullanılacak algoritmaların, hem takviyeli öğrenmenin kronolojik ufkunu hem de farklı özelliklerini ve nüanslarını kapsadığı düşünülmektedir. Dahası, bu algoritmalar $\manS 3$ ve $\manSPD d$ gibi Riemannian manifoldlarına ve aynı zamanda yönelimi temsil eden bir Lie grubu olarak birim dördeylere uygulanabilmektedir. Önerilen \ac{grl} çerçevesi, politikanın sabit bir tanjant uzayı üzerinde bulunacak olması düşüncesi ile tasarlanmıştır. Bunun sebebi politikanın kendisinin paralel taşıma yapılması gerekliliğinden kaçınmaktır. Ancak bu yaklaşım, veri setinin tanjan uzayı orjinine uzak olduğu durumlarda hata yaratma potansiyeline sahiptir. Bu problemi çözmek için, \ac{grl} yaklaşımında tanjant uzayı, iki farklı şekilde kullanılır: parametrizasyon yapabilmek için bir tane tanjant uzayı ve Öklidyen olmayan manifolda haritalama yapabilmek için yerel bir tanjant uzayı. Politika, öğrenme boyunca sabit bir şekilde kalan parametrizasyon tanjant uzayında öğrenilir ve sonrasında paralel taşıma yöntemi ile yerel tanjant uzayına transfer edilir ve Öklidyen olmayan manifold üzerine yansıtılır. Yerel tanjant uzayı, güncel manifold noktasına yakın bir komşulukta kalabilmek için zamanla değişir ve bu yaklaşım hatasını azaltır. Böylece, geleneksel \ac{rl} iş akışına, geometrik olarak temellendirilmiş ön ve ileri işleme adımları eklenmiş ve bu değişiklik, Öklidyen uzaylar için tasarlanan birden fazla modelsiz takviyeli öğrenme algoritmasının, üzerlerinde herhangi bir değişiklik yapılmasına gerek kalmaksızın, Öklidyen olmayan veriler üzerinden öğrenme yapılması için kullanılabilmesine olanak sağlamıştır. \ac{rl} çerçevesinin Öklidyen olmayan veri üzerinde uygulamasında karşılaşılan zorluklardan biri, Gauss (normal) dağılımın kullanılması olmuştur. Gauss politika parametrizasyonunun, özellikle yönelim, katılık veya manipülabilite gibi Öklidyen olmayan verilerin ifade edilmesinde sınırlamaları bulunmaktadır. Bunun sebebi, dağılım parametrelerinin (hem ortalama hem kovaryansı) manifoldun doğasında bulunan eğrilik uzayına her zaman uymamasıdır. Bu zamana kadar, \ac{sac} veya \ac{ppo} gibi Gauss politika parametrelendirmelerini, dördeyler gibi Öklidyen olmayan manifold verileri üzerinde kullanabilmek için öngörülen profillerin normalize edilmesi gerekliliği bulunmaktadır. Bu çeşit bir son-işleme, öğrenme doğruluğunu etkileyebilecek bir yakınsama yaklaşımıdır. \ac{grl}, Öklidyen uzayda üstünde uzun yıllar çalışılmış ve kararlı öğrenme algoritmalarının, farklı geometrik uzaylara transfer edilebilmesi ve bu işlemin görece kolay bir şekilde ve aynı zamanda makul hesaplama ve bilgisayar gücü kullanımı ile yapılabilmesi sebebiyle muadillerine göre daha avantajlıdır. Bahsedilen bu avantaj, Öklidyen uzaylarda yapılan araştırmaların ve ilerlemenin direkt olarak Öklidyen olmayan uzaylara uygulanabilmesini mümkün kılar. \ac{grl}, parameterizasyonun sabit bir tanjant uzayında yapılması üzerine kurulu olmasından dolayı, politikanın öğrenme aşamasında bir tanjant uzayından diğer tanjtant uzayına paralel taşıma yapılmasına gerek duymaz. Anlaşılabileceği üzere bunu yapmak, bazı parametrizasyon şemaları için çok da basit değildir. Bununla birlikte, yerel olarak birebir olan Riemannian geometrisinin formulasyonuna uyma zorunluluğu mevcuttur. Bu tez çalışması iki ana formülasyon içermektedir. Bunlardan birincisi, sadece bir tanjant uzayının kullanıldığı (Lie cebiri) ve bütün parametrizasyonun bu tanjant uzayında yapılarak öngörülen aksiyonların direkt olarak Lie grubu manifolduna haritalandığı Lie grubu formülasyonudur. Tez çalışmasının içerdiği bir diğer formülasyon ise, önceden açıklandığı gibi, iki adet tanjant uzayı içeren Riemannian Manifoldudur. Haritalamanın tanjant uzayının orjininden uzakta yapılması, önemli sayılabilecek hatalar yarattığından, iki tanjant uzayı kullanan Riemannian Manifoldu formülasyonu, sonuçları önemli ölçüde iyileştirmektedir. Aynı zamanda Lie grubu formülasyonu yönelim temsiliyle sınırlı iken, Riemannian Manifoldu formülasyonu, dahil ama sınırlı olmamak üzere, $\manS 3$ ve $\manSPD d$ gibi farklı manifoldlara da genelleştirilebilen bir çerçeve sunar. Deneyler, simüle edilmiş ortamlarda (Wahba ve yörünge öğrenme) ve aynı zamanda fiziksel bir robot içeren gerçek bir ortamda, robotun bir topu deliğe yerleştirme görevini (ball-in-the-hole) yerine getirmesini içermektedir. Hedeflenen araştırma sorusu, Gaussian dağılımlarına dayalı \ac{rl} algoritmalarında Öklidyen olmayan veri geometrisini (Örneğin; yönelim, sertlik veya manipülabilite) dikkate almanın kazançları ve yaygın yaklaşım çözümleri (Örneğin; normalleştirme ve Cholesky çözümü) veya Bingham gibi diğer dağılımlara dayalı çözümlerle nasıl karşılaştırıldığıdır. Yapılan deneylerden elde edilen sonuçlar, \ac{rl} yaklaşımının, Öklidyen olmayan veri seti ile kullanımı sırasında veri setinin geometrisinin dikkate alınmasının önemini göstermektedir. Buradaki temel bulgu, hem görece basit hem de parametre belirsizliklerine dayanıklı (robust) olan Gauss dağılımının Öklidyen olmayan veri geometrisine uyarlanabilirliğidir. Bahsedilen bulgunun, Bingham gibi alternatif dağılımlarla oldukça rekabetçi olduğu kanıtlanmıştır. Genel anlamda, bu araştırma yalnızca geometrik \ac{rl}'nin çok yönlülüğünü vurgulamakla kalmamakta, aynı zamanda geometrik veri içeren keşifler için umut vadeden bir geleceği de ortaya koymaktadır. Çalışmanın sonuçları, daha geniş kapsamlı birçok uygulama için doğruluğu ve performansı arttırarak, robotik ve ilgili-benzer alanlarda yeni olanaklar yaratabilmek için önemli bir potensiyel sunmaktadır. Deneysel sonuçlarda da belirtildiği gibi, problemin karmaşıklığı arttıkça standart yaklaşım yöntemleri yerine \ac{grl} yönteminin kullanımı daha fazla önem kazanmaktadır. Bu, ortalama karmaşıkta olan problemlerde normalizasyon kullanımı sebebiyle oluşan hatanın, sonuçları kötü yönde etkileyecek düzeyde olduğu ve \ac{grl} kullanımının net bir avantaj sağladığı sonucuna ulaşmamıza olanak sağlar. BPP parametrelendirmesi, çoklu sinir ağlarından gelen tahminlere dayanır ve bu önemli yaklaşım hatalarına neden olabilir. Bu, GPP ve \ac{grl} yöntemlerinin aksine, kararsız bir öğrenme sürecine yol açar. BPP'nin bu problemi, deneylerle gözlemlenmiş ve yaklaşımı kullanarak belirleyici sonuçlara ulaşılmadan önce birden fazla deneme yapılmıştır. Bilakis, \ac{grl} yaklaşımının kararlılığının GPP ile aynı ve BPP'den daha iyi olduğu görülmüştür. Bu sonuç, tanjant uzayı ile manifold arasındaki birebir haritalamaların kararlı olduğunu doğrulamamızı sağlamaktadır. \ac{grl} yöntemi, deneysel olarak gözlemlenmiş ve hesaplama maliyeti noktasında GPP'ye üzerinde \ac{sac} için yaklaşık \%3 ve \ac{ppo} için \%6 yükselme olduğu görülmüştür. Bu sonuç beklenen bir sonuçtur çünkü tanjant uzayı ile manifold arasındaki haritalama, görece basittir ve yüksek hesaplama gücü gerektirmemektedir. Buna karşın BPP yaklaşımında \ac{sac} için $\text{33\%}$ ve \ac{ppo} için $\text{118\%}$ daha fazla hesaplama maliyeti görülmüştür. Dahası, BPP algoritmanın uyarlanabilmesi için algoritmanın ve dağılımın modifiye edilmesi ve değiştirilmesi gerekmektedir. Bu sebeple, önerilen \ac{grl} yaklaşımının, GPP yaklaşımına göre küçük bir performans kaybı ile çözüm kalitesinde fark edilebilir bir iyileşme sağlayabildiği ve BPP ile karşılaştırıldığında daha iyi performans göstererek en az BPP kadar iyi sonuçlar verebildiği sonucuna varmaktayız. Önerilen yöntemin doğruluk konusunda bahsedilen noktalarda iyileştirmeleri mevcuttur ancak bu yöntem, Wahba probleminde olduğu gibi parametrizasyonun ve yerel tanjant uzaylarının aynı sabit noktada oluşturulduğu sabit tanjant uzayı parametrizasyonu durumda, veri setinin tanjant uzayının orjinine yakın komşuluğu bulunan noktalarda bulunması koşulunda en iyi sonucu verecektir. Bunun sebebi, tanjant uzayının projeksiyonunun, uzaklıklıkları orjine yakın noktalarda yerel olarak koruması ve orjinden uzaklaşıldıkça uzaklık ölçümlerinin doğruluğunun giderek azalmasıdır. Dahası, bahsedilen sabit tanjant uzayı, veri setinin ortalamasında veya çok yakınında kurgulanmalıdır. Bunun gerçeklenmemesi durumunda algoritmanın doğruluğu önemli ölçüde azalmaktadır. Yapılan çalışmanın, şu anlık $\manS 3$ ve $\manSPD d$ manifoldları ile sınırlı olsa da, doğru analiz ve incelemeler ile diğer Öklidyen olmayan manifoldlara genelleştirilebilme potansiyeli mevcuttur. Bu, gelecek çalışmalara bırakılmıştır.
Özet (Çeviri)
Reinforcement Learning (RL) is a widely adopted and powerful technique that promotes learning via a process of trial and error, as an agent interacts with a dynamic environment. While conventional RL has shown remarkable success in learning and predicting directly Euclidean robotic manipulation skills, dealing with quantities like positions, velocities, and forces, it often requires extra postprocessing (approximation) steps with non-Euclidean data such as orientation or stiffness. Inspired by the potential seen in applying geometry awareness to non-Euclidean data in various learning approaches (like imitation learning), this thesis ventures into the unexplored territory of implementing it within \ac{rl} algorithms. The essence of this thesis lies in its focus on integrating geometry awareness into the \ac{rl} model. It highlights the benefits that the proposed \ac{grl} framework offers, which outperforms contemporary \ac{rl} algorithms when dealing with non-Euclidean data. The algorithms chosen for comparison span a broad spectrum of \ac{rl} and optimization techniques. They start from the earliest adopted \ac{cmaes} (from 2006)—a still widely utilized, black-box, and inversion-free optimization algorithm in robotics. Going in chronological order, it is followed by \ac{power} (from 2010). \ac{power} was a reference algorithm for some years and it is still effective if one has a good policy parameterization and a relatively small state space. We then evaluate the more recent deep \ac{rl} algorithms like \ac{ppo} (from 2017) and \ac{sac} (from 2018), and the most recent \ac{bpp} which proposed usage of an alternative distribution in \ac{rl} (from 2022). The selected comparisons offer a comprehensive overview of the evolution of RL algorithms. These algorithms are deployed on different Riemannian manifolds, including $\manS 3$ and $\manSPD d$, as well as unit quaternions representing the orientation on $\manS 3$ as a Lie group. This shows the advantage of the Riemannian formulation over the Lie group formulation, which can be generalized to more manifolds, representing more different non-Euclidean data types. In the proposed \ac{grl} framework, the policy resides in a fixed tangent space to negate the need for parallel transporting the policy. However, this approach could result in errors when data are far from the origin of the tangent space. To tackle this, \ac{grl} uses the tangent space bifunctionally: one for parameterization and one for mapping to a non-Euclidean manifold. The policy is developed in the parameterization tangent space, produces the action on this tangent space, and then transfers it to the local tangent space through parallel transport before being projected onto the non-Euclidean manifold. By integrating geometrically grounded pre- and post-processing steps into the traditional \ac{rl} pipeline, the \ac{grl} framework opens the door for several model-free algorithms designed for Euclidean space to learn from non-Euclidean data without modifications. The studies were conducted using both simulated environments (Wahba and trajectory learning challenges) and a real-life setup with a physical robot performing the Ball-in-a-hole assignment. The findings underline the significance of taking the geometry of non-Euclidean data into account in the context of \ac{rl}. A critical observation was the adaptability of the Gaussian distribution, which was simple yet robust enough to apply to non-Euclidean data geometries. Overall, this research underscores the flexibility of geometric \ac{rl}, paving the way for future investigations involving geometric data. This presents a remarkable potential to enhance precision and performance in a wide array of applications, thereby creating innovative opportunities for advancements in robotics and related fields.
Benzer Tezler
- A mathematical contribution of statistical learning and continuous optimization using infinite and semi-infinite programming to computational statistics
İstatistiksel öğrenme ve sürekli optimizasyon yöntemlerinıin sonsuz ve yarı sonsuz programlama kullanılarak hesaplamalı istatistiğe uygulanması
SÜREYYA ÖZÖĞÜR AKYÜZ
Doktora
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilimsel Hesaplama Ana Bilim Dalı
PROF. DR. GERHARD WİLHELM WEBER
PROF. DR. JOHN SHAWE TAYLOR
- Speeding up branch and bound algorithm for airline Crew scheduling problem by using machine learning techniques
Makine öğrenme teknikleri kullanarak Crew programlama sorunu için şube ve sınava algoritmasının hızlanması
LEILA GHASEMZADEH
Yüksek Lisans
İngilizce
2019
Havacılık Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NAZIM KEMAL ÜRE
- Model reference adaptive controller design with augmented error method for lane tracking
Serit takibi kontrolü için artıtılmış hata yöntemi ile model referans uyarlanabilir kontrolör tasarımı
MEHMET NURİ DİYİCİ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. YAPRAK YALÇIN
- Görüntü sınıflandırmada yineleyen derin ağ ve görü dönüştürücü modellerinin karşılaştırılması
Comparison of recurrent deep network and vision transformer models in image classification
OĞUZHAN BUBO
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiSakarya ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURHAN BARAKLI
- Addressing parametric uncertainties in autonomous cargo ship heading control
Otonom kargo gemisi yön kontrolündeki parametrik belirsizliklerin ele alınması
AHMAD IRHAM JAMBAK
Yüksek Lisans
İngilizce
2023
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. İSMAİL BAYEZİT