Efficient learning of sensorimotor data
Sensorimotor verilerinin verimli öğrenilmesi
- Tez No: 944045
- Danışmanlar: PROF. DR. ERHAN ÖZTOP
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Özyeğin Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 128
Özet
Gösterimden Öğrenme (LfD), robotlara ustaca yetenekler kazandırmanın etkili bir yoludur ve genellikle bir insan tarafından yapılan gösterimlerden elde edilen zamansal sensör-motor verilerden öğrenmeyi içerir. Robot öğrenimi için LfD'nin yaygın kullanımına rağmen, hala ele alınması gereken zorluklar ve yapılması gereken iyileştirmeler mevcuttur. Bu doğrultuda, bu tezde, kaynak kullanımı açısından verimli yeni bir LfD yöntemi önerilmekte ve bu tür LfD yöntemlerinin, tanımlanan görevi yerine getirebilmek için sensör-motor verilerini kullanarak ödül fonksiyonu tahmini yapmak üzere nasıl kullanıla-bileceği açıklanmaktadır. Somut bir şekilde ifade etmek gerekirse, kodlayıcı-kod çözücü (encoder-decoder) tipi derin sinir ağlarına uygulanabilir bir böl ve yönet yaklaşımı gelişti-rilmiş ve bu yöntem, öğrenilmesi gereken bir sensör-motor yörüngesinin farklı segmentlerini temsil etmek için birden fazla Koşullu Sinirsel Hareket Primitifi'ni (CNMP) birleş-tirmek amacıyla uygulanmıştır. Geliştirilen sistem, Birleşik Koşullu Sinirsel Hareket Primitifi (C-CNMP) modeli, her bir yörünge segmentine özel bir yapay sinir ağı parçası atayarak ve segmentler arası bağımlılıkları gizli uzayda (latent space) koruyarak kaynak verimliliğini artırır ve tahmin doğruluğunda kayda değer bir kazanım elde eder. Önerilen kaynak kullanımı açısından verimli C-CNMP modelinin öğrenme ve genelleme performansı, sentetik veri kümeleri ve gerçek dünyadaki robotik hareket veri kümeleri kullanılarak gerçekleştirilen deneylerle ölçülmüştür. Eşit uzunluktaki iki segmentli C-CNMP modelleriyle yapılan sistematik deneyler sayesinde, önerilen modelin güçlü ve kısıtlayıcı yönleri detaylı şekilde analiz edilmiştir. Karmaşık hareketleri doğru yapıda temsil edebilmek için kullanılan çok segmentli C-CNMP'nin özelliklerini daha fazla keşfetmek için ek araştırmalar da gerçekleştirilmiştir. Bu amaçla, segment sayısının değişiminin etkisi, segmentasyon granülaritesi ile öğrenme performansı arasındaki ilişki gösterilerek incelenmiştir. Araştırılan bir diğer boyut ise segment sayısının sabit tutulduğu ve segmentasyon sınırlarının değiştirildiği segment uzunluğudur. Bu açıdan yapılan incelemeler, eşit uzunluktaki segmentler kullanılarak yapılan sistematik analizleri tamamlayarak genel performans değerlendirmesine katkıda bulunmaktadır. Genel olarak, segmentasyona yönelik analizler, optimal segmentasyonun hem performans hem de kaynak verimliliği açısından değerli olabileceğini göstermektedir. C-CNMP araştırmaları sırasında, uygun bir kayıp fonksiyonunun tanımlanması ve optimal segment sayısının belirlenmesi gibi çeşitli zorluklarla karşılaşılmış ve çözümler geliştirilmiştir. Bu zorluklar sistematik olarak analiz edilerek ampirik çalışmalarla çözümler önerilmiş ve segmentleme süreci genelleme performansını artıracak şekilde iyileştirilmiştir. C-CNMP modelini geliştirmenin ve özellik-lerinin araştırılmasının yanı sıra, bir görevin gerçekleştirilmesi esnasında gözlemlenen sensör-motor verilerinin üretilmesinden sorumlu olan ödül fonksiyonunu hesaplamak için CNMP türü yöntemlerin Ters Pekiştirmeli Öğrenme (IRL) kapsamında kullanımı araştırıl-mıştır. Bu amaçla, ödül fonksiyonu hesaplanması sırasında hesaplama verimliliği yüksek yeni bir IRL mekanizması sunulmuştur. Bu verimlilik, CNMP türü modeller tarafından temsil edilen yörüngelerin dağılımlarıyla ödül fonsiyonunu tanımlayan parametrelerin ilişkilendirilmesi sonucu oluşturulan etkili benzerlik ölçütlerinin kullanılmasıyla sağlanır. Önerilen IRL yöntemi, ödül çıkarımı esnasında dahili bir pekiştirmeli öğrenme (RL) döngüsü gerektirmediğinden hızlı ve verimli ödül fonksiyonu hesaplanmasına olanak tanır. Genel olarak, tez, sensör-motor verilerini verimli şekilde öğrenebilen ve üretebilen C-CNMP ile LfD'deki son teknolojiye katkıda bulunmanın yanı sıra, bir görev icrasının altında yatan, optimize edilmeye çalışılan prensiplerin, gözlenen sensör-motor verileri üzerinden ortaya çıkarılması için kullanılabilecek pratik bir ters pekiştirmeli öğrenme sistemi sunmaktadır.
Özet (Çeviri)
Learning from Demonstration (LfD) is an effective way of equipping robots with dexterous skills, which involves learning from the temporal sensorimotor data generated by a demonstrator, typically a human. In spite of the common use of LfD for robot learning, there are still challenges to be addressed and improvements to be made. Towards this end, in this thesis, we propose a novel resource-efficient Learning from Demonstration (LfD) method and present how such LfD methods can be used for efficient reward function estimation given a set of sensorimotor data for completing a given task execution. To be concrete, we develop a divide-and-conquer approach applicable to encoder-decoder type deep neural networks and apply it to combine multiple Conditional Neural Movement Primitives (CNMP) for representing different segments of a sensorimotor trajectory that needs to be learned. By assigning dedicated network components to specific trajectory segments and coupling them in the latent space, the developed system, Coupled Conditional Neural Movement Primitive (C-CNMP) model, improves resource efficiency and achieves a significant gain in prediction accuracy. The learning and generalization performance of the proposed resource-efficient C-CNMP model has been measured with experiments conducted using synthetic data and real-world robotic movement datasets. Throughout systematic experiments with equally sized two-segmented C-CNMP models, the strengths and limitations of the proposed C-CNMP model have been analyzed. Additional investigations are conducted to further explore the characteristics of C-CNMP in multi-segment settings which can be used to represent complex movements in a structured fashion. To this end, the impact of varying the number of segments is assessed by showing the trade-off between segmentation granularity and learning performance. Another dimension explored is the segment size, where the segment count is kept fixed and the segmentation boundaries are changed. This complements the systematic analysis conducted with equally sized segments to evaluate the overall performance. Overall, the segmentation-related analyses indicate that the search for optimal segmentation can be worthwhile for both performance and resource economy. During C-CNMP research, several challenges have been encountered and addressed, including formalization of an appropriate loss function and determining the optimal number of segments. We systematically analyzed these issues and proposed solutions through empirical studies, refining the segmentation process to improve generalization. In addition to developing the C-CNMP model and investigating its properties, we have shown the application of CNMP-type methods in Inverse Reinforcement Learning (IRL) to uncover the reward function that is responsible for generating an observed sensorimotor data during a task execution. In brief, we develop a novel IRL mechanism with high computational efficiency during reward function inference. This is achieved by associating reward parameters with trajectory distributions that are represented by CNMP-type models that facilitate the construction of effective similarity metrics for reward function estimation. The proposed IRL pipeline enables fast and efficient reward inference as it does not require an inner reinforcement learning loop for reward inference. Overall, the thesis contributes to the state-of-the-art in LfD with C-CNMP that can learn and generate sensorimotor data efficiently, as well as providing a practical inverse reinforcement learning system that can be used to uncover the optimality principles underlying a task execution given a set of observed sensorimotor data.
Benzer Tezler
- Development of sensorimotor organization guided by learning progress and predictability
Duyu-motor organizasyonunun öğrenme gelişimi ve öngürülebilirlik prensipleri aracılığıyla gelişimi
SERKAN BUĞUR
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE UĞUR
- Object, action, and outcome blending latent space exploration with intrinsic motivation to learn manipulation skills
Nesne, eylem ve sonuç bilgisini harmanlayan saklı uzayda manipülasyon becerilerinin içsel motivasyonlu keşif ile öğrenimi
MELİSA İDİL ŞENER
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE UĞUR
- Phase validation of neurotoxic animal models of parkinsons disease
Parkinson hastalığının nörotoksik hayvan modellerinde faz validasyonu
İLKNUR TELKES
Yüksek Lisans
İngilizce
2012
NörolojiOrta Doğu Teknik ÜniversitesiTıp Bilişimi Ana Bilim Dalı
DOÇ. DR. EWA JAKUBOWSKA DOĞRU
- Motor kontrol ve öğrenmeye ilişkin nöral yapıların modellenmesi ve donanım üzerinde bir gerçekleme
Modeling neural structures related to motor control and learning and an implementation on hardware
SERHAT ÇAĞDAŞ
Doktora
Türkçe
2025
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. NESLİHAN SERAP ŞENGÖR
- Design and deployment of deep learning based fuzzy logicsystems
Derin öğrenme tabanlı bulanık sistemlerin geliştirilmesi ve uygulanması
AYKUT BEKE
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR