Object-aware interactive perception
Nesne farkındalıklı etkileşimli algılama
- Tez No: 911381
- Danışmanlar: PROF. DR. SANEM SARIEL UZER, PROF. DR. SİNAN KALKAN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 170
Özet
Robotlar, üretim, sağlık, tarım, inşaat mühendisliği, lojistik, ulaşım, tüketici ürünleri ve askeri operasyonlar gibi çeşitli sektörlerde giderek daha fazla kullanılmaktadır. Robotların bu farklı ve dinamik ortamlarda etkili olabilmeleri için, çevrelerindeki değişiklikleri ve anormallikleri algılayarak, yorumlayarak ve bunlara tepki vererek adapte olabilmeleri ve yeniden planlama yapabilmeleri gerekmektedir. Bu adaptasyon büyük ölçüde robotun çevreyi anlaması ve onunla etkileşime girmesi için kritik olan algılama sistemine bağlıdır. Etkili algılama ve dünya modellemesi, otonom araçlar, sağlıkta cerrahi robotlar, tarımda mahsul izleme ve bakım robotları, mutfakta yemek hazırlığı için malzeme tanıma ve pişirme robotları ile temizlik robotları gibi ev hizmetleri görevleri için esastır. Sensör teknolojisi ve yapay zekadaki ilerlemelere rağmen, robotlar hala algılama konusunda önemli zorluklarla karşı karşıya kalmaktadır. Bu zorluklar arasında sınırlı sensör görüş alanları nedeniyle kısmi görünürlük, nesnenin görüş hattının önündeki başka bir nesne tarafından engellenmesi ve nesne yerleşimi ve görünümündeki değişkenlikler yer almaktadır. Bu sınırlamalar, zaman içinde bir dünya modelini etkili bir şekilde sürdürme ve güncellemede zorluklara yol açmaktadır. Mevcut sistemler, çeşitli nesneleri tanımada, dağınık ortamları yönetmede ve algılama belirsizliklerini ele almada zorlanmakta, bu da uzun vadeli manipülasyon görevlerindeki performanslarını olumsuz etkileyebilmektedir. Robotlarda algılama yaklaşımları pasif, aktif ve etkileşimli olmak üzere üç temel başlıkta incelenmektedir. Pasif algılama, sensörlerin çevresel verileri pasif olarak topladığı ve analiz ettiği bir yaklaşımı ifade ederken, aktif ve etkileşimli algılama bu süreci bir adım öteye taşıyarak robotların çeşitli eylemler yürüterek çevreyle daha dinamik ve etkileşimli bir şekilde ilişkide bulunmalarını sağlamaktadır. Pasif algılamada kamera, lazer mesafe ölçer ya da dokunsal sensör ile sürekli algılama yapılmakta ve veriler devamlı olarak işlenmektedir. Aktif algılama çalışmaları genellikle sensör, algısal verilerin işlenmesi için algoritma ya da derin öğrenme modeli ve sensör için uygun görüş seçimi üzerinde yoğunlaşır. Robot uygulamalarında aktif algılama, pasif algılama yöntemlerini desteklemek amacıyla algılama kalitesini artırmak için kullanılmaktadır. Kamera, lazer mesafe ölçer, dokunsal sensör gibi pasif sensörler; kontrol edilebilir eklemlerle, örneğin robot kolları, dönme/eğilme modülleri veya hareketli platformlarla birleştirilerek çevreden farklı açılardan elde edilmiş daha kapsamlı veriler toplanabilir. Örneğin; bir kamera bir nesneye merceğini odaklayabilir, daha iyi bir bakış açısı seçilebilir veya robot kolu üzerindeki dokunsal bir sensör, daha iyi bir poz tahmini için bir nesneye ulaşabilir. % Aktif algılama çalışmalarında planlama genellikle dokunsal geri bildirim için dokunma noktalarının seçimi veya daha iyi tanıma için bir sonraki en iyi görüşün belirlenmesi gibi eylemlerle sınırlıdır ve açgözlü algoritmik yaklaşım kullanılır. Bazı çalışmalarda, dünya modelleri oluşturarak, nesne etkileşimli eylemler uygulayarak veya farklı sensörlerden gelen verileri birleştirmek için gelişmiş algoritmalar kullanarak robotun algılama kabiliyetlerini artırmak ele alınmaktadır. Bu çalışmalarda, birden fazla sensör kaynağının kullanımı, robotun hareket kabiliyetleri veya etkileşim yetenekleri; farklı perspektiflerden kamera görüşlerinin değerlendirilmesini sağlayarak robotun dünya bilgisini genişletmeyi hedeflemektedir. % Robotlar, çevreleriyle nesne etkileşimi yoluyla bilgi alma yeteneğine sahiptir. Ancak, aktif algılama çalışmaları esas olarak sensör konumlandırma veya robot hareketine odaklanır ve mevcut eylem kümesini sınırlar. Etkileşimli algılama, robotların çevreyle etkileşimde bulunarak daha kapsamlı bilgi toplamasını sağlamak amacıyla bu yetenekleri ortam etkileşim eylemleriyle genişletmeyi hedefler. Bu alandaki erken araştırmalar, etkileşim yoluyla bir nesnenin kinetik özelliklerini çıkarma yöntemlerini içermektedir. Son dönemde yapılan araştırmalar, segmentasyon, tanıma, poz tahmini, şekil tamamlama ve nesnelerin eklemlenme modeli, fiziksel dinamikleri veya dokunsal özelliklerini çıkarma gibi çeşitli etkileşimli algılama uygulamaları üzerine yapılan çalışmaları içerir. Ancak, etkileşimin artan karmaşıklığı, gerçek zamanlı işleme ve karar vermede zorluklar yaratır. Bu nedenle, gerçek zamanlı eylem seçimi zorlaşır. Etkileşimli algılama etkili araçlar sunsa da, sürekli etkileşime odaklanılması sınırlayıcı olabilir, çünkü tüm algılama görevleri bu tür bir etkileşim gerektirmemektedir. Bazı görevler etkileşim olmadan etkili bir şekilde yürütülebilir ve bu da daha dengeli bir algılama yaklaşımına ihtiyaç duyulduğunu gösterir. Hem aktif hem de etkileşimli algılama görevlerini beraber ele alma gereksinimi, gerçek zamanlı eylem seçimini daha da karmaşık hale getirmektedir. Aktif algılama, algılama stratejilerini iyileştirmeye ve en bilgilendirici algılama eylemlerini seçmeye odaklanırken, etkileşimli algılama, ek olarak çevre ile karmaşık etkileşimleri de içerir. Aktif algılama, daha iyi sensör konumlandırma ve bakış açısı seçimi yoluyla veri toplama sürecini geliştirmeyi hedeflerken, etkileşimli algılama nesnelerle etkileşime girerek gizli detayları ortaya çıkarmayı amaçlamaktadır. Bazı durumlarda yalnızca sensör konumlandırma ile ortam bilgisini artırmak yeterli olurken, diğer durumlarda nesne etkileşimleri de zorunlu hale gelmektedir. Bu iki yöntemi beraber kullanabilmek için aktif ya da etkileşimli eylemleri uygun şekilde değerlendirerek eylem seçimi yapabilecek bir sisteme ihtiyaç vardır. Bu tez, aktif ve etkileşimli algılama sistemleri arasındaki boşluğu kapatmak için Nesne Farkındalıklı Etkileşimli Algılama Sistemi'ni (OIPS) önermektedir. OIPS, robot algılama yeteneklerini geliştirmek için voksel tabanlı metrikler ya da derin öğrenme yöntemleriyle görüş değerlendirme ve pekiştirmeli öğrenme ile eylem seçimi gibi ileri yöntemleri entegre eder. Önerilen sistem; alan bilgisi, sahne temsili, sahne değerlendirmesi ve etkileşimli algılama planlaması bileşenlerini içerir. Alan bilgisi bileşeni, robotun yetenekleri ve hedefleri hakkındaki bilgileri tutarken; sahne temsili bileşeni, çeşitli sensörlerden gelen verileri kullanarak çevrenin ayrıntılı bir modelini oluşturur ve bu modeli zaman içerisinde sensör verileriyle güncellemeye devam eder. Sahne değerlendirmesi bileşeni, farklı görüşleri ve eylemleri değerlendirirken; etkileşimli algılama planlaması bileşeni, algılamayı geliştirmek için en etkili eylemlerin seçilmesini sağlar. Bu tezin önemli bir katkısı, sistemin farklı nesneleri ayırt etme ve etkileşimli eylemleri daha doğru bir şekilde değerlendirme yeteneğini artıran bir süreç olarak, anlamsal bilgilerin üç boyutlu sahne temsiline entegre edilmesi için özgün bir yöntemin sunulmasıdır. Tez ayrıca, daha hassas sahne değerlendirmeleri için bilgilendirici görüşlerin seçimini iyileştiren gelişmiş hacimsel fayda ölçütlerini tanıtmaktadır. Bunların yanında, sensör görüşlerini çok kanallı yapay haritalar kullanarak değerlendirmek için derin öğrenme tabanlı bir yaklaşım önerilmektedir. Bu yaklaşım, sistemin yeni nesneleri tanıma konusundaki doğruluğunu ve adaptasyon yeteneğini artırmak için özel bir veri kümesi oluşturmayı ve açık-küme nesne algılayıcılarını entegre etmeyi içerir. Eylem seçme verimliliğini artırmak amacıyla bir sonraki en iyi eylemi seçmek için çeşitli politika tabanlı yöntemler uygulanmıştır. Ayrıca, eylem seçimini ödüllere dayalı olarak iyileştirmek ve böylece sistemin geri bildirimlerle gelişmesini sağlamak amacıyla pekiştirmeli öğrenme kullanılmaktadır. Tez kapsamında önerilen OIPS, robot uygulamalarında giderek önem kazanan bir diğer konu olan güvenilirlik için de önemli bir potansiyel sunmaktadır. Algılama belirsizlikleri ve hatalı eylemler, robotların ve çevrelerindeki insanların güvenliği açısından risk oluşturabilir. OIPS, sahne temsili ve değerlendirmesi aşamalarında belirsizlikleri modelleyerek daha güvenilir planlama çözümleri geliştirilmesine olanak sağlamaktadır. Tez, OIPS'nin başarımını kapsamlı benzetimler ve gerçek dünya deneyleri ile doğrulamakta, karmaşık ortamları algılama konusundaki zorlukların aşılmasını sağlayarak bu alandaki uygulamalarda dayanıklılığını ve etkinliğini göstermektedir. Görüş ve eylem değerlendirmede ileri tekniklerin entegrasyonu, robot algılama yeteneklerini önemli ölçüde artırmaktadır. Anlamsal bilgi yayılımı ve hacimsel görüş değerlendirme yöntemleri, daha doğru ve bağlamsal olarak farkında bir sahne modeli oluşturulmasına katkıda bulunurken, derin öğrenme ve pekiştirmeli öğrenme yöntemleri, sistemin adaptasyon yeteneğini ve performansını artırmaktadır. Gerçek dünya deneyleri, OIPS'nin insansı robotun kullanıldığı masa-üstü ortamlarındaki etkinliğini doğrulamaktadır. Bu tezde sunulan çalışma, özellikle algılama ve otonom karar verme konularında robot uygulama alanına önemli ölçüde katkıda bulunma potansiyeline sahiptir. Aktif ve etkileşimli algılamayı, gelişmiş görüş değerlendirme ve eylem seçimi yöntemleriyle birleştiren OIPS, robot algılama sistemlerinde esneklik ve verimlilik için yeni bir standart belirlemektedir. Bu araştırmadan elde edilen çıktılar, robotlarda algılama konusundaki teorik anlayışa ve daha yetenekli robot sistemlerinin geliştirilmesine önemli katkılar sağlamaktadır.
Özet (Çeviri)
Robots are increasingly utilized across various sectors, including manufacturing, healthcare, agriculture, civil engineering, logistics, transportation, consumer products, and military operations. For robots to be effective in these diverse and dynamic environments, they must be capable of adapting and re-planning by detecting, interpreting, and responding to changes and anomalies in their surroundings. This adaptability is heavily reliant on the robot's perception system, which is crucial for understanding and interacting with the environment. Effective perception and world modeling are essential for tasks such as warehouse packing, delivery, construction, and household services. Despite advancements in sensor technology and artificial intelligence, robots still face significant challenges in perception. These challenges include partial visibility due to limited sensor fields of view, occlusions, and the variability in object placement and appearance. These limitations often lead to difficulties in maintaining and updating a world model effectively over time. Current systems struggle with recognizing diverse objects, managing cluttered environments, and addressing sensing uncertainties, which can hinder their performance in long-term manipulation tasks. Robotic perception studies can generally be classified into three main categories: passive, active, and interactive perception. Passive perception involves the continuous collection and analysis of environmental data through a robot's sensors, such as cameras, laser range finders, or tactile sensors, without any active engagement. In contrast, active perception emphasizes optimizing sensory data processing by selecting appropriate sensors, algorithms, or deep learning models. This approach often aims to improve the quality of perception in robotics by enabling robots to infer additional object properties like weight, shape, material, texture, or temperature. Active perception integrates passive sensors with controllable mechanisms such as robotic arms, pan/tilt units, or mobile platforms to enhance data collection. For example, a robot might adjust a camera for a better viewpoint, use a tactile sensor to improve pose estimation, or plan specific movements to optimize its view of an object. These planning strategies often involve selecting touch points for haptic feedback or determining the next best view for object recognition, typically using a greedy algorithm. To address limitations in perception, some studies focus on maintaining dynamic world models, incorporating interactive correction systems, or leveraging advanced algorithms and sensory models. Combining multiple sensory inputs with a robot's mobility and manipulation capabilities enhances the evaluation of objects and environments from varied perspectives. While robots can physically interact with their surroundings, active perception primarily focuses on optimizing sensor placement or robot movement, often excluding object manipulation. This limitation has led to the emergence of interactive perception, a research area that expands robotic capabilities by encouraging interactions with the environment to gain more detailed information. Interactive perception includes diverse actions such as pushing, picking, placing, or deforming objects that simplify or enhance perception tasks. However, this approach introduces challenges related to real-time decision-making and processing, as constant interaction increases computational and energy demands. Such demands can be impractical for resource-limited environments or long-duration tasks, highlighting the need for selective interaction strategies. Not all tasks require continuous interaction, which underscores the importance of balancing active and interactive approaches. Current research in robotic perception often lacks a unified framework that seamlessly integrates active and interactive perception, limiting effectiveness in practical applications. The need to address both active and interactive perception tasks further complicates the selection of actions in real time. Active perception focuses on optimizing sensing strategies and selecting the most informative sense actions, while interactive perception involves complex interactions with the environment, such as object manipulation. Active perception aims to enhance data collection through better sensor positioning and view selection, while interactive perception seeks to reveal hidden details by interacting with objects. To bridge the gap between active and interactive perception systems, this thesis proposes the Object-aware Interactive Perception System (OIPS). OIPS integrates several advanced methods to improve robotic perception capabilities. It includes components for domain knowledge, scene representation, scene assessment, and interactive perception planning. The domain knowledge component captures information about the robot's capabilities and goals, while the scene representation component builds and maintains a detailed model of the environment using data from various sensors. The scene assessment component evaluates different views and actions, and the interactive perception planning component selects the most effective actions to enhance perception. A key contribution of this thesis is the development of a novel process for integrating semantic information into voxel-based scene representations, which improves the system's ability to distinguish between different objects and assess interactive actions more accurately. The thesis also introduces advanced volumetric utility metrics for precise scene assessments, enhancing the selection of informative views. Additionally, the thesis presents a deep learning approach for evaluating sensor views using n-channel augmented maps. This includes the creation of a dedicated dataset and the integration of open-set object detectors to improve the system's adaptability and accuracy in recognizing new objects. Various policy-based methods for selecting the next best action are explored to enhance action selection efficiency. Reinforcement learning is also employed to optimize action selection based on rewards, allowing the system to improve over time. The thesis validates the performance of OIPS through extensive simulations and real-world experiments, demonstrating its robustness and effectiveness in handling complex environments. The integration of advanced techniques in view and action evaluation significantly enhances robotic perception capabilities. The semantic information propagation and volumetric view evaluation methods contribute to a more accurate and contextually aware scene model, while deep learning and reinforcement learning improve adaptability and performance. The real-world experiments confirm the effectiveness of OIPS in diverse settings.
Benzer Tezler
- Mimari tasarımda bedenlenmiş empatik ve estetik 'öteki oluş' deneyimi
Embodied empathic and aesthetic 'becoming other' in architectural design
IŞIL İZLEM YAZ
Yüksek Lisans
Türkçe
2024
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. ELMİRA AYŞE GÜR
- Yerleştirme sanatı açısından mimari yeleştirmeler
Architectural installations from the point of installation art
E. GÖKÇE ÖZDAMAR
Yüksek Lisans
Türkçe
2003
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. S. METE ÜNÜGÜR
- Sanal mimarlığın gerçeği
Başlık çevirisi yok
CEM YARDIMCI
Yüksek Lisans
Türkçe
1998
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. HÜLYA YÜREKLİ
- Sanatçıların yarattığı pencereler ve kapılar
Başlık çevirisi yok
ALİ BİRO
Yüksek Lisans
Türkçe
1998
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. SEMRA ÖGEL
- Bina ve kentsel mekan biçimlenmiş etkileşimi
The Interactive formation of the buildings and the urban space
DEVRİM ERSOY
Yüksek Lisans
Türkçe
1997
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. ORHAN HACIHASANOĞLU