Manipulation of visually recognized objects using deep learning
Görsel tanınan nesnelerin derin öğrenme kullanarak hareket ettirilmesi
- Tez No: 496446
- Danışmanlar: DOÇ. DR. PINAR BOYRAZ
- Tez Türü: Doktora
- Konular: Mekatronik Mühendisliği, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 152
Özet
İnsanlar, çevrelerinden en büyük ve nitelikli veriyi, görme sistemleri aracılığıyla edinirler. Bununla birlikte, daha eksiksiz ve güvenilir bir algılama için diğer duyu organlarından elde edilen verileri de tamamlayıcı bir şekilde kullanmak gerekir. İnsanlara benzer şekilde robotlar da algılayıcıları aracılığıyla içinde bulundukları ortamdan veri toplarlar. Nesne algılama, tanıma ve anlamsal değer atfetme, robotik alanındaki en güncel araştırma alanlarının başında gelmektedir. Yazılım ve donanım teknolojilerinin gelişimi akıllı sistemlerin günlük yaşama nüfuzunu sağlamaktadır. Yüksek çözünürlüklü, derinlik algılayan kameralar, nesnelerin interneti aygıtları gibi donanımlar çok boyutlu ve büyük hacimli veri elde etmeyi mümkün kılmıştır. Buna paralel olarak robotlar, endüstriyel alanda kullanımlarının yanısıra sosyal hayatın da bir parçası olarak değerlendirilmeye başlanmıştır. İnsan-robot etkileşimli sistemler içerik olarak gerçek zamanda çalışma açısından yüksek doğruluk ve hız gerektirmektedir. Kontrolsüz artan dünya nüfusu ve dengesiz tüketimin bir sonucu olarak geleneksel üretim yöntemlerinin ihtiyaç ve talepleri karşılayamaması, zorlu rekabet şartlarının hüküm sürdüğü üretim sektöründe yeni yaklaşımları zorunlu kılmaktadır. Üretimdeki bu ihtiyaç ve zorunluluklara cevap vermek üzere Endüstri 4.0 adlı yenilikçi bir vizyon ile akıllı üretim yöntemleri ve tesisleri öne sürülmüştür. Bu vizyon kapsamında makinalar, cihazlar, sensörler ve insanlar arasında iletişimin sağlanabildiği, gerçek sistemlerin sanal fiziksel bir kopyasının dijital ortamda oluşturularak bilginin anlamsallaştırıldığı ve bilgi şeffaflığının sağlanabildiği ortamlar oluşturulması planlanmaktadır. Ayrıca insanlara zorlu şartlarda makinalar tarafından teknik destek sağlanması, siber-fiziksel sistemlerin karşılaştıkları bazı problemlerle ilgili kendi kararlarını insanlara ihtiyaç kalmadan verilebilmesi de, bu çerçevede, geleneksel üretim yöntemlerine bilişim teknolojilerinin entegrasyonu için amaçlanmaktadır. İnsan-robot etkileşimi çerçevesinde, robotların; güvenli, hızlı ve verilen görevleri yüksek başarım/düşük hata oranlarıyla gerçekleştirebilmesi, gelişen makine öğrenmesi algoritmaları ve bu algoritmalara uygun donanım teknolojileriyle mümkün hale gelmiştir. Akıllı üretim tesislerinde robotların yer değiştirmeleri esnasındaki hareketleri, verilen görevleri beklenen performans düzeylerinde yapabilme kabiliyetleri, sahip oldukları donanım ve yazılım sistemlerine direkt olarak bağlıdır. Konvolüsyonel derin yapay sinir ağları daha çok nesne tanıma gibi görsel ve ses tanıma gibi ses tabanlı verilerle nesne tanıma, nesne sınırları belirleme, nesne bölütleme, anlamsal bağ oluşturma gibi amaçlarla eğitilir. Nesnelerin interneti aygıtları ve çeşitli sensörlerden aldıkları verileri işleyerek, öğrenen sistemlerin oluşturulması modern robotik ihtiyaçlarına cevap vermektedir. Böylelikle öğrenebilen robotik mekanizmalar, işleyişleri esnasında çeşitli duyargalardan aldıkları verileri işleyerek öğrendikleri modeller üzerinden karşılaştırma yaparak anlamsal bilgi edinimine haiz olurlar. Yenilikçi robotik yaklaşımlarda, kritik öneme sahip olan bu durum vasıtasıyla, robotlar karmaşık yapılardan anlamlı bağlar kurarak insanlara benzer davranış geliştirme özelliği kazanabilirler. Hafıza kapasiteleri, birim enerji başına performansları ve paralel hesaplamaya uygun çok çekirdekli yapılarıyla güncel grafik ekran kartları derin yapay sinir ağı yapılarının eğitilmesine ve böylece daha fazla parametre öğrenilebilen büyük boyutlu verilerin işlenmesine imkan tanımaktadır. Ayrıca gömülü sistem olarak çalışmaya uygun benzer şekilde çok çekirdekli donanımlar da gerçek zamanlı bilgisayarla görü içeren, karmaşık robotik uygulamalara imkan tanımaktadır. Konvolüsyonel derin yapay sinir ağları, bazı özel mimari, parametre güncelleme yöntemleri ve aktivasyon fonksiyonları ile ikiden daha fazla sayıda gizli katman içeren özelleşmiş yapay sinir ağı modellerine verilen genel addır. Büyük veri kullanılarak eğitilen derin konvolüsyonel sinir ağı modelleri, eğitildikleri veri kümesinde bulunan nesneleri tanıma, nesneleri çevreleyen sınırları belirleme ve bölütleme gibi konularda insan performansından daha yüksek başarımlı, çok küçük hata değerlerine sahip sonuçlar vermektedir. Robotik alanındaki uygulamalar için nesne tanıma ve nesne sınırları belirleme işlemleri anlamsal bilgi çıkarımı ve nesnelere dayalı ilişki kurma bağlamında tek başına yetersiz kalmaktadır. Bu sebeple, nesnenin ait olduğu sınıfa, sınıf etiketlerinin ötesinde öznitelikler atanarak algoritmaların anlamsal içerik konusundan çıkarım yapabilmeleri sağlanır. Bu tez kapsamında, geleneksel öznitelik çıkarımı yöntemlerinin algılayıcı ve açıklayıcı kısımlarının kombinasyonlarıyla elde edilen yöntemlerin performansları detaylı bir şekilde analiz edilmiştir. Performans ölçütü olarak hız, başarım ve görüntü başına doğru eşleşen öznitelik gibi sıradan ölçütlerin yanısıra eşleşen özniteliklerin birbirlerine olan uzaklığı, doğru eşleşen öznitelik sayısı ve eşleşen noktalar arası açısal yönelim farkı gibi ölçütler de kullanılmıştır. Deneylerde, $127$ adet şablon görüntüden oluşan bir sorgu veri kümesi, $3090$ adet görüntüden oluşan bir veri kümesiyle eşleştirilmiştir. Bu çalışma sonucunda, bazı geleneksel öznitelik çıkarıcı yöntemlerin başarım gözönüne alındığında kabul edilebilir seviyelerde sonuçlar verdiği görülmüştür. Bununla beraber, gerçek zamanlı çalışmaya uygun herhangi bir yüksek başarımlı kombinasyon elde edilememiştir. Ayrıca geleneksel yöntemlerin getirdiği hesap yükü nedeniyle görüntü varyasyonları kısıtlı tutulmak zorundadır. Bu sonuçlar, geleneksel yöntemlerin karmaşık robotik görevlerde istenen sonuçları vermesinin mümkün olmadığını ortaya koymaktadır. Bu noktadan hareketle, tez kapsamında görsel olarak tanınan nesnelerin, robotik bir mekanizmayla hareket ettirilmesi derin öğrenme yöntemleri kullanılarak gerçekleştirilmiştir. Robotik mekanizma olarak değişken yarıçaplı makara-değişken sertlikli eklem sisteminden oluşan bir yapı, derin masa adı verdiğimiz deney ortamına entegre edilmiştir. Robotik mekanizmalara ait çalışmalar uzun ve maliyetli deneyler gerektirmektedir. Bu ksııtların etkilerini en aza indirmek adına benzetim ortamlarından faydalanılır. Böylece zaman ve maliyetten tasarruf edilirken, birçok varyasyon denemesi yapılarak gerçek dünya deneylerine olabildiğince hazır prototiplerle başlanır. Kısıtlı kabiliyete sahip geleneksel öznitelik algılama ve tanıma yöntemlerinden ziyade konvolüsyonel sinir ağları, başarım oranı daha yüksek ve daha hızlı anlamsal bilgi elde edebilmekte, böylelikle gerçek-zamanlı robotik uygulamalara imkan tanımaktadır. Bu modellerin istenen sonuçları üretebilmeleri parametrelerinin uygun şekilde optimize edilmesine bağlıdır. Bu da ancak yeterli sayıda veri ile mümkündür. Bu tez kapsamında robot görüsü çalışmalarında kullanılmak üzere, benzetim ortamlarıyla gerçek dünya koşulları arasındaki farkı azaltmaya yönelik, \textit{ADORESet} adında bir görüntü veri kümesi oluşturulmuştur. \textit{ADORESet}, $30$ kategoride, her bir kategoride $2500$'er gerçek, $750$'şer tane de benzetim ortamından alınan toplamda $97500$ adet etiketli ve nesne sınırları elle işaretlenmiş görüntüden oluşmaktadır. Bu veri kümesi kullanılarak en iyi sonuçlar veren konvolüsyonel sinir ağı mimarilerinden dört tanesi ince-ayar yapılarak eğitilmiştir. Sonuç olarak ise \textit{VGGNet} adlı algoritma nesnelerin hareket ettirilmesi esnasında tanıma işlemini yapacak yöntem olarak belirlenmiştir. Ayrıca nesne sınırlarını belirlemek için de \textit{RetinaNet} adı verilen mimari ince-ayar yapılarak eğitilmiştir. İnce ayar yaparak eğitme işlemi, genel olarak geniş kapsamlı başarımı yüksek modelleri, ilgilenilen alanda parametleri güncelleyerek daha başarımlı hale getirmektedir. Konvolüsyonel sinir ağı modeli girdisi olarak sayısal piksel değerlerinden oluşan görüntü matrisi bir vektör haline dönüştürülür ve modele beslenir. Konvolüsyonel yapay sinir ağları genelde, konvolüsyon, en büyük değer havuzu, düzleştirme, normalizasyon, tamamen-bağlı gibi birçok katman içeren yapıya sahiptirler. Bu tezde, literatürdekilere alternatif bir havuzlama katmanı önerilmektedir. \textit{Smart-pooling} adı verilen bu yöntem, ilgili filtre içerisinde ortalamadan büyük veya küçük piksel değerlerini ele alarak işlem yapmaktadır. \textit{Smart-pooling}in, konvolüsyonel yapay sinir ağlarında en sık kullanılan, en büyük değer ve ortalama havuzlama yöntemlerine olan üstünlükleri gösterilmiştir. Görüntü girdileri bu katmanlardan, model parametreleri uygulanarak geçer ve çıktı katmanında sınıflandırılmak istenen nesneler sayısınca ünite bulunur. Bu ünitelerin her biri, farklı bir nesne sınıfını temsil etmektedir. Böylece en yüksek sayısal ünite değeri, konvolüsyonel sinir ağı girdisi olan görüntünün ait olduğu nesne sınıfını belirtmektedir. Konvolüsyonel sinir ağları geleneksel özelik algılama/tanıma yöntemlerine göre çok daha yüksek başarımlı ve gerçek zamanlı çalışmaya uygundur. Benzetim ortamında, $2$ serbestlik dereceli robotik kol ve üç adet derinlik kamerası kullanılarak yapılan nesne hareket ettirme eylemlerinde, nesnelerin ağırlık, yoğunluk, hacim ve boyut gibi fiziksel özellikleri hareket etme esnasında farklı davranışlar ortaya çıkmasına neden olmuştur. Örneğin aynı ağırlık, farklı hacimdeki nesnelere aynı şiddette kuvvet, aynı veya farklı noktalardan uygulandığında hafif olan nesne devrilirken diğeri istenen hareketi gerçekleştirebilmektedir. Sonuç olarak nesne fiziksel özellikleriyle beraber kuvvet uygulama noktasının önemi ortaya çıkmıştır. Bu tezde, görsel olarak tanınan nesnelerin derin öğrenme yöntemleri kullanılarak hareket ettirilmesi için \textit{Deep Table} adı verilen bir deney platformu oluşturulmuştur. \textit{Deep Table}'da, robotik kolun çalışma alanını ortlayacak şekilde tepeye sabitlenmiş bir adet derinlik kamerası, çalışma alanını karşıdan görecek şekilde bir adet kamera, kartezyen koordinatlarda değişken yarıçaplı makara-değişken sertlikli eklem sistemini dikey ve yatay eksende hareket ettiren bir robotik mekanizma, bir güç kaynağı ile motorları hareket ettiren sinyalleri üreten mikrodenetleyiciler ve deneylerde toplanan duyarga verilerini gözlemleme ve algoritma geliştirmede kullanılan bir bilgisayar bulunmaktadır. Karşıdan çalışma alanını gören kamera, nesnelere kuvvetin uygulanacağı yüksekliği hesaplamak için nesne sınırlarını ve nesne sınıfını belirlemede kullanılır. Derinlik kamerası ise nesne hareketini takip eder ve nesne hacmi hesabında kullanılacak veriyi sisteme sağlar. Bu kameralardan alınan verilerle nesne sınıflarına atanan özniteliklere göre hesaplamalar yapılır ve robotik kolun nesneye uygulayacağı kuvvet noktası ve kuvvetin şiddeti belirlenir. Tez kapsamında olası birçok ihtimalden $5$ tanesi için deney sonuçlarına yer verilmiştir. Deneylerde sermaik bardağı, plastik şişe boş ve dolu durumları için hareket ettirilecek nesneelr olarak kullanılmıştır. Herhangi bir akıllı kontrol yöntemi uygulanmadığında rastgele durumlar hariç nesnelerin istenen hareketi elde edilememiştir. Önerdiğimiz kontrol yaklaşımıyla, boş plastik şişe veseramik bardak gibi ağırlık, boyut ve yoğunluk gibi fiziksel özellikleri birbirinden çok farklı nesneler bile başarıyla hareket ettirilirken, aynı şişeye belli bir miktar su doldurulduktan sonra değişken yarıçaplı makara-değişken sertlikli eklem sistemi iç sertliğini en üst seviyeye çıkarsa da gerekli kuvveti sağlayamadığı için hareket belli bir noktada sonlanmıştır. Bu sonuçlar, tezde önerilen kontrol yaklaşımının nesnelere ait görsel verilerden anlamsal bağ çıkarımı ile robotik mekanizmaların nesne hareket kabiliyetlerini geliştirilebileceğini açıkça göstermektedir.
Özet (Çeviri)
People collect the greatest and most qualified data from their environment through vision systems. However, for a more complete and reliable perception, it is necessary to use corresponding data from other senses. Analogous to humans, robots collect data from the medium they are in via sensors. Object detection, recognition, and semantic value attribution are among the most recent research areas in robotics. The development of software and hardware technologies ensures the intelligence of everyday life. High-resolution, depth-sensing cameras, such as the Internet devices of objects, have made it possible to obtain multi-dimensional and large volume data. In parallel, robots have begun to be regarded as part of social life as well as the industrial field use. Human-robot interaction systems require high accuracy and speed in terms of real-time operation as content. In the context of human-robot interaction, safe, fast, and able to perform tasks with high performance / low error rates, has become possible with the help of the advanced machine learning algorithms and the relevant hardware technologies for these algorithms. In intelligent manufacturing facilities, the robots are directly dependent on their hardware and software systems for their movements during their displacement, their ability to perform their assigned tasks at expected performance levels. Convolutional neural networks (CNNs) are trained for purposes such as object recognition, object boundary detection, object segmentation, semantic linkage. CNNs are a generic name given to specialized artificial neural network models that contain a certain number of hidden layers, with some extraordinary architecture, parameter update methods, and activation functions. Deep CNNs are trained using large number of data give results with minimal error values that are better than human performance regarding recognizing objects in the data set they are trained in, determining bounding-box coordinates surrounding the objects, and segmenting. Object localization and recognition operations for applications in the field of robotics are inadequate concerning semantic information extraction and object-based relationships. For this reason, the class to which the object belongs is assigned attributes beyond the class labels, so that the algorithms can infer from the semantic content. In this thesis, the performances of the conventional visual feature detector and descriptor methods are analyzed in detail. In addition to the ordinary criteria such as speed, performance, and matching feature per image as performance criteria, we also took the distance between matching attributes, the number of correct matching attributes and the angular orientation difference between matching points into account during performance comparisons. In the experiments, a query dataset consisting of $ 127 $ template images was conducted matches with a dataset consisting of $ 3090 $ images. As a result of this study, it has been shown that some conventional feature extraction methods yield acceptable levels when accuracy is considered. However, no high-accuracy combination suitable for real-time operation has been achieved. From this aspect, manipulating visually recognized objects within this thesis with a robotic mechanism has been executed using deep learning methods. As a robotic mechanism, a structure consisting of a variable radius pulley-variable stiffness joint system is integrated into the experimental environment we call it the \textit{Deep Table}. In this thesis, an image data set named \textit {ADORESet} was built to bridge the gap between the real world conditions and the simulation environments for use in robot vision studies. \textit {ADORESet} consists of $ 30 $ categories consisting $2500$ real, $ 750 $ synthetic images in each class, which are manually labeled and bounding-boxes are also specified by hand. We use \textit {VGGNet} to perform the object recognition process and \textit {RetinaNet} to determine the object locations when moving objects. In this thesis, an alternative pooling layer is suggested to extend the literature. This method, called \textit {Smart-pooling}, processes the relevant filter by taking the values of large or small pixels roughly. The superiority of the \textit {Smart-pooling} against average and max-pooling methods are shown, which are frequently used in CNNs. The physical properties of the objects, such as weight, density, volume, and size, caused different behaviors when moving objects using a $ 2 $ degrees of freedom (DoF) robotic arm and three depth cameras in the simulation environment. For example, when the same force is applied from the same or different points to the same volume, objects that are different from one another can perform the desired movement other than tilting a light object. As a result, the physical strength of the object, as well as the strength of the force application point, emerged. In this thesis, a test platform called \textit {Deep Table} was created to move visually recognized objects using deep learning methods. In the \textit {Deep Table}, there is a depth camera fixed at the top to center the robotic arm workspace, a camera in front of the workspace, a robotic mechanism that moves the variable radius pulley-variable stiffness joint system in Cartesian coordinates vertically and horizontally, micro-controllers that generate signals that drive motors with a power supply, and a computer that is used to observe sensory data collected during the experiments and to develop algorithms. We present $5$ of the possible cases for the empirical test results. The results prove that our algorithm can move different types of objects successfully ranging from several grams (empty bottle) to around $250$ grams (ceramic cup). The experiments also explain the role of contact point where the f/t is applied onto the object. If the contact point is adjusted conveniently, then the manipulation is terminated with a tilt over of the object. These results undoubtedly confirm that the control approach proposed in the thesis can improve the object mobility of robotic mechanisms by semantic bond extraction from visual data of objects.
Benzer Tezler
- Design and visual servo control of a non-holonomic mobile manipulator for visual inspection
Görsel denetleme için holonomik olmayan mobil manipülatörün tasarımı ve görsel servo kontrolü
MERT ŞEN
Yüksek Lisans
İngilizce
2023
Makine MühendisliğiOrta Doğu Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET BUĞRA KOKU
DOÇ. DR. EROL ŞAHİN
- Relationships between delusion-like experiences, lack of control, pattern perception, false memory and decision making
Delüzyona benzer deneyimler, kontrol eksikliği, örüntü algısı, bellek yanılgısı ve karar verme arasındaki ilişkiler
OSMAN GÖRKEM ÇETİN
Yüksek Lisans
İngilizce
2019
PsikolojiBahçeşehir ÜniversitesiPsikoloji, İnsan Bilimleri ve Felsefe Ana Bilim Dalı
PROF. DR. METEHAN İRAK
- Sayısal arazi modeli ve batimetrik verilerin kıyı bilgi sistemine entegrasyonu
Başlık çevirisi yok
CİHANGİR AYDÖNER
Yüksek Lisans
Türkçe
1998
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiUzaktan Algılama Ana Bilim Dalı
PROF. DR. DERYA MAKTAV
- Grafik tasarımda görsel okuma dili
Reading the visual language in graphic design
SİNEM EKEN
Yüksek Lisans
Türkçe
2015
Güzel Sanatlarİstanbul Arel ÜniversitesiGrafik Tasarımı Ana Sanat Dalı
PROF. DR. MEHMET ÖZET
- Subjective intensity and pleasantness in taste
Tatta öznel yoğunluk ve hoşluk' konulu
MARİA GERALDİNE VELDHUİZEN