Geri Dön

Audio visual attention for robots from a developmental perspective

Gelişimsel perspektiften robotlar için görsel ve işitsel diıkkat

  1. Tez No: 507280
  2. Yazar: NADA AL AZZAWI
  3. Danışmanlar: YRD. DOÇ. DR. GÖKHAN İNCE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 97

Özet

Geli¸simsel robotik, insana özgü bir davranı¸sın geli¸simsel bir biçimde robota gömülmesini ele almaktadır. Bu robotik alanında bili¸ssel bir karar verme modelinin bile¸senlerinin geli¸simi için insanın bili¸ssel modeli ilham alınır. Bu amaç için temel gereksinimler, çoklu algı ile artımlı ö˘grenme yetisi ve bu yeti için gereken sistemin hiyerar¸sisidir. Geli¸simsel bir yapıya ula¸smak için, sistemin hiyerar¸sik olması gerekir. Özellikle, algı seviyesi, karar seviyesinden ayrı (ve alt seviyesinde) olmalıdır. Bir bili¸ssel yapı, alt seviyeden üst seviyeye do˘gru ilerleyen bir süreç ile gerçekle¸sir. Bu süreç, kaynakların i¸slenmesinin devreye sokulması ve daha dü¸sük öncelikli uyaranlara kar¸sı bir tepkinin bastırılmasında azalmayı gerektirmelidir. Bu, bir modelde sadece önemli bilgilerin kullanılabilmesi için uygulanan filtrelemeye benzer. Aynı zamanda, bu süreç içerisinde i¸slenmemi¸s bilgi yerine bu bilgiden çıkartılan anlamın, sembolik bir ¸sekilde aktarılması gerçekle¸stirilmektedir. Ancak, bu tür bir hiyerar¸sinin özünde gerçekten geli¸simsel olabilmesi için artımlı ö˘grenme önemli bir etkendir. Nihayetinde, insan bili¸ssel modeli, ya¸sam boyu süren bir evrim yoluyla son derece karma¸sık dinamiklerine ula¸sır. Nitekim, artımlı ö˘grenme, bu durumda, yeni bir deneye ba¸slarken gereken verilerin kıtlı˘gının söz konusu oldu˘gu çıkmaza bir yol sunmasının yanında daha fazlasını da sunabilir görünmektedir. Aynı zamanda, bu ö˘grenme, daha geni¸s bir alanda ve uzun vadeli bilimsel bir ara¸stırmada kullanılabilecek muhtemel bili¸ssel-fonksiyonların birle¸sik bir ¸sekilde a¸samalı ve artarak büyümesi için birle¸sik bir büyüme imkânı sa˘glamaktadır. Bu bili¸ssel fonksiyonların ço˘gunlu˘gu, farklı alt seviye duyulardan elde edilen ve tümle¸stirilen bilgiler ile beslendi˘gi için do˘gal olarak çoklu algısal bir yapı söz konusu olmaktadır. Oldukça hiyerar¸sik olan bu fonksiyonlar arasında dikkate odaklanma, literatürde yo˘gun bir ¸sekilde ele alınmı¸stır. Daha detaylı açıklamak gerekirse i¸sitsel-görsel dikkat, çoklu algısal bilgi tümle¸stirme yöntemine dayanır. Geli¸simsel bir yapı içinde i¸sitsel-görsel dikkate dayalı bir sistemin tasarlanması için, insan modelinde bulunan dikkate odaklanma olgusunun do˘gası anla¸sılmalı ve makine ö˘grenmesi ve yapay zekâ alanında tercüme edilmelidir. Sinirbilim literatüründe bulunan“i¸sitsel-görsel nesneler”ve“ba˘glanma”gibi dikkate odaklanma ile ilgili kavramlar, i¸sitsel-görsel dikkatin nasıl ortaya çıktı˘gıyla ilgili önemli bir fikir vermektedir.“˙I¸sitsel-görsel nesneler”, gözler ile algılanan görsel bir nesnenin yaydı˘gı ve kulaklar tarafından algılanan i¸sitsel niceli˘gin bili¸ssel olarak ili¸skilendirilmesini ifade eder.“Ba˘glama”kavramı ise, bu sembolik ili¸skilendirmeyi sa˘glamaktan sorumludur. Tasarım ilhamı için bu kavramları incelemek ve benzerini, yapay zekâ alanında gerçekleyebilen bir sistemin tasarımı, algılanan görsel ve i¸sitsel niceliklerden elde edilen“öznitelikler”kullanılarak sa˘glanabilir. Burada tanıtılan i¸sitsel-görsel dikkate odaklanma sistemi, iki seviyeli bir hiyerar¸sidir. Alt seviyede i¸sitsel ve görsel algılama kipleri bulunmaktadır; ikinci seviyede ise, daha üst seviyeli bir bili¸ssel davranı¸s tasarımı için alt seviyedeki bilgiler tümle¸stirilmektedir. Bu modeller, Payla¸sımlı bilgi tabanı (Shared base-knowledge) ya¸sam boyu modeli, Ayrı bilgi tabanı (Separate base-knowledge) ya¸sam boyu modeli, yineleme tabanlı Ayrı bilgi tabanı modelidir. Modeller, bu denetimsiz ö˘grencilerin ö˘grenme sürecindeki ba¸sarım davranı¸sını ara¸stırmaktadır. Altı farklı sınıflandırıcı algoritmasının artımlı ö˘grenme davranı¸sları izlenilmekte ve bu modellerin sonuçları, aynı algoritmaların artımlı olmayan ö˘grenme sonuçları ile kar¸sıla¸stırılmaktadır. Her bir sınıflandırıcının do˘gruluk oranı ve e˘gitim süresi performansları, farklı öznitelik kümeleri çerçevesi ve farklı miktarda öznitelik içeren e˘gitim kümeleri çerçevesi ile de kar¸sıla¸stırılmaktadır. ˙I ¸sitsel-görsel dikkate odaklanma, daha sonra iki seviyeli bir mimari ve üç a¸samalı ö˘grenme yoluyla gerçeklenmektedir. Mimarinin ilk seviyesi i¸sitsel ve görsel kiplerden olu¸smaktadır. ˙I¸sitsel kip, artımlı ö˘grenme için önerilen Ayrı Temel Bilgi (Separate Base-Knowledge) ya¸sam boyu modeli ile çalı¸sır. Görsel model, Tek Atımlı Çok Kutulu Saptayıcı (Single Shot Multi-Box Detector (SSD)) mimarisi ile derin sinir a˘gı tabanlı önceden e˘gitilmi¸s (artımlı olmayan ¸sekilde) tensorflow tabanlı nesne tespiti uygulama programlama arayüzü olan bir nesne tanıma modelini kullanmaktadır. ˙Ikinci seviye, i¸sitsel ve görsel bilgileri tümle¸stirmek için alt seviyedeki kiplerden gelen sınıf etiketlerinin olasılı˘gını kullanan bir meta sınıflandırıcıdan yararlanır. Bu meta sınıflandırıcı, üç a¸samalı olarak geli¸smektedir. ˙Ilk a¸sama (Te¸shir) bu sınıflandırıcı için temel bilgiyi olu¸sturur ve i¸sitsel-görsel“ba˘glanma”kavramını gerçekle¸stirmektedir. Bu a¸samada, i¸sitsel-görsel bir nesnenin sembolik temsili, bir meta öznitelik vektörünün olu¸sturulması için i¸sitsel ve görsel kiplerin etiket olasılık de˘gerlerini içeren vektörlerin birle¸stirilmesiyle gerçekle¸stirilmektedir. Bu ¸sekilde ili¸skilendirme, iki duyumsal modelin etiket olasılık (alt seviyedeki kiplerin kararları) de˘gerleri arasındaki korelasyona göre sa˘glanmaktadır. Bu meta sınıflandırıcı, bu a¸samada meta öznitelik vektörleri ile artımlı olmayan ¸sekilde e˘gitilmektedir. ˙Ikinci a¸sama (Geni¸sleme), ilk a¸samada önceden belirlenmi¸s bir sınıfın do˘gasını geni¸sletmek ve de˘gi¸stirmek için yanlı¸s ili¸skilendirilmi¸s ses ve görsel bilgilerin listelenmesini içermektedir. Sistemde kar¸sıla¸sılan yanlı¸s ili¸skilendirme olayları, zorlanarak gerçekle¸stirilmek yerine bu meta sınıflandırıcı ile meta bir i¸sitsel-görsel veri örne˘ginin yanlı¸s sınıflandırılması durumunda ele alınmaktadır. Bu nedenle, bu a¸samada ö˘grenme, bir bakıcı tarafından sisteme etiketlenmenin yanlı¸s oldu˘gunun bildirilmesi ve do˘gru etiketin belirtilmesi için denetlenmektedir. Son a¸samada (Yeniden de˘gerlendirme) sisteme, daha fazla bilgi elde edildikten sonra benzer örnekler hakkındaki mevcut bilgilerle ve bellekte saklanan daha önce yanlı¸s tahmin edilmi¸s örneklerin yeniden kullanılmasıyla bu yanlı¸slı˘gın düzeltilme yetisi kazandırılmaktadır. Bu a¸samada düzeltme için iki yöntem (altyordam) kullanılır. ˙Ilk altyordam, karar a¸samasında ilk elde yanlı¸s etiketlenen geçmi¸s örneklere bakmaktadır. Bu örneklerin etiketleri üzerinde azami oyu alır ve o an eldeki örne˘ge uygulamaktadır. ˙Ilk altyordam ba¸sarısız olursa (veya söz konusu örnek akı¸staki ilk örne˘giyse), ikinci altyordam, yalnızca ses veya görsel meta bilgilerine bakarak etiketi çıkarmaya çalı¸sır. Altyordam, bu iki bilgi vektöründen hangisinin do˘gru (veya daha az gürültülü) olma olasılı˘gının daha yüksek oldu˘guna karar vermeye çalı¸sır. Ardından, ses/görsel xxiv ili¸skilendirme (te¸shir a¸samasında olu¸sturulmu¸s), iki meta veri türü arasında do˘gru olma olasılı˘gı daha yüksek olan etiketi seçmektedir. Alt seviyedeki kiplerin ve ikinci (meta) kipin ileti¸sim ve yayın bilgilerinin aktarıldı˘gı ileti¸sim mekanizması, Robot ˙I¸sletim Sistemi (Robot Operating System (ROS))'nin konu/mesaj (topic/message) mimarisi ile gerçekle¸stirilmektedir. Ses ve görsel veri algılanırken elde edilen zaman bilgisi özniteli˘gi, tüm kipler arasında senkronizasyon sorunlarını önlemek ve sisteme beslenen tüm i¸sitsel-görsel bilgilerin birbiriyle uyumlu olmasını sa˘glamak için kullanılır. Sistem de˘gerlendirilmesi esas olarak iki kısıma ayrılmı¸stır. ˙Ilk kısımda, ses sınıflandırması amacıyla artımlı ö˘grenme süreci ele alınmaktadır. ˙Ikinci kısımda ise i¸sitsel-görsel tümle¸stirme ve i¸sitsel-görsel nesne sınıflandırma süreçleri ele alınmaktadır. ˙Ilk olarak, artımlı ö˘grenme modellerinin de˘gerlendirilmesi için i¸sitsel verilerden elde edilen Mel Frekansı Kepstrum Katsayıları (Mel Frequency Cepstral Coefficients (MFCC)), delta MFCC, enerji filtre bankaları, izge grafikleri (spectrograms) ve renk parlaklı˘gı grafikleri (chromagrams) içeren bir dizi özniteliklerden olu¸san farklı kümeler kullanılmı¸stır. Bunlar ile ö˘grenme performansı do˘grulu˘gu ve gereken e˘gitim süresi üzerinden kar¸sıla¸stırmalar yapılmı¸stır. Tek ba¸sına MFCC öznitelikleri, en kısa sürede e˘gitildiklerinden ve bunların do˘grulu˘gunun daha karma¸sık bir öznitelik kümesiyle kar¸sıla¸stırılabilir olmasından dolayı verimli oldukları gözlemlenmi¸stir. Ardından, deste˘ge dayalı artımlı ö˘grenme modellerinin davranı¸sları de˘gerlendirilmi ¸stir. Sonuçlar ile Destek Vektör Makineleri (Support Vector Machines) ve Rastgele Ormanlar (Random Forests) gibi sınıflandırıcıların ço˘gunun, Çok Katmanlı Algılayıcı (Multilayer Perceptron) gibi sıradan bir artımlı ö˘grenme veya artımlı olmayan ö˘grenme modellerine göre sınıflandırma do˘gruluk oranının yükseldi˘gi gösterilmi¸stir. Hem Payla¸sımlı Bilgi Tabanı ya¸sam boyu modeli hem de Ayrı Bilgi Tabanı ya¸sam boyu modeli ile iyi performans gözlemlenmi¸s ve iyi sonuçlar elde edilmi¸stir. Ayrı Bilgi Tabanı yineleme tabanlı model ile ancak En Yakın k Kom¸su (k-Nearest Neighbour) algoritması dı¸sında iyi bir performans elde edilememi¸stir. ˙I ¸sitsel-görsel tümle¸stirme a¸samasında ö˘grenme a¸samaları, alt seviyedeki i¸sitsel ve görsel kiplerden elde edilen birle¸stirilmi¸s i¸sitsel ve görsel öznitelikleri (etiket olasılı˘gı olarak) içeren özel bir test kümesi ile de˘gerlendirilmi¸stir. Te¸shir a¸saması, bu küme ile %89'luk bir do˘gruluk elde etmi¸stir. Ancak, geni¸sleme a¸saması ise meta sınıflandırıcısı gelen tüm sınıfları,“önemsenmemesi gereken”sınıfı geni¸sledikten sonra bu sınıf olarak sınıflandırmı¸s olması sebebiyle iyi bir performans elde edememi¸s ve ba¸sarım oranı %7'ye dü¸smü¸stür. Bu sebeple, yeniden de˘gerlendirme a¸saması, te¸shir a¸samasına do˘grudan monte edilmi¸stir. Burada tanımlı olan altyordamlar ve davranı¸slar, test kümesindeki yanlı¸s etiket tahminlerini düzeltmeyi ba¸sarmı¸s ve son ba¸sarım oranını %100'e yükseltilmi¸stir.

Özet (Çeviri)

Developmental robotics is associated with embedding a human-like behavior in a developmental manner within the robot. The field takes inspiration from the human cognitive model for the syntheses of a cognitive-like decision-making model. The key concepts associated with the topic are hierarchy of the system, incremental learning and multi-sensory cooperation. To achieve a developmental like structure, the system has to be hierarchical in nature. Specifically, the perception level has to be separated from (and put beneath) the decision level. The cognitive-like structure is achieved by ascending from the lower-level to the upper level. The ascension should entail a reduction in the engagement of processing resources and a suppression of response to stimuli of lower priority. The process is similar to filtering where only important information propagated further in the model. Not only that, but it is also modified so that the meaning is conveyed in a symbolic manner rather than transporting the raw information itself. However, for the establishment of such hierarchy to be truly developmental in essence, incremental learning is a crucial factor. After all, the human cognitive model achieves its highly complex dynamics through a lifetime of evolution. As a matter of fact, incremental learning seems to offer, in this case, more than a way out of the scarcity of data at time zero of the experiment dilemma. But it also offers an opportunity of allowing a unified gradual growth of multiple prospective cognitive -functions embedding on a larger scheme and over the long run of the field's research. The multi-sensory cooperation comes then naturally in the picture because the majority of cognitive functions feed on the fused information provided by the different lower level sensory. Among the highly hierarchical cognitive functions, attention is one that has been heavily addressed by the literature. More specifically, audiovisual attention relies heavily on the concept of fusing multi-sensory information. In order to design an audiovisual attention system within a developmental framework, the nature of the attention phenomenon found in the human model has to be understood and translated into the machine learning and artificial intelligence view. Concepts related to attention like“audiovisual objects”and“binding”found in the neuroscience literature seem to provide key insight to how audiovisual attention occurs.“Audiovisual objects”are the cognitive-association representative of an auditory quantity emitted by a visual object perceived by both eyes and ears. The“binding”concept is the one responsible for creating this symbolic association. Examining these concepts for design inspiration, and taking into account that visual and auditory quantities are perceived through“features”from the scope of Artificial intelligence, a system-design that attempts to replicate such concepts can be established. The audiovisual attention system introduced here is of a two level hierarchy. The low level modules are auditory and visual perception modules; the second-level module fuses the information provided in the low level ones to achieve a higher-order cognitive like behavior. The auditory module relies heavily on the concept of incremental unsupervised learning, where the classifier labels the incoming new data instances, assumes the label to be true, append the instance to its past knowledge and retrains again. Three classification model structures that make use of a support classifier (which can be thought of as a short term auditory memory) are introduced to attempt to decrease the drop down of accuracy overtime. These models are Shared base-knowledge life-long model, Separate base-knowledge life-long model, Separate base-knowledge epoch-based model. The models investigate the accuracy behavior of unsupervised learners. Six different classifier algorithms are monitored for their behavior and the results of the models are compared to the offline learning case for the same algorithms. The performance in terms of accuracy and training time of each classifier is also compared within different feature set frames and different amount of data per training set frame. Audiovisual attention is then introduced through a two level architecture and three phases of learning. The first level of the architecture is comprised of the auditory module and the visual module. The auditory module operates with the Separate base-Knowledge life-long model suggested for incremental learning. The visual model uses a pre-trained (in an offline manner) object recognition model of deep neural network with a Single Shot Multi-Box Detector (SSD) architecture with the tensorflow object detection API. The second level module makes use of a meta classifier that operates on the classes labels probability of the low level modules in order to fuse the audiovisual information. The meta classifier is evolved developmentally in three phases. The first phase (Exposure) establishes the base knowledge for the meta classifier and realizes the audiovisual“binding”concept. In this phase the symbolic representation of an audiovisual object is realized through concatenating the label probability vectors of the auditory and visual modules to make up a meta feature vector. This way the association is introduced via correlation between label probability (low level modules decisions) values of the two sensory models. The meta classifier is trained with the meta feature vectors in an offline manner at this stage. The second phase (Expansion) attempts to expand and change the nature of a pre-established class in the first phase through enumerations of mismatched audio visual information. Mismatch events are not forced on the system but are rather taken when the meta classifier makes a false classification of a meta audiovisual instance. Therefore, learning at this stage is supervised by the caregiver, where the system is told of its false labeling and informed of the true label in order to enumerate the instances correctly. The last phase (Reappraisal) attempts to equip the system with the ability to correct its false guess of an instance through previous knowledge of related instances and via storing the wrong guessed instances in memory to go back to later after more knowledge has been obtained. For this phase two methods (subroutines) for correction are used. The first subroutine looks at the past instances in the stream of which the instance at hand was labeled falsely. It takes the maximum vote over the labels of these instances and applies it to the instance at hand. If the first subroutine fails (or if the instance in question is the first in the stream) then the second subroutine tries to infer the label by looking only at the audio meta information or the visual meta information. The subroutine tries first to decide which of these two information vectors is more likely to be accurate (or less noisy). Then, it picks the label whose audio/visual association (that was established in the exposure phase) is voted by the more likely to be accurate among the two types of meta information. The communication mechanism by which the low level modules and the second (meta) module communicate and broadcast information is maintained by the topic/message architecture of ROS. The timestamp feature is utilized for audio and visual capturing to avoid synchronization issues between all modules and insure that all audiovisual information being fed to the system correspond to each other. The system was tested in two parts. The first part addresses the audio classification by incremental learning problem. The second part addresses the audiovisual integration and audiovisual object classification problem. First, for the incremental learning models test, the auditory data were tested with different feature sets that consist of Mel Frequency Cepstrum Coefficients (MFCC), delta MFCC, energy filter banks and a range of other features that include spectrograms and Chroma-grams. Of those, the performance accuracy and training time were compared. Single MFCC features were found to be efficient since they train the fastest and their accuracy is comparable to a more complex feature set. Then, the support based incremental learning models were tested for their behavior. Results showed that most of the classifier such as support vector machines and random forests experienced a lift in performance accuracy with models introduced as opposed to regular incremental learning or even offline learning in the case of multilayer perceptron. Both the Shared Base-Knowledge lifelong model and Separate Base-Knowledge lifelong model performed well and obtained good results. The Separate Base-Knowledge epoch-based model however failed to achieve a good performance except for the case of k nearest neighbor algorithm. As for the audiovisual integration problem, the learning phases were tested with a custom made test set that includes the fused auditory and visual features obtained (as the labels probability ) from the lower level auditory and visual modules. The exposure phase achieved an accuracy of 89% on the test set. The expansion phase failed however, to achieve a good performance and the accuracy fell down to 7% because the meta classifier classified all incoming instances as a“don't-care”class after expanding said class. The reappraisal phase was thus mounted on the exposure phase directly. Its defined subroutines and behaviors managed to correct the false label estimations on the test set and the end accuracy was lifted to 100%.

Benzer Tezler

  1. Social behavior learning for an assistive companion robot

    Yardımcı robotlar için sosyal davranış öğrenimi

    PINAR ULUER

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  2. Lifelong learning for auditory scene analysis

    İşitsel sahne analizi için hayat boyu öğrenme

    BARIŞ BAYRAM

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN İNCE

  3. Backchannel prediction in human-robot interaction for engaging agents

    İnsan-robot etkileşiminde ilgi düzeyinin iyileştirilmesine yönelik arka-kanal sinyal kestirimi

    BEKİR BERKER TÜRKER

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ENGİN ERZİN

  4. 9-11 yaş çocuklarında mizah duygusunun gelişimi

    Başlık çevirisi yok

    DİLEK AKÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Eğitim ve ÖğretimMarmara Üniversitesi

    Sınıf Öğretmenliği Ana Bilim Dalı

    PROF. DR. ALİ OSMAN ÖZCAN

  5. Arguvan yöresi müzik kültürü ve pratikleri bağlamında 'Erhan Yılmaz örneği'

    'Erhan Yılmaz example' in the context of music culture and practices of Arguvan region

    CAN AYDOĞDU

    Doktora

    Türkçe

    Türkçe

    2024

    Müzikİnönü Üniversitesi

    Müzik Ana Bilim Dalı

    DOÇ. DR. MEHMET EMİN ŞEN