Geri Dön

Data association for object tracking in a shape-based sensory substitution system

Şekı̇l tabanlı duyusal ı̇kame sı̇stemı̇nde nesne takı̇bı̇ ı̇çı̇n verı̇ eşleşmesı̇

  1. Tez No: 512331
  2. Yazar: HOSSEIN POURGHAEMI ANBARDAN
  3. Danışmanlar: YRD. DOÇ. GÖKHAN İNCE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 82

Özet

Duyusal ikame sistemi (sensory substitution system), bir duyudan (örn. görsel) elde edilen bilginin başka bir duyuya aktarılmasını sağlar. Örneğin görsel-işitsel duyusal ikame sistemi kullanılarak, görsel bilgi kodlanıp, bir kulaklık aracılığıyla, ses olarak kullanıcıya aktarılabilir. Görsel-işitsel, dokunsal-dokunsal ve görsel-dokunsal ikame sistemleri de dahil olmak üzere, farklı duyusal ikame sistemleri bulunmaktadır. Görsel-işitsel duyusal ikame sistemleri, görme engelli insanlara yardım dahil, çok sayıda potansiyel uygulamaya sahiptir. Görme engelli bireylerin çevrelerindeki nesneleri konumlandırmalarına ve manipüle etmelerine, engellere çarpmadan hem iç hem de dış mekanlarda gezinmelerine olanak sağlayabilirler. Bunun için kullanıcıya, nesnelerin konumunu ve şeklini tespit etmek için yeterli bilginin sağlanması gerekmektedir. Bu tezde, görsel-işitsel duyusal ikame sisteminin bir parçası olarak, birden fazla 3B nesnenin gerçek zamanlı takibi için bir veri eşleşmesi (data association) yaklaşımı sunulmuştur. Duyusal ikame sistemimizde, ortamın 3B yapısı derinlik kamerası kullanılarak nokta bulutu (point cloud) şeklinde elde edilmiştir. Bu nokta bulutu ön işlemeden geçirilmiş, parçalarına ayrılmış, takip edilmiş ve sonunda, nesneler gerçek zamanlı bir şekilde konumsal ses (spatial audio) olarak kullanıcılara sunulmuştur. Sistemin zor kısımlarından biri, çıkarılan parçaların peş peşe gelen nokta bulutlarında takibini yapmaktır. Çıkarılan bu parçalar duyusal ikame sisteminde işitsel konumlandırma ve sese dönüştürme ( auditory spatialization and sonification) için öncü nesneler (proto-objects) olarak ele alınır. Dolayısıyla bu parçaların takibi bilgilendirici, temiz ve güzel bir ses üretmek için çok önemlidir. Sistemin, farklı nesneleri veya bir nesnenin farklı parçalarını takibi için özgün bir veri eşleştirme yaklaşımı bu tezin temel teknik katkısıdır. Sunulan bu yaklaşımda her bir eşleşmeyi değerlendirmek için iki farklı masraf fonksiyonu (cost function) tanıtılmıştır. Bu veri eşleştirme yaklaşımı, girdi olarak iki bölüt kümesi almaktadır. İlk küme bir önceki çerçeveden izleyici tarafından elde edilen ilkel bölütleri hedef olarak, ikinci küme ise mevcut çerçeveden bölütleyici tarafından elde edilen bölütleri gözlem olarak olarak içermektedir. Bölütler üzerinde birleştirme, değerleme, doğrulama, arama ve kimlik tahsisi gibi bazı ara adımlar uygulanır. Sistem çalışmaya başladığında elde edilen ilk bölüt kümesindeki bölütlere kimlik ataması rastgele yapılmaktadır. Algoritmanın istenen çıktısı, bölütlerin uygun şekilde birleştirilip doğru kimliklerin atanmasıdır. Bunlardan ilki primitif görüntü momentinlerini (primitive image moments) kullanırken diğeri parçalar arasındaki piksel çakışmasını kullanır. Ayrıca olası eşleşmeler arasında arama yapmak için üç farklı arama yöntemi denenmiştir; (1) hırslı yaklaşım (greedy approach), (2) kaba kuvvet yaklaşımı (brute force approach) ve (3) genetik algoritma (genetic algorithm). Gerçeklenen takipçinin (tracker) performansını değerlendirmek için iki çeşit deney yapılmıştır: (1) yalnızca takipçinin başarısının çevrimdışı veri kümesi üzerinde test edilmesi ve (2) gözleri bağlanmış kullanıcının gerçeklenen takipçiyi kullanarak serbest bir ortamda (in the wild) nesneleri tanıması ve nesnelerin yerlerini belirlemesi kabiliyetinin test edilmesi. Çevrimdışı deneyi yapmak için iki farklı küçük veri kümesi toplanmıştır. Her iki veri kümesi de takipçinin performansını farklı masraf fonksiyonları ve arama yöntemleriyle ölçmek için kullanılmıştır. Kullanıcılarla serbest ortamda yapılan deney için, bu tezin kapsamında olmayan, iki sese dönüştürme yöntemi (objelerin iç ve dış çevrelerini kodlayan), kullanıcıların zemine yerleştirilmiş nesnelerin yerlerini belirleme ve nesneleri tanıma kabiliyetlerini ölçmek için kullanılmıştır. Yerelleştirme testi için, gözü kapalı kullanıcıların sabit bir pozisyonda kalmaları, ve yere yerleştirilen tek bir nesneye doğru yürümeleri ve nesneyi konumlandırmaları istenmiştir. Konumlama yapıldıktan sonra, kullanıcılardan nesneyi tanımlamaları istenmiştir. Bu deney için, farklı şekil, boyut ve karmaşıklığa dayalı olarak altı nesne kullanılmıştır. ABA/BAB deney protokolü varyantı kullanarak, eğitim ve test sırasında öğrenmenin etkisi ve deneylerin sıralarının etkisi araştırılmıştır. Sınırlı sayıda katılımcı ve sınırlı süreleri olan bu sıra tabanlı deneme, her bir katılımcının her iki durumu da değerlendirmemizi sağladı. Deneyler, ABA veya BAB sekansındaki üç testin her birini gerçekleştirmeden önce, bağımsız bir eğitim oturumu sırasında katılımcılara sistem hakkında bilgi verildi ve sınırlı bir süre için kendilerini eğitmelerine izin verildi. Daha sonra, her bir testte, katılımcılardan çevrede bir nesneyi yerelleştirmesi ve sonra bunu tanıması istendi. Sınırlı veri kümesiyle yapılan çevrimdışı deneylerde hırslı yaklaşımın, parçala ve birleştir sırasında bölünme durumunu uygun şekilde algılayamamasından ötürü, kaba kuvvet ve genetik yaklaşıma kıyasla daha az etkili olduğu gözlenmiştir. Öte yandan sonuçlar, bizim küçük veri kümemiz üzerinde, moment temelli ve çakışma temelli masraf fonksiyonlarının ikisinin de benzer performanslar göösterdiklerini işaret etmektedir. Genetik algoritma ve kaba kuvvet yaklaşımlarının karşılaştırılmasının sonuçları ise göstermektedir ki, yeniden başlama stratejisi kullanılmadan, genetik algoritma çoğunlukla çoklu çalıştırma (multi-run) ve kaba kuvvet yaklaşımlarına kıyasla daha zayıf bir eşleşme bulmaktadır. Çoklu çalıştırma algoritması, kaba kuvvet algoritmasına yakın bir performans sergilemekte ve çoğu zaman tek sefer çalıştırma (single run) yönteminden iyi sonuçlar vermektedir. Bunlara ek olarak, parça sayısı az olduğunda kaba kuvvet yöntemi yeterince hızlı çalışsa da, parça sayısı arttıkça kaba kuvvet yöntemi yavaşlamakta ve gerçek zamanlı olmaktan çıkmaktadır. Gerçeklenen çoklu çalıştırmalı genetik algoritma yöntemi ise gerçek zamanlı takip kabiliyetine sahiptir. Önerilen takipçi kullanılarak serbest ortamda yapılan deneylerin sonuçları, kullanıcıların sistemimizi kısa sürede öğrenebildiklerini ve nesnelerin yerlerini belirleyebildiklerini göstermiştir. Kullanıcılar nesnelerin yerlerini tam olarak ya da yakın bir şekilde, çoğunlukla belirleyebilmişlerdir. Deneyler sırasında, bazı küçük nesneler için, nesnenin uzak konumlarda olduğu zaman, sistemin nesneleri doğru şekilde algılayamadığı gözlemlenmiştir. Bu durumlarda, katılımcılar bir adım atmaya ve bir ses duyana kadar çevreyi yukarıdan aşağıya ve soldan sağa tekrar taramışlardır. Diğer taraftan, sistem uzak konumlarda olsa bile top gibi diğer büyük nesneleri her zaman tespit edebilmektedir. Ek olarak, sistemimizi kullanan kullanıcılar çoğu zaman nesneleri başarılı bir şekilde tanımlayabilmişlerdir. Katılımcılar bitkiyi ve topu, sırasıyla %93 ve %100 doğrulukla iki kodlama yaklaşımında da tanımlayabilmişlerdir ve bu tanımlama doğruluk oranları bütün objeler arasında en yüksekleridir. Her iki yöntem için, katılımcılar, nesne seslerinin kodlamasının mantığını anlamaya çalışmalıdırlar. Dahası, iki ana ipucu, katılımcılar tarafından nesnelerin, çalınan seslerin sayısının ve kameranın döndürülmesinin tanınması için yoğun bir şekilde kullanılmıştır. Sonuçlar iki sese dönüştürme yönteminde de benzer performanslar alındığını göstermektedir. İzin verilen maksimum eğitim süresi 45 dakikadır, ancak sonuçlar sistemimizin daha kısa sürede öğrenilip kullanılabileceğini göstermektedir.

Özet (Çeviri)

In this thesis, a data association approach to real-time tracking of multiple 3D objects as a part of an auditory-to-vision sensory substitution system is presented. In our sensory substitution system, a depth camera is used to access the 3D structure of an environment in the form of point clouds; the point cloud is preprocessed, segmented, tracked and eventually, objects are presented to users as spatial audio in real time. One of challenging parts of the system is keeping track of the segments extracted from each incoming point cloud, which in the sensory substitution system are treated as proto-objects for auditory spatialization and sonification; it is essential for the purpose of generating an informative, clear and pleasant sound. A novel data association approach to object tracking, which allows the system to keep track of different objects or different parts of a single object, is the primary technical contribution of this thesis. To evaluate each set of associations in the presented approach, two cost functions are introduced. One makes use of the primitive image moments, while the other takes into account the pixel overlap between segments. Furthermore, three different search methods are tried for searching among possible associations; (1) a greedy approach, (2) a brute force approach and (3) a genetic algorithm. To evaluate the performance of the implemented tracker, two kinds of experiments are conducted: (1) testing the performance of tracker independently on an off-line dataset (off-line experiments) and, (2) testing the ability of the blindfolded users to localize and recognize objects in the wild using the implemented tracker. To conduct the off-line experiments, two different small data sets are collected; both of them were used to evaluate the performance of the tracker with different cost functions and search methods. For the experiment done in the wild with users, two sonification methods implemented outside the scope of this thesis, which encode the internal and external contour of 3D objects, are used to evaluate the ability of users to localize and recognize objects placed on the floor in a controlled physical environment. Using an ABA/BAB experimental protocol variant, the effect of learning during training and testing as well as order effects of experiments is investigated. On our limited data set, off-line experiments suggest that although the greedy approach is less effective than the brute force and genetic approaches in detecting splitting and merging situations, but in normal cases, they perform similarly. On the other hand, results indicate that the moment-based cost function performs better then overlap-based functions in detecting the moving objects. The result of comparison between genetic algorithm and brute force approach shows that, without using a restart strategy, the GA mostly finds a weaker association than the multi-run and also brute force approaches. The multi-run algorithm performs similarly to the brute force algorithm and most of the time better than the single-run method. Furthermore, although the brute force algorithm sometimes works fast enough when the number of segments is low, when the tracker gets more segments as input it works too slow and not real-time. The implemented multi-run GA method is capable of real-time tracking. Results of experiments in the wild show that using the proposed tracker, our system enables users to localize objects with short learning time, where participants can localize (precisely or poorly) the objects most of the time. Furthermore, using our system participates could successfully recognize objects most of the time. Participants could identify plant and ball in both encoding approaches with 93% and 100% accuracy, respectively, which is the highest recognition accuracy among all the objects. Results show similar performance between the two sonification methods.

Benzer Tezler

  1. Accurate 3D tracking using visual and depth data

    Görsel ve derinlik verileri kullanılarak hassas 3B takip

    OSMAN SERDAR GEDİK

    Doktora

    İngilizce

    İngilizce

    2014

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDULLAH AYDIN ALATAN

  2. Exploring the cognitive processes of map users employing eye tracking and EEG

    Göz izleme ve EEG yöntemleri kullanılarak harita kullanıcılarının bilişsel süreçlerinin araştırılması

    MERVE KESKİN

    Doktora

    İngilizce

    İngilizce

    2020

    Coğrafyaİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET ÖZGÜR DOĞRU

    PROF. DR. PHILIPPE DE MAEYER

  3. Kavşak ve karayollar için gerçek zamanlı görü tabanlı trafik akış bilgisi hesaplama sistemlerinin geliştirilmesi

    Development of real-time vision based traffic flow information estimation systems for intersection and highways

    JAHONGIR AZIMJONOV

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET ÖZMEN

  4. Bir iletişim arayüzü olarak kent: İz bırakma ve haritalama

    The city as a communication interface: Tracing and mapping

    HANDE SERMET TOPÖNDER

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. İPEK VEDİA YÜREKLİ İNCEOĞLU

  5. Otonom kara araçlarında veri ilişkilendirme algoritmaları ile çoklu nesne takibi

    Multi object tracking using data association algorithms for autonomous ground vehicles

    YEŞİM GÜRBÜZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN PARLAKTUNA

    DR. ÖĞR. ÜYESİ HAKAN KORUL

    DR. ÖĞR. ÜYESİ BURAK KALECİ