Automatic gaze detection for child-robot interaction
Çocuk-robot etkileşiminde otomatik bakış tespiti
- Tez No: 886369
- Danışmanlar: PROF. DR. HATİCE KÖSE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 71
Özet
Bakış davranışı güçlü ve sözsüz bir iletişim biçimidir. Bunun yanında bakış özellikle bakarak öğrenme yönteminin temel adımıdır. Sosyal etkileşimlerde bakış, dikkatin önemli bir göstergesidir. Otizmli bireyler için ise bakış davranışı özellikle kritiktir. Çünkü otizmli bireyler yüze bakmaktan çekinme eğilimine sahiptir. Bu sebepten otizmli bireyler sosyal etkileşimlerde kayda değer zorluklarla karşı karşıya kalırlar. Literatürde bakış tahmin teknolojileri yüz resimlerinden ve sahne resimlerinden olmak üzere iki ana yönteme ayrılmaktadır. Yüz resimlerinden bakış tahminleri genellikle yakın çekim resimlerden ya da bakış takip teknolojilerinden elde edilen resimlerle yapılmaktadır. Proje kapsamında otizmli bireylerin bakışlarını tahmin ederken olabildiğince doğal sonuçlar elde etmek ve her ortama uyarlanabilirliğini sağlamak için sahne resimlerinden göz tahmin teknolojisi kullanılmıştır. Bu çalışma, otizmli çocuklar ve robotlar arasındaki etkileşimlerde iki boyutlu (2B) bakış hedef noktalarını ve ilgili alanlarını tespit etmek için Otomatik Bakış Tespit (OBT) sisteminin geliştirilmesine odaklanmaktadır. OBT sisteminin geliştirilmesinde bu çalışma kapsamında etiketlenen ChildPlay-R ve EMBOA-Gaze isimlerinde iki yeni veri seti kullanılmıştır. ChildPlay-R veri seti otizmli olan ve olmayan çocukların yetişkinlerle olan etkileşim videolarını ve çocukların iki boyutlu (2B) bakış hedef noktalarını içermektedir. ChildPlay-R veri seti açık kaynaklı ChildPlay Gaze veri seti temel alınarak EMBOA veri setine benzer ortama sahip olanların otizmli ve otizmli olmayan olarak etiketlenmesiyle oluşturulmuştur. ChildPlay-R veri setinde beş video otizmli olan, on video ise otizmli olmayan olmak üzere toplam on beş video yer almaktadır. EMBOA-Gaze veri seti otizmli çocukların etkileşim oyunlarını içeren robot destekli terapi videolarını, 2B bakış hedef noktalarını ve bu noktaların bölgesel karşılıklarını (“Robot”,“Terapist”ve“Diğer”) içermektedir. EMBOA-Gaze veri seti, beş ve on yaşları arasındaki sekiz otizmli çocuğu (altı erkek ve iki kız) ve iki tipik gelişim gösteren çocuğu (iki erkek) içermektedir. Çocuklar seanslar sırasında sık sık hareket ettiğinden sahne resimlerini yakalamak amacıyla balıkgözü kamera kullanıldı. EMBOA-Gaze veri seti AB Erasmus+ tarafından finanse edilen EMBOA projesinin bir parçasıdır. EMBOA projesinin amacı otizmli çocuklara yönelik robot destekli müdahalelerde duygu tanıma teknolojilerinin uygulanmasına yönelik kılavuzlar ve pratik değerlendirmeler geliştirmektir. Bu proje kapsamında EMBOA-Gaze veri seti için saha testlerinde bulunulmuş, veri etiketleme için uygulama geliştirilmiş, verilerin etiketlenmesi sağlanmış ve bu verilerin güvenilirliği incelenmiştir. Oturumlardan biri iki farklı kişi tarafından etiketlendi. Bu etiketler arasındaki uyum düzeyini değerlendirmek için Cohen's Kappa analizi uygulandı. Analiz 0,695 Kappa puanıyla sonuçlanarak etiketler arasında güçlü düzeyde bir anlaşma olduğu gösterildi. Aynı zamanda veriler üzerinde bağımlı örneklem t-testi uygulandı. Bu test sonucunda Otizmli çocukların bakışlarını diğer kategorilere göre önemli ölçüde daha fazla robota yönelttiklerini ve diğerlerine kıyasla terapiste anlamlı derecede daha düşük bakış oranı sergilediklerini ortaya çıkardı. OBT sistemi Baş Tespit Modülü, Uyarlanabilir Bölge Tespit Modülü, Özelleştirilmiş Uzay-Zamansal Bakış Mimarisi (Ö-UZBM) ve Bölge Sınıfı Atama Modülü olmak üzere dört ana bileşenden oluşturuldu. Baş Tespit Modülü başı saçlar dahil tüm özellikleriyle bulmak için YOLOv8 ile eğitilmiştir. Uyarlanabilir Bölge Tespit Modülü de bölgelere tekabül eden aktörlerin hareketli olmasında dolayı uyarlanabilir olacak şekilde YOLOv8'de eğitilmiştir. Ö-UZBM modülü, Uzay-Zamansal Bakış Mimarisi (UZBM) modelinin ince ayarlanmış ve katmanlarında değişiklik yapılmış versiyonudur. Bölge Sınıfı Atama Modülü ise tespit edilen bölgenin ait olduğu alana atanması işlemidir. EMBOA-Gaze veri setinde daha yüksek başarıya ulaşabilmek için önce ChildPlay-R veri seti ile eğitim yapılmıştır. Böylece yetişkinlerin bakış verileri üzerinde eğitilen GazeFollow ve Attention Target Detection ağırlıkları, çocuk bakış veri seti olan ChildPlay-R veri seti ile de eğitilerek otizmli çocukların bakışlarının daha doğru bulunması sağlanmıştır. ChildPlay-R veri seti üzerinde yapılan konfigürasyon önce daha başarılı olan ağırlığın bulunmasıdır. Bu işlem sonucunda GazeFollow ve Attention Target Detection ağırlıkları karşılaştırılmış ve Attention Target Detection ağırlığında daha yüksek başarıya ulaşılmıştır. Ardından UZBM ve Ö-UZBM modelleri karşılaştırlmış ve Ö-UZBM modelinde daha yüksek başarıya ulaşılmıştır. Bu modelden elde edilen ağırlık EMBOA-Gaze veri setinin eğitiminde kullanılmıştır. EMBOA-Gaze veri seti üzerinde yapılan konfigürasyon Attention Target Detection ve ChildPlay-R ağırlıklarından daha başarılı olan ağırlığın bulunması ve eğitimin başarıya katkısının belirlenmesidir. Bu işlem sonucunda ChildPlay-R ağırlığı ile daha yüksek başarıya ulaşmıştır. OBT sisteminde yer alan Ö-UZBM modülünün optimum hale ulaşabilmesi için modellerin GazeFollow, Attention Target Detection ve ChildPlay-R olmak üzere üç farklı ağırlık konfigürasyonuyla başlatılmasının etkisi değerlendirildi. Modellerin performansı ChildPlay-R ve EMBOA-Gaze veri setleri üzerinde gerçekleştirilerek hem doğrudan test hem de eğitimden sonra test operasyonları uygulandı. Bunun yanında Ö-UZBM ve UZBM modelleri karşılaştırıldı. Değerlendirme sonucunda optimum sonuca Ö-UZBM modelinin ChildPlay-R veri seti ağırlıklarıyla başlatılması ile ulaşıldı. Analizler Ö-UZBM modeliyle UZBM modeline kıyasla Eğri Altındaki Alan değerlerinde önemli iyileşmeler olduğunu ortaya çıkardı. Ö-UZBM modelinde çocukların 2B bakış dikkat hedefini tahmin etmede %77'lik bir AUC değeri elde edildi. Aynı zamanda bölgesel tahminde başarı oranı robot bölgesi için %82, terapist bölgesi için %90 ve diğer bölgeler için %76'dır. Farklı konfigürasyonlarda 2B bakış hedef noktaları tespitine yönelik birleştirilmiş performans ölçümleri tablolarda özetlenmiş ve grafikler aracılığıyla gösterilerek her senaryo için karşılaştırmalı analiz gösterilmiştir. Sonuç olarak proje kapsamında açık kaynak olup hemen indirilebilir otizmli ve otizmli olmayan çocuk-yetişkin etkileşim videosu veri seti oluşturulmuştur. Aynı zamanda EMBOA projesinin verileri bakış verileri ile etiketlenmiştir. Daha sonra bakış hedef noktasının tespiti için Ö-UZBM modeli UZBM'den geliştirilmiştir. OBT sistemi ile bakış hedef noktasının sadece resim bilgisi ile farklı modüller aracılığıyla bir arada tespiti sağlanmıştır.
Özet (Çeviri)
Gaze behavior is a powerful, nonverbal form of communication. In social interactions, gaze is an essential indicator of attention. For individuals with autism, gaze behavior is especially critical. Because individuals with autism tend to avoid looking at the face, for this reason, individuals with autism face significant difficulties in social interactions. Eye estimation technology from scene images was used to get as natural results as possible when detecting the gaze of individuals with autism and to ensure adaptability to every environment. This study focuses on developing an Automatic Gaze Detection (AGD) system to detect two-dimensional (2D) gaze target points and relevant areas in interactions between children with autism and robots. Two new datasets, ChildPlay-R and EMBOA-Gaze, were used to develop the AGD system within the scope of this study. The ChildPlay-R dataset contains videos of children with and without autism interacting with adults and two-dimensional gaze target points of children. The ChildPlay-R dataset was created by labeling those with an environment similar to the EMBOA dataset as autism and non-autism, based on the open-source ChildPlay Gaze dataset. There are fifteen videos in the ChildPlay-R dataset, five of which are autism and ten are non-autism. The EMBOA-Gaze dataset contains robot-assisted therapy videos containing interaction games of children with autism, 2D gaze target points, and the regional equivalents of these points (“Robot,”“Therapist,”and“Other”). The EMBOA-Gaze dataset includes eight children with autism (six males and two females) and two typically developing children (two males) between the ages of five and ten. Since the children moved frequently during the sessions, a fisheye camera was used to capture scene images. The EMBOA-Gaze dataset is part of the EU Erasmus+ funded EMBOA project. The aim of the EMBOA project is to the enhancement of social robot intervention in children with autism with effective computing technologies. Two different people labeled one of the sessions in the EMBOA-Gaze dataset. Cohen's Kappa analysis was used to find the level of agreement between these labels. The analysis yielded a Kappa score 0.695, indicating strong agreement between labels. The AGD system was created from four main components: Head Detection Module, Adaptive Region Detection Module, Customized Spatio-Temporal Gaze Architecture (C-STGA), and Region Class Assignment Module. The Head Detection Module is trained with YOLOv8 to find the head with all its features, including hair. The Adaptive Region Detection Module has also been trained in YOLOv8 to be adaptable due to the mobility of the actors corresponding to the regions. The C-STGA module is a finely tuned version of the Spatio-Temporal Gaze Architecture (STGA) model with modified layers. Region Class Assignment Module assigns the detected region to the area to which it belongs. In order to achieve higher success on the EMBOA-Gaze dataset, training was first done with the ChildPlay-R dataset. Thus, GazeFollow and Attention Target Detection weights, trained on adults' gaze data, were also trained with the ChildPlay-R, a child gaze dataset, to enable correct detection of the gaze of children with autism. For the C-STGA module in the AGD system to reach the optimum state, the effect of initializing the models with three different weight configurations, GazeFollow, Attention Target Detection, and ChildPlay-R, was evaluated. The models were performed on the ChildPlay-R and EMBOA-Gaze datasets, and both direct testing and post-training testing operations were applied. In addition, C-STGA and STGA models were compared. As a result of the evaluation, the optimum result was achieved by initializing the C-STGA model with the ChildPlay-R dataset weights. Analysis revealed significant improvements in area Under the Curve values with the C-STGA model compared to the STGA model. An AUC value of 77% was obtained in the C-STGA model in detecting children's 2D gaze attention target. At the same time, the success rate in regional detecting is 82% for the robot region, 90% for the therapist region, and 76% for other areas. Combined performance measurements for detecting 2D gaze target points in different configurations are summarized in tables and illustrated through graphs, showing comparative analysis for each configuration.
Benzer Tezler
- Design and implementation of real-time eye detection and tracking system based on gpu
Grafik işleme ünitesi tabanlı gerçek zamanlı göz bulma ve takip sistemi'nin tasarlanması ve uygulanması
ALİ ACIOĞLU
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik MühendisliğiGaziantep ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ERGUN ERÇELEBİ
- Uzaktan eğitim sınavlarında bakış algılaması ile kopya tespitinin modellenmesi
Modeling of cheating detection in distance education exams with gaze detection algorithms
MUHAMMED EMRE ÇOLAK
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
PROF. DR. ASAF VAROL
- A study on gaze enhanced user interfaces: committing eye tracking
Bakışla geliştirilmiş kullanıcı arayüzleri üzerine bir çalışma: göz takibi
İBRAHİM FURKAN İNCE
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKyungsung UniversityTasarım Ana Bilim Dalı
PROF. DR. TAE-CHEON YANG
- Computer vision based behavior analysis
Bilgisayarla görü tabanlı davranış çözümlemesi
ZEYNEP YÜCEL
Doktora
İngilizce
2009
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
PROF. DR. ARİF BÜLENT ÖZGÜLER
YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN