Geri Dön

Backchannel prediction in human-robot interaction for engaging agents

İnsan-robot etkileşiminde ilgi düzeyinin iyileştirilmesine yönelik arka-kanal sinyal kestirimi

  1. Tez No: 836752
  2. Yazar: BEKİR BERKER TÜRKER
  3. Danışmanlar: PROF. DR. ENGİN ERZİN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 110

Özet

Bu tez, sosyal etkileşim ve doğallığı artırmada gülümsemeler, gülmeler ve baş sallamalar gibi sözel olmayan ipuçlarının oynadığı rollere özel bir odakla, insan-robot etkileşimi (İRE) alanında kapsamlı bir araştırma sunmaktadır. Araştırma, doğal ikili konuşmalardan el ile etiketlenmiş çok kipli verileri kullanarak Zaman Gecikmeli Sinir Ağları, Destek Vektör Makineleri, Uzun Kısa Vadeli Bellek ağları ve Dönüştürücü modelleri gibi ileri makine öğrenimi tekniklerini kullanmaktadır. Çalışma, gülme tespiti için yüz ifadesi takip bilgileri, baş hareketi ve ses özelliklerinin ortaya koyduğu faydayı incelemekte ve veri sınıfı dengesizliği sorununu etkili bir şekilde çözmek için torbalama gibi teknikleri entegre etmektedir. Ayrıca, İRE'de gülme algısı ve yanıtının etkileşim üzerindeki etkisini derinlemesine incelemekte, gülme-duyarlı ve gülme-duyarsız modlara sahip robotlarla yapılan deneysel çalışmalarda objektif ve subjektif ölçümlerle etkileşimleri değerlendirmektedir. Araştırma ayrıca, insan-insan konuşma verileri üzerinde eğitilmiş ve değerlendirilmiş baş sallama ve söz sırası alma olayları için bir görsel-işitsel tahminleme çerçevesi sunmaktadır. Karşılaştırmalı bir yaklaşım için Uzun Kısa Vadeli Bellek ağları baz model olarak kullanılmış ve esas önerilen yöntem olarak çapraz dikkat mekanizmalarına sahip Dönüştürücü modeller kullanılmıştır. Bu model, etkileşim sırasında bir arka-kanal sinyali olarak oluşturulabilecek aday gülümseme veya gülme olaylarının tahmin performansında önemli iyileştirmeler göstermektedir. Topluca, bu bulgular, diyalog yönetim sistemlerini anlamamızı önemli ölçüde ilerletmekte, ERİ'de sosyal etkileşimin mekaniği ve sözel olmayan ifadeler hakkında önemli içgörüler sunmakta ve gelecekteki araştırmalar için bir temel atmaktadır.

Özet (Çeviri)

This thesis offers a comprehensive investigation into the realm of human-robot interaction (HRI), with a particular focus on the role of non-verbal cues such as smiles, laughs, and head nods in enhancing social engagement and naturalness. Utilizing meticulously annotated multi-modal data from naturalistic dyadic conversations, the research employs advanced machine learning techniques, including Time Delay Neural Networks (TDNNs), Support Vector Machines (SVMs), Long Short-Term Memory networks (LSTMs), and Transformer models. The work rigorously explores the utility of facial information, head movement, and audio features for the continuous detection of laughter, addressing the class imbalance problem through the effective incorporation of bagging techniques. It also delves into the impact of laughter perception and response on engagement in HRI, evaluated through objective and subjective measures in experimental setups featuring robots with laughter-responsive and non-responsive modes. Furthermore, the research presents an audio-visual prediction framework for head-nod and turn-taking events, trained and evaluated on human-human conversational datasets. A comparative approach is employed, using LSTMs as a baseline and Transformer models with cross attention mechanisms as the main proposed method, demonstrating significant improvements in the prediction performance of upcoming candidate smiles and laughs as backchannels. Collectively, these findings significantly advance our understanding of dialog management systems, offering crucial insights into the mechanics of social engagement in HRI and laying a robust foundation for future research.

Benzer Tezler

  1. Speech driven backchannel generation in human-robot interaction with conservative Q-learning

    İnsan-robot etkileşiminde korunumlu Q-öğrenme ile konuşmaya dayalı arka kanal üretimi

    ÖYKÜ ZEYNEP BAYRAMOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. YÜCEL YEMEZ

  2. Engaging human-robot interaction with batch reinforcement learning

    Kayıtlı veriden pekiştirmeli öğrenme yoluyla insan robot etkileşiminde kullanıcı ilgisinin eniyilenmesi

    NUSRAH HUSSAIN

    Doktora

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ENGİN ERZİN

    PROF. DR. YÜCEL YEMEZ

  3. Backchannels in spoken Turkish

    Konuşma Türkçesinde geribildirimler

    KADRİYE AYTAÇ DEMİRÇİVİ

    Doktora

    İngilizce

    İngilizce

    2021

    DilbilimOrta Doğu Teknik Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    DOÇ. DR. HALE IŞIK GÜLER

  4. Conflict resolution and peace processes: A comparative analysis of Turkey and Northern Ireland's peace processes

    Başlık çevirisi yok

    MUSTAFA CAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Kamu YönetimiKeele University

    Siyaset Bilimi ve Uluslararası İlişkiler Ana Bilim Dalı

    DR. ELISABETH CARTER