Geri Dön

Speech driven backchannel generation in human-robot interaction with conservative Q-learning

İnsan-robot etkileşiminde korunumlu Q-öğrenme ile konuşmaya dayalı arka kanal üretimi

  1. Tez No: 730986
  2. Yazar: ÖYKÜ ZEYNEP BAYRAMOĞLU
  3. Danışmanlar: PROF. DR. YÜCEL YEMEZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 59

Özet

İnsan-aracı etkileşiminde kullanıcı ilgisinin nasıl canlı tutulabileceği, üzerinde hala çalışılmakta olan açık bir araştırma konusudur. Bu tezde, bu amaca yönelik olarak, konuşma güdümlü bir gülme arka kanalı üretme modeli önerilmektedir. Problemi, durumu vektörünün konuşma sinyaliyle, ödül işlevinin ise kullanıcı ilgisiyle temsil edildiği, böylelikle kullanıcı ilgisinin en büyüklendiği bir Markov karar süreci olarak formüle ediyoruz. Çevrimiçi eğitimin insan-aracı etkileşimi için sıklıkla uygulanamaz olması nedeniyle, insandan insana ikili etkileşime ilişkin video kayıtlarından oluşan mevcut veri kümelerini, arka kanal üretme görevine yönelik olarak bir aracıyı eğitmek için kullanıyoruz. Bu problemi, eğitim sırasındaki dağılım kayması sorununu azaltmak için Q değerlerinin fazla tahminini azaltan bir yöntem olan korunumlu Q-öğrenmeye (CQL) dayalı bir aktör-eleştirmen yöntemi kullanılarak ele alınmıştır. Önerilen CQL tabanlı yaklaşım, gülme üretme görevi için objektif yöntemlerle IEMOCAP veri seti üzerinde değerlendirilmiştir. Önceki politika dışı Q-öğrenme yaklaşımlarıyla karşılaştırıldığında, gülme üretim hızı açısından veri seti ile uyum iyileştirildi. Ek olarak, öğrenilen politikanın başarısını, beklenen kullanıcı ilgisini politika dışı politika değerlendirme teknikleriyle tahmin ederek değerlendirdik.

Özet (Çeviri)

Sustaining engagement in human-agent interaction remains an open problem. The purpose of this thesis is to propose a model for maintaining engagement during human-agent interaction through speech-driven backchannel generation. The problem is modeled as a Markov decision process, with the speech signal representing the state and the reward of maximizing human engagement. Due to the fact that online training is frequently impracticable for human-agent interaction, existing datasets on human-to-human dyadic interaction are employed to train an agent for the backchannel generation task. The problem has been addressed using an actor-critic method based on conservative Q-learning (CQL), which reduces the distributional shift problem during training by suppressing Q-value overestimation. The suggested CQL-based approach is objectively evaluated for the laughter generating task on the IEMOCAP dataset. When compared to previous off-policy Q-learning approaches, compliance with the dataset is improved in terms of laugh production rate. Additionally, the learned policy's success is demonstrated by estimating expected engagement with off-policy policy evaluation techniques.

Benzer Tezler

  1. Speech driven upper body gesture analysis and synthesis

    Konuşma ile sürülen üst beden hareketlerinin analizi ve sentezi

    SERKAN ÖZKUL

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YÜCEL YEMEZ

  2. Domain adaptation for speech-driven affective facial features synthesis

    Başlık çevirisi yok

    RIZWAN SADIQ

    Doktora

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Prof. Dr. ENGİN ERZİN

  3. Automated speech driven lipsynch facial animation for Turkish

    Türkçe ses eşzamanlı yapay yüz canlandırma

    ZEKİ MELEK

    Yüksek Lisans

    İngilizce

    İngilizce

    1999

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. LALE AKARUN

  4. Real-time speech driven gesture animation

    Gerçek zamanlı konuşma sürümlü jest animasyonu

    KENAN KASARCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. YÜCEL YEMEZ

    DOÇ. ENGİN ERZİN

  5. Multimodal analysis and synthesis of affective human body gestures from speech prosody

    Konuşma bürününden duygu yüklü insan beden jestleri çok kipli analizi ve sentezi

    ELİF BOZKURT

    Doktora

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ENGİN ERZİN