Geri Dön

Domain adaptation for speech-driven affective facial features synthesis

Başlık çevirisi mevcut değil.

  1. Tez No: 648608
  2. Yazar: RIZWAN SADIQ
  3. Danışmanlar: Prof. Dr. ENGİN ERZİN
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 82

Özet

Literatürde konuşma ile sürülen yüz animasyonu yoğun olarak çalışılmış olsa da, konuşmanın duygusal içeriğine odaklanan çalışmalar sınırlıdır. Bu çoğunlukla duygusal görsel-işitsel verilerin az erişilebilir olmasından kaynaklanmaktadır. Bu tezde, bizi konuşma ile sürülen duygusal yüz sentezine götüren üç ana çalışma sunuyoruz. İlk olarak, dudak devinimleri, fonetik sınıflar ve duygulanım arasındaki bağımlılıkları daha iyi anlamak için dudak devinimlerini kullanan duygu tanıma modellerini araştırdık. Ardından, duygusal yüz sentezi için metin ve konuşmadan oluşan çok-kipli bir sistem önerdik. Metinden türetilen fonem tabanlı bir model, konuşmacıdan bağımsız yüz sentezini nitelendirirken, konuşma tabanlı bir model, yüz sentezi için duygusal değişimlerin yakalanmasını sağlar. Son olarak, ulaşılabilir veri azlığını kısmen azaltmak için alan uyarlaması kullanarak duygusal yüz sentezini iyileştirdik. Bu son çalışmada, öncelikle alanlar arası istatistiksel farkın daha küçük olduğu ortak bir gizli alanla duygusal ve nötr konuşma özniteliklerini eşlemek için bir alan uyarlaması tanımlıyoruz. Ardından, alan uyarlaması öfke, tiksinti, korku, mutluluk, üzgünlük, sürpriz ve nötr dahil olmak üzere her farklı duygu kategorisi için duygu içerikli öznitelikleri artırmak için kullanılır, böylece duyguya bağlı derin görsel-işitsel (A2V) dönüşümü daha iyi eğitebiliriz. Duyguya bağlı derin A2V modellerine dayanarak, önerilen duygusal yüz sentez sistemi iki aşamada gerçekleştirilmiştir: birinci aşamada, konuşmadan duygu tanıma, konuşma parçaları için yumuşak duygu kategorisi olasılıklarını çıkarır; daha sonra duyguya bağlı A2V dönüşümü çıktılarının yumuşak bir füzyonu, duygusal yüz sentezini oluşturur. SAVEE görsel-işitsel veri seti üzerinde nesnel ve öznel deneysel değerlendirmeler yaptık. Önerilen duygusal A2V dönüşüm sistemi, yakın literatüre kıyasla ortalama kareler hatası için önemli iyileşmeler sağladı. Ayrıca öznel değerlendirmelerde, önerilen duygusal yüz sentezleri baz referans yüz sentezlerine göre tercih edildi.

Özet (Çeviri)

Although speech-driven facial animation has been studied extensively in the literature, works focusing on the affective content of the speech are limited. This is mostly due to the scarcity of affective audio-visual data. In this thesis, we present three major studies that lead us to speech-driven affective facial synthesis. First, we investigate the use of lip articulations for affect recognition to better understand dependencies across lip articulations, phonetic classes and affect. Then, we propose a multimodal system, consisting of text and speech, for affective facial feature synthesis. A phoneme-based model driven from text qualifies generation of speaker independent animation, whereas a speech based model enables capturing affective variation during the facial feature synthesis. Finally, we improve the affective facial synthesis using domain adaptation by partially reducing the data scarcity. In this last study, we first define a domain adaptation to map affective and neutral speech representations to a common latent space in which cross-domain bias is smaller. Then, the domain adaption is used to augment affective representations for each emotion category, including angry, disgust, fear, happy, sad, surprise and neutral, so that we can better train emotion-dependent deep audio-to-visual (A2V) mapping models. Based on the emotion-dependent deep A2V models, the proposed affective facial synthesis system is realized in two stages: first, speech emotion recognition extracts soft emotion category likelihoods for the utterances; then a soft fusion of the emotion-dependent A2V mapping outputs form the affective facial synthesis. Experimental evaluations are performed on the SAVEE audio-visual dataset with objective and subjective evaluations. The proposed affective A2V system achieves significant mean square error loss improvements in comparison to the recent literature. Furthermore, the resulting facial animations of the proposed system are preferred over the baseline animations in the subjective evaluations.

Benzer Tezler

  1. İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması

    Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems

    EZGİ YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Mobil haberleşme sistemlerinde konuşma kodlama

    Başlık çevirisi yok

    TÜRKER BİRSEN

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. GÜNSEL DURUSOY

  3. Automatic speech recognition system adaptation for spoken lecture processing

    Sözlü ders anlatımlarının işlenmesi için otomatik konuşma tanıma sisteminin uyarlanması

    ENVER FAKHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. MURAT SARAÇLAR

    DR. ÖĞR. ÜYESİ EBRU ARISOY SARAÇLAR

  4. Time-domain blind source separation for convolutive mixtures using second-order statistics

    Evrişimsel karışımlar için zaman alanında ikinci dereceden istatistiklerle gözü kapalı kaynak ayrıştırma

    CEMİL DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2007

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. KEREM HARMANCI

  5. Text-independent speaker verification with very short utterances

    Çok kısa kayıtlarla metin bağımsız konuşmacı doğrulama

    İSMAİL RASİM ÜLGEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA LEVENT ARSLAN