Geri Dön

3D face animation generation from audio using convolutional neural networks

Evrişimsel ağlar ile sesten 3B yüz animasyonu üretilmesi

  1. Tez No: 843567
  2. Yazar: TÜRKER ÜNLÜ
  3. Danışmanlar: DOÇ. DR. SANEM SARIEL UZER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 71

Özet

Yüz animasyonu üretme problemi, sanal ortamlardaki yapay karakterlerin konuşmaları için 3 boyutlu (3B) yüz modellerinin hareket ettirilmesi işidir. Bu problem, oyunlarda, animasyon filmlerde ve sanal gerçeklik uygulamalarında karşılaşılan karakterlerin konuşturulması, bu karakterlerin konuşmaları sırasında, yapımcıları tarafından aktarılmak istenen duyguların gerçek bir insana ait duygularmış hissi verebilmesi için çözülmesi gereken bir problemdir. Bu iş çoğunlukla alanında bilgisi olan 3B çizimciler tarafından yapılmaktadır. Animasyonun üretimi için, bu çizimcilerin her konuşma ve her 3B yüz modeli için oynatılması gereken animasyonu önceden hazırlaması gerekmektedir. Makine öğrenmesi ve özellikle bunun bir dalı olan derin öğrenmeye dayalı yöntemlerin son yıllarda gelişip yaygınlaşması ile, konuşmalar için yüz animasyonu üretilme işinin otomatik olarak yapılması üzerine çalışmalar yapılmıştır. Bu çalışmalar ile animasyonun 3B çizimciler tarafından elle üretilmesi için gereken maliyet ve emeğin düşürülmesi hedeflenmedir. Böylece bu yöntemler sadece büyük stüdyolar dışındaki yerlerde de kullanılabilir hale gelebilecektir. Literatürdeki çalışmalar incelendiğinde, otomatik yüz animasyonu üretilmesi probleminin iki ana başlık altında incelendiği görülebilir. Bunlardan ilki, animasyonun sadece 2B görüntüsünü elde etmeye yönelik çalışmaları, ikincisi ise tamamen 3B bir yüz modeli elde etmeye yönelik çalışmaları içermektedir. Birinci ana grupta geliştirilen yöntemler doğrudan resimler üzerinde çalışırlar ve sıfırdan bir resim üretme üzerine, veya elde olan temel bir resim üzerinde gerekli değişiklikleri yaparak resmi, sisteme girdi olarak verilen konuşma bilgisine uygun bir hale gelecek şekilde değiştirirme üzerinedir. İkinci ana gruptaki çalışmalar önceden hazırlanmış 3B yüz modelleri üzerinde çalışırlar. Bu yöntemlerin çıktıları, baz alınan 3B yüz modelinin o anki verilen konuşma sinyaline göre durumudur. Elde edilen çıktı ortamdan bağımsız bir yüz modelidir. Bu çalışmalarda baz alınan yüz modeli dijital ortamda farklı şekillerde temsil edilebilmektedir. Temsil şekli, doğrudan yüz modeli üzerindeki noktaların 3B uzaydaki koordinatları olabileceği gibi, yüzdeki değişmesi olası bölgelerin parametrik hale getirilmiş bir temsil de olabilir. Bu tez çalışmasında, konuşma animasyonunun 3B bir yüz modeli baz alınarak üretildiği bir yöntem açıklanmıştır. Çalışmanın temel hedeflerinden biri, herhangi bir 3B çizimcinin elle müdahalesine gerek kalmadan, tamamen otomatize bir şekilde girdi olarak verilen konuşma sesinden 3B bir yüz animasyonu üretebilecek bir yöntem tasarlamaktır. Geliştirilen yöntem için, yüz modeli temsili olarak yüzdeki hareket eden kasları temel alarak oluşturulmuş Yüz Hareketleri Kodlama Sistemi (Facial Action Coding System (FACS)) kullanılmaktadır. Bu sistemde yüz, aksiyon birimleri denen ve her biri yüzdeki bir veya bir grup kasın hareketi sonucu yüzdeki noktaların değişimini tanımlayan parametreler ile temsil edilmektedir. Bu aksiyon birimleri temel alınarak, herhangi bir aksiyon biriminin veya bir grup farklı aksiyon biriminin hangi durumlar sonucu değiştiği belirlenebilmekte, böylece neredeyse istenen bütün olası yüz ifadeleri daha az parametre kullanılarak ifade edilebilmektedir. Çalışmada önerilen sistem ile yüz animasyonu elde edebilmek için, hareketli bölgeleri FACS ile uygun olacak şekilde önceden ayarlanmış bir 3B yüz modeli gerekmektedir. Fakat eğitim için kullanılan veri kümesindeki model ile daha sonra animasyon elde edebilmek için kullanılan yüz modeli aynı olmak zorunda değildir. Çalışmanın gerçeklenebilmesi için, toplam 37 dakika sürelik bir veri kümesi oluşturulmuştur. Veri kümesi, farklı hikaye ve film kesitlerinin seslendirilmesiyle oluşan 11 farklı kayıttan oluşmaktadır. Veri seti içerisinde konuşma kayıtları, konuşmacının görsel kaydı ve videodaki her kare için konuşmacının yüz modelinin FACS temsili için gereken parametrelerin değerleri bulunmaktadır. Sisteme girdi olarak gelen konuşma sesi sinyalinden, 3B yüz modelinin animasyonu için gereken FACS parametre değerlerini tahmin etmek için evrişimsel sinir ağı katmanı ve dönüştürücü katmanı içeren bir Yapay Sinir Ağı (Artificial Neural Network) mimarisi tasarlanmıştır. Girdi olarak kullanılacak olan ses sinyali, yapay sinir ağı mimarisine aktarılmadan önce bazı ses işlemlerinden geçmektedir. Öncelikle ses, 16 milisaniye uzunluğundaki pencerelere bölünür. Her penceredeki ses sinyali normalize edilip Hızlı Fourier Dönüşümü (Fast Fourier Transform) hesabı yapılır ve son olarak MFCC öznitelikleri elde edilir. Yapay sinir ağının girdi formatı bu MFCC öznitelik vektörleridir. Üretilecek her bir animasyon karesi için, o anın öncesinden ve sonrasından toplam 520 milisaniye olacak şekilde bir pencere kümesi alınır ve yapay sinir ağına girdi olarak verilir. Tasarlanan yapay sinir ağı mimarisi içerisinde evrişimsel (convolutional) katmanlar ve dönüştürücü (transformer) katmanları bulunmaktadır. Eğitim performansını artırmak için çeşitli normalizasyon yöntemleri de uygulanmıştır. Geliştirilen sistemin sonuçlarını değerlendirmek için, sistemin bazı sesler için ürettiği video çıktıları bir grup katılımcıya gösterilip görüşleri alınmıştır. Rastgele seslerden elde edilen videolara ek olarak, başka bir takım 3B yüz animasyonu üreten çalışmalarda kullanılan ve çıktı videoları mevcut bulunan belirli ses kayıtları için de video çıktıları üretilmiş ve katılımcılardan bunları karşılaştırmaları istenmiştir. Elde edilen sonuçlara göre, sistemin ürettiği animasyonun bilgisayar oyunları ve sanal gerçeklik uygulamaları için yeterli kalitede olduğu gözlenmiştir. Sistemin avantajlarından biri, eğitim veri kümesinde olmayan kullanıcıların sesi için de konuşma animasyonları üretebilmesidir. Başka bir avantajı da, bir seferlik eğitim süreci tamamlandıktan sonra herhangi bir ses için konuşma animasyonu üretmenin kolaylığıdır. Fakat mevcut sistemin önemli bir dezavantajı, elde edilen animasyonlardaki ağız ve dudak hareketlerinin detayları açısından her zaman doğru sonuçlar verememesidir, bazı durumlarda girdi olarak veren ses için gereken ağız/dudak senkronizasyonunda sapmalar görülmektedir. Çalışmaya daha sonrasında yapılabilecek geliştirmeler arasında, daha sağlıklı bir karşılaştırma yapabilmek için diğer 3B yüz animasyonu üreten çalışmalarda kullanılan yüz modelleri ve veri kümelerinin formatının bu çalışmaya uyarlanması, eğitim için kullanılan veri kümesinin farklı konuşmacıları içerecek şekilde oluşturulmasıdır.

Özet (Çeviri)

Problem of generating facial animations is an important phase of creating an artificial character in video games, animated movies, or virtual reality applications. This is mostly done manually by 3D artists, matching face model movements for each speech of the character. Recent advancements in deep learning methods have made automated facial animation possible, and this research field has gained some attention. There are two main variants of the automated facial animation problem: generating animation in 2D or in 3D space. The systems that work on the former problem work on images, either generating them from scratch or modifying the existing image to make it compatible with the given audio input. The second type of systems works on 3D face models. These 3D models can be directly represented by a set of points or parameterized versions of these points in the 3D space. In this study, 3D facial animation is targeted. One of the main goals of this study is to develop a method that can generate 3D facial animation from speech only, without requiring manual intervention from a 3D artist. In the developed method, a 3D face model is represented by Facial Action Coding System (FACS) parameters, called action units. Action units are movements of one or more muscles on the face. By using a single action unit or a combination of different action units, most of the facial expressions can be presented. For this study, a dataset of 37 minutes of recording is created. This dataset consists of speech recordings, and corresponding FACS parameters for each timestep. An artificial neural network (ANN) architecture is used to predict FACS parameters from the input speech signal. This architecture includes convolutional layers and transformer layers. The outputs of the proposed solution are evaluated on a user study by showing the results of different recordings. It has been seen that the system is able to generate animations that can be used in video games and virtual reality applications even for novel speakers it is not trained for. Furthermore, it is very easy to generate facial animations after the system is trained. But an important drawback of the system is that the generated facial animations may lack accuracy in the mouth/lip movement that is required for the input speech.

Benzer Tezler

  1. An embodied conversational agent with facial expressions

    Başlık çevirisi yok

    MUNYA ALKHALIFA

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KASIM ÖZACAR

  2. Morphable 3D facial animation based on thin plate splines

    İnce levha eğrisi temelli dönüştürülebilen 3B yüz animasyonu

    AYSU ERDOĞDU

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    YRD. DOÇ. DR. İLKAY ULUSOY

  3. Speech and text driven 3D face synethesis for the hearing impaired

    İşitme engelliler için konuşma ve metinden üç boyutlu yüz sentezleme

    ARMAN SAVRAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. LEVENT ARSLAN

    PROF. DR. LALE AKARUN

  4. The technical analysis of the photoreality notion in MOCAP 3D facial animations

    MOCAP 3B yüz animasyonlarında fotogerçeklik kavramının teknik analizi

    MERVE GÜVENÇ ÖZERDEM

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Güzel SanatlarYeditepe Üniversitesi

    Animasyon Tasarımı Bilim Dalı

    PROF. DR. NEDA ÜÇER

  5. Representing the motions of the kathakali dance drama expressions in 3D animation

    Kathakali dans draması ifadelerinin hareketlerinin 3B animasyon formatında sunulması

    ASADUL ISLAM

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Sahne ve Görüntü SanatlarıYaşar Üniversitesi

    Sanat ve Tasarım Ana Sanat Dalı

    PROF. DR. LALE DİLBAŞ