Speech and text driven 3D face synethesis for the hearing impaired

İşitme engelliler için konuşma ve metinden üç boyutlu yüz sentezleme

Tez No: 152508
Yazar: ARMAN SAVRAN
Danışmanlar: DOÇ. DR. LEVENT ARSLAN, PROF. DR. LALE AKARUN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2004
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 90

Özet

ÖZET «. işitme engelliler için konuşma ve metinden üç boyutlu yüz sentezleme Bu tezin amacı, dudak okuma vasıtasıyla işitme engellilere yardımcı olmak için, herhangi bir insanın konuşmasından görsel konuşma oluşturan bir sistem geliştirmektir. Bu çalışmada, MPEG-4 yüz animasyonunu oynatmak için yüz noktalarını sentezleyen bir sistem gerçekleştirilmiştir. Gerçekçi ve doğal konuşma animasyonu oluşturabilmek amacıyla, bir konuşmacıdan alman işitsel ve görsel veriler ile eğitilen, koddefteri tabanlı bir teknik kullanılmıştır. Eğitim sadece bir konuşmacı ile gerçekleştirildiğinden, bu teknik konuşmacı-bağımlıdır ve farklı konuşmacılar tarafından kullanıldığında perfor mans önemli ölçüde düşebilir. Sistemin konuşmacı-bağımsız performansım iyileştirmek için, tek-konuşmacılı koddefterinin az sayida konuşmacıdan alman ses verileri kul lanılarak genişletilmesiyle, yeni bir koddefteri oluşturulmuştur. Sistemin eğitimi için, fonetik olarak dengeli Türkçe metinler kullanılarak, işitsel-görsel ve sadece-işitsel veri tabanları hazırlanmıştır. Senkronize işitsel ve görsel verileri toplamak için, bir üç boyutlu yüz hareketi yakalama sistemi geliştirilmiştir. Bu sistem, konuşmacıların üç boyutlu yüz noktalarını izleyip oluşturmak için bir stereo kamera ve yuvarlak etiketler den yararlanır, ve videoyu işlemek için bir kişisel bilgisayara ihtiyaç duyar. Sistemin sentezleme performansı çeşitli testler yapılarak ölçülmüştür. Sistem, harhangi bir Türk konuşmacının sesinden, görsel konuşma için yüzleri canlandnabilmektedir.

Özet (Çeviri)

IV ABSTRACT SPEECH AND TEXT DRIVEN 3D FACE SYNTHESIS FOR THE HEARING IMPAIRED The goal of this thesis is to develop a system that generates visual speech from an input speech of any speaker, in order to aid hearing impaired by means of lip reading. In this study, an initial system that synthesizes face points to drive an MPEG-4 facial animation engine was implemented. To produce realistic and natural speech animation, a codebook based technique, which is trained by audio and visual data from a speaker, was employed. Since training is performed with only one speaker, this technique is speaker-dependent and the performance can be degraded considerably when used by different speakers. To improve the speaker-independent performance of the system, a new codebook was created by extending the single-speaker codebook with auido data from a small number of speakers. For the training of the system, audio-visual and audio-only speech databases were collected using a phonetically balanced Turkish speech corpus. To capture the synchronized audio-visual data, a 3D facial motion capture system was developed. This data capture system employs a stereo camera and circular stickers to track and reconstruct 3D face points of the speakers, and requires a single PC to stream and process video. The synthesis performance of the system was evaluated by performing objective tests. The system is capable of animating faces for the visual speech from an input speech of any Turkish speaker.

Benzer Tezler

Tez No
90620
Automated speech driven lipsynch facial animation for Turkish
Türkçe ses eşzamanlı yapay yüz canlandırma
ZEKİ MELEK
Yüksek Lisans
İngilizce
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. LALE AKARUN
Tez No
648608
Domain adaptation for speech-driven affective facial features synthesis
Başlık çevirisi yok
RIZWAN SADIQ
Doktora
İngilizce
2020
Elektrik ve Elektronik Mühendisliği Koç Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Prof. Dr. ENGİN ERZİN
Tez No
200215
Computer-aided transcription tool
Bilgisayar destekli çevriyazı aracı
ÇAĞDAŞ KAYRA AKMAN
Yüksek Lisans
İngilizce
2007
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
Tez No
75579
Türk dili için konuşma üretme
Başlık çevirisi yok
NİHAL ALICI
Yüksek Lisans
Türkçe
1998
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Kontrol ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
Tez No
400849
Towards cognizant hearing aids: Modeling of content, affect and attention
Başlık çevirisi yok
SELİZ GÜLSEN KARADOĞAN
Doktora
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Technical University of Denmark
PROF. DR. JAN LARSEN

Geri Dön