Intelligible emotional voice conversion with starGAN assisted by DTW and speaker classifier
Dinamik zaman bükmesi ve konuşmacı sınıflandırıcı destekli starGAN ile anlaşılır duygusal ses dönüşümü
- Tez No: 784485
- Danışmanlar: DOÇ. DR. TEVFİK METİN SEZGİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 62
Özet
İnsan konuşması sadece dilsel içerik ve konuşmacı kimliği değil aynı zamanda duygusal içerik de taşır. Konuşmanın duygusal rengini değiştirme yeteneği, akıllı diyalog sistemleri için duygusal konuşma üretme ve insanlara duygusal ifade yeteneklerinde rehberlik etme gibi çeşitli görevleri mümkün kılma potansiyeline sahiptir. Duygusal ses dönüşümü gerçekleştirilirken, hem konuşma kalitesine (örneğin doğallık, anlaşılabilirlik) hem de üretilen konuşmanın algılanan duygusuna özel olarak odaklanılması gerekir. Bu çalışmada, tek bir eğitimli model ile konuşmanın duygusunu çoklu duygu kategorisine dönüştürebilen bir yöntem öneriyoruz. DTW algoritması ve yardımcı konuşmacı sınıflandırıcısı ile geliştirilmiş StarGAN tabanlı modelimiz, verilen bir konuşma sinyalinin duygusunu kızgın, mutlu ve üzgün olmak üzere 3 duygu sınıfına dönüştürebilir. Modelimizi oluştururken, kayıp fonksiyonlarını özgünlük, dilsel içerik, konuşmacı kimliği ve duygusal ifade gibi konuşmanın farklı niteliklerini hedefleyecek şekilde belirliyoruz. Modelimizin performansını, dönüştürülen konuşmanın hem ses kalitesi hem de duygusal içeriği için nesnel ve öznel değerlendirme kriterleri aracılığıyla değerlendiriyoruz. Sonuçlar, yöntemimizin hem konuşma kalitesi hem de duygusal ifade açısından son teknoloji yöntem ile avantajlı kalacak şekilde kıyaslanabilir olduğunu göstermektedir.
Özet (Çeviri)
Human speech carries not only linguistic content and speaker identity but also emotional content. The ability to alter emotional colouring of speech has the potential to enable a variety of tasks such as producing affective speech for intelligent dialogue systems and guiding people in their emotional expression abilities. While performing emotional voice conversion, special focus needs to be given to both the quality of speech (e.g., naturalness, intelligibility) and the perceived emotion of the generated speech. In this study, we propose a method for converting the emotion of speech across multiple emotion categories with a single trained model. Our StarGAN-based model, enhanced by the DTW algorithm and auxiliary speaker classifier, can change the emotion of a given speech signal into 3 emotion classes: angry, happy and sad. When building our model, we determine the loss functions targeting distinct attributes of speech including the authenticity, linguistic information, speaker identity, and emotional expression. We evaluate the performance of our model through objective and subjective evaluation criteria for both audio quality and emotional content of the converted speech. The results show that our method compares favourably with the state-of-the-art method in terms of both speech quality and emotional articulateness.
Benzer Tezler
- Savaş ve göçe ilişkin travmatik belleğin işleyiş biçiminin mekansal karşılıkları: İstanbul'daki Suriyeli sığınmacılar üzerinden bir okuma
Spatial considerations of the traumatic memory caused by war and migration: A reading on the Syrian refugees in Istanbul
GAMZE KILIÇ
Yüksek Lisans
Türkçe
2022
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. FATMA ERKÖK
- Duygusal zekanın ve tükenmişliğin beyaz yakalı çalışanların örgütsel vatandaşlık davranışına etkisi üzerine bir araştırma
Başlık çevirisi yok
ZEYNEP SERAY ALTINTOPRAK
Yüksek Lisans
Türkçe
2021
İşletmeBahçeşehir Üniversitesiİnsan Kaynakları Yönetimi Bilim Dalı
PROF. DR. TEVFİK YOLDEMİR
- Sınır kişilik örgütlenmesinde dilsel metaforlar: Psikanalitik bir inceleme
Linguistic metaphors in borderline personality organization: A psychoanalytical study
HÜLYA ERGÜN TAŞDEMİR
Yüksek Lisans
Türkçe
2022
Psikolojiİstanbul ÜniversitesiPsikoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BENGİ PİRİM DÜŞGÖR
- Aksesuar ve takının sembolik işlevi: Neo-Şaman kültürü örneği
Symbolic function of accessories and jewelry: The example of Neo-Shaman culture
GÜLCAN SARUGAN
Yüksek Lisans
Türkçe
2022
SosyolojiBaşkent ÜniversitesiSosyoloji Ana Bilim Dalı
PROF. DR. MUSTAFA GÜNDÜZ
- Geç modern toplumda dindar kadınların spiritüel arayışları
The spiritual seeking of religious women in late modern society
AHMET SELİM DEMİRYÜREK
Doktora
Türkçe
2024
DinBursa Uludağ ÜniversitesiFelsefe ve Din Bilimleri Ana Bilim Dalı
PROF. DR. ABDURRAHMAN KURT