Geri Dön

Intelligible emotional voice conversion with starGAN assisted by DTW and speaker classifier

Dinamik zaman bükmesi ve konuşmacı sınıflandırıcı destekli starGAN ile anlaşılır duygusal ses dönüşümü

  1. Tez No: 784485
  2. Yazar: GÖKÇE İYMEN
  3. Danışmanlar: DOÇ. DR. TEVFİK METİN SEZGİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 62

Özet

İnsan konuşması sadece dilsel içerik ve konuşmacı kimliği değil aynı zamanda duygusal içerik de taşır. Konuşmanın duygusal rengini değiştirme yeteneği, akıllı diyalog sistemleri için duygusal konuşma üretme ve insanlara duygusal ifade yeteneklerinde rehberlik etme gibi çeşitli görevleri mümkün kılma potansiyeline sahiptir. Duygusal ses dönüşümü gerçekleştirilirken, hem konuşma kalitesine (örneğin doğallık, anlaşılabilirlik) hem de üretilen konuşmanın algılanan duygusuna özel olarak odaklanılması gerekir. Bu çalışmada, tek bir eğitimli model ile konuşmanın duygusunu çoklu duygu kategorisine dönüştürebilen bir yöntem öneriyoruz. DTW algoritması ve yardımcı konuşmacı sınıflandırıcısı ile geliştirilmiş StarGAN tabanlı modelimiz, verilen bir konuşma sinyalinin duygusunu kızgın, mutlu ve üzgün olmak üzere 3 duygu sınıfına dönüştürebilir. Modelimizi oluştururken, kayıp fonksiyonlarını özgünlük, dilsel içerik, konuşmacı kimliği ve duygusal ifade gibi konuşmanın farklı niteliklerini hedefleyecek şekilde belirliyoruz. Modelimizin performansını, dönüştürülen konuşmanın hem ses kalitesi hem de duygusal içeriği için nesnel ve öznel değerlendirme kriterleri aracılığıyla değerlendiriyoruz. Sonuçlar, yöntemimizin hem konuşma kalitesi hem de duygusal ifade açısından son teknoloji yöntem ile avantajlı kalacak şekilde kıyaslanabilir olduğunu göstermektedir.

Özet (Çeviri)

Human speech carries not only linguistic content and speaker identity but also emotional content. The ability to alter emotional colouring of speech has the potential to enable a variety of tasks such as producing affective speech for intelligent dialogue systems and guiding people in their emotional expression abilities. While performing emotional voice conversion, special focus needs to be given to both the quality of speech (e.g., naturalness, intelligibility) and the perceived emotion of the generated speech. In this study, we propose a method for converting the emotion of speech across multiple emotion categories with a single trained model. Our StarGAN-based model, enhanced by the DTW algorithm and auxiliary speaker classifier, can change the emotion of a given speech signal into 3 emotion classes: angry, happy and sad. When building our model, we determine the loss functions targeting distinct attributes of speech including the authenticity, linguistic information, speaker identity, and emotional expression. We evaluate the performance of our model through objective and subjective evaluation criteria for both audio quality and emotional content of the converted speech. The results show that our method compares favourably with the state-of-the-art method in terms of both speech quality and emotional articulateness.

Benzer Tezler

  1. Savaş ve göçe ilişkin travmatik belleğin işleyiş biçiminin mekansal karşılıkları: İstanbul'daki Suriyeli sığınmacılar üzerinden bir okuma

    Spatial considerations of the traumatic memory caused by war and migration: A reading on the Syrian refugees in Istanbul

    GAMZE KILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. FATMA ERKÖK

  2. Duygusal zekanın ve tükenmişliğin beyaz yakalı çalışanların örgütsel vatandaşlık davranışına etkisi üzerine bir araştırma

    Başlık çevirisi yok

    ZEYNEP SERAY ALTINTOPRAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    İşletmeBahçeşehir Üniversitesi

    İnsan Kaynakları Yönetimi Bilim Dalı

    PROF. DR. TEVFİK YOLDEMİR

  3. Sınır kişilik örgütlenmesinde dilsel metaforlar: Psikanalitik bir inceleme

    Linguistic metaphors in borderline personality organization: A psychoanalytical study

    HÜLYA ERGÜN TAŞDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Psikolojiİstanbul Üniversitesi

    Psikoloji Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BENGİ PİRİM DÜŞGÖR

  4. Aksesuar ve takının sembolik işlevi: Neo-Şaman kültürü örneği

    Symbolic function of accessories and jewelry: The example of Neo-Shaman culture

    GÜLCAN SARUGAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    SosyolojiBaşkent Üniversitesi

    Sosyoloji Ana Bilim Dalı

    PROF. DR. MUSTAFA GÜNDÜZ

  5. Geç modern toplumda dindar kadınların spiritüel arayışları

    The spiritual seeking of religious women in late modern society

    AHMET SELİM DEMİRYÜREK

    Doktora

    Türkçe

    Türkçe

    2024

    DinBursa Uludağ Üniversitesi

    Felsefe ve Din Bilimleri Ana Bilim Dalı

    PROF. DR. ABDURRAHMAN KURT