Geri Dön

Adversarial one-shot voice conversion using disentangledrepresentations

Çözülmüş gösterimleri kullanarak tek örnekle çekişmeli ses dönüşümü

  1. Tez No: 632540
  2. Yazar: ALİ YEŞİLKANAT
  3. Danışmanlar: PROF. DR. SADIK FİKRET GÜRGEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

Bu tezde, en yeni varyasyonel özkodlayıcı tabanlı tek örnekli ses dönüşümü yöntemlerinden biri geliştirilerek yeni bir ses dönüştürme yöntemi tanıtılmıştır. Önerilen yöntem, akustik öznitelikler olarak Mel-spektrogramları kullanmakta ve konuşulan içeriğin konuşmacı ve içerik gösterimlerini ayırarak çözülmüş gösterimler oluşturmaktadır. Üretilen Mel-spektrogramlarının kalitesini arttırmak için çekişmeli ve algısal kayıplar kullanılmıştır. Ses çevrim modelinin eğitimi sırasında algısal kaybı uyarlayabilmek için bilgisayarlı görme alanında iyi bilinen bir modelin mimarisini kullanarak bir konuşmacı sınıflandırıcısı eğitilmiştir. Voice Cloning Toolkit veri seti üzerinde deneyler yapılmış, global varyans ve insansı bir yorum simülatörü olan MOSNet açısından değerlendirilmiştir. Deneysel sonuçlar, çalışmamızın referans aldığımız ses dönüşüm yönteminin ses çevrim kalitesini önemli ölçüde artırdığını göstermektedir.

Özet (Çeviri)

In this thesis, a new adversarial one-shot voice conversion (VC) method is introduced by enhancing one of the latest variational autoencoder based one-shot VC methods. The proposed method utilizes acoustic features as Mel-spectrograms and relies on disentangled representations by separating speaker and content representations of the spoken content. An adversarial loss and perceptual loss are combined in order to increase the quality of generated Mel-spectrograms. We train a speaker classifier by utilizing the architecture of a well-known model in the computer vision area, to be able to adapt perceptual loss during the training of the VC model. We conduct experiments on the Voice Cloning Toolkit dataset and evaluate the proposed approach in terms of Global Variance and MOSNet, a humanoid opinion score simulator. Experimental results indicate that our approach improves VC quality remarkably.

Benzer Tezler

  1. Novel deep learning algorithms for multi-modal medical image synthesis

    Çok-kipli tıbbi görüntü sentezi için yeni derin öğrenme algoritmaları

    ONAT DALMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TOLGA ÇUKUR

  2. Deep Domain adaptation for the semantic segmentation of remote sensing images

    Uzaktan algılama görüntülerinin sezgisel bölümlemesi için derin alan uyarlaması

    SARMAD FAKHRULDDIN ISMAEL ISMAEL

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiGebze Teknik Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. KORAY KAYABOL

    DOÇ. DR. ERCHAN APTOULA

  3. Quantitative phase analysis in lensless digital inline holographic microscopy

    Merceksiz dijital sıralı holografik mikroskopta kantitatif faz analizi

    ALİ ASLAN DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Biyofizikİzmir Yüksek Teknoloji Enstitüsü

    Fotonik Bilimi ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN CUMHUR TEKİN

    PROF. DR. CANAN VARLIKLI

  4. Learning efficient visual embedding models under data constraints

    Veri kısıtlamaları altında verimli görüntü gömme modelleri öğrenme

    MERT BÜLENT SARIYILDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELİM AKSOY

    YRD. DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ

  5. Strategies for connectivity issues, fault tolerance, and device authentication in drone networks

    Dron ağlarında bağlantı konuları, hata toleransı ve cihaz yetkilendirme için stratejiler

    UMUT CAN ÇABUK

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    DOÇ. DR. ORHAN DAĞDEVİREN

    DOÇ. DR. GÖKHAN DALKILIÇ