Geri Dön

Phase-aware speech super resolution using u-net architecture with lattice topology

Kafes topolojili u-net mimarisi kullanılarak faz farkında konuşma süper çözünürlügü

  1. Tez No: 851624
  2. Yazar: YALÇIN CENİK
  3. Danışmanlar: DOÇ. DR. ŞEYDA ERTEKİN BOLELLİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 81

Özet

Konuşma süper çözünürlüğü (KSÇ), ses sinyali işlemenin ana araştırma alanlarından biridir. Amaç, yüksek frekansları tahmin ederek düşük örnekleme frekanslarına sahip konuşma sinyallerinin bant genişliğini artırmaktır. Bant genişliği artırılmış bir konuşma sinyali, doğru tahmin edilen yüksek frekanslarla birlikte, genellikle dinleyiciye daha iyi konuşma kalitesi sağlar. İnterpolasyon gibi geleneksel sinyal işleme yöntemleri bu sorunu çözmek için tatmin edici sonuçlar vermemektedir. Üretken modellerin konuşma alanına girmesiyle birlikte, sentetik konuşma üretimi ve geliştirilen modellerin üretken model tabanlı kayıp fonksiyonları ile optimizasyonu en güncel araştırma konularından biridir. Yüksek kaliteli konuşma sesi üretmek için hem büyüklük hem de faz bilgisinin birlikte yeniden yapılandırılması konuşma sentezi için çok kritiktir. Literatürde, konuşma faz bilgisinin yeniden yapılandırılması ana problemlerden biridir. Mevcut yöntemler ya faz bilgisini göz ardı etmekte ya da ağdaki büyüklük bilgisini kullanarak faz bilgisini tahmin etmeye çalışmaktadır. Bu tez, hem büyüklük hem de faz bilgisini birlikte değerlendirerek U-net tabanlı ve kafes filtre ağını kullanan bir yöntem önermektedir. Aynı zamanda, faz bilgisini doğru bir şekilde optimize etmek için faz kaybı fonksiyonu kullanmaktadır. Tamamen frekans uzayında yukarı örnekleme gerçekleştirilerek tüm spektrum tahmin edilmektedir. Bu yöntem, zaman uzayında yukarı örnekleme yapıldığında ortaya çıkan yapaylık sorununu çözmektedir. Yapılan deneyler ve sonuçlar daha az model parametresiyle önerilen yöntemin ViSQOL değerlendirme metriğinde son yöntemlerden daha iyi sonuçlar verdiğini ve diğer değerlendirme LSD metriğiyle karşılaştırılabilir sonuçlar verdiğini göstermektedir.

Özet (Çeviri)

Speech super resolution (SSR) is one of the main research areas of audio signal processing. The aim is to enhance the bandwidth of audio signals with low sampling frequencies by estimating the high frequencies. A speech signal with increased bandwidth, along with accurately predicted high frequencies, generally provides the listener with better speech quality. Traditional signal processing methods such as interpolation do not provide satisfactory results to solve this problem. With the introduction of generative models into the speech domain, synthetic speech generation and optimization of the developed models with generative models-based loss functions are one of the most current research topics. Reconstructing both magnitude and phase information together to produce high quality speech sound is very critical for speech synthesis. In the literature, reconstructing speech phase information is one of the main problem. Current methods either ignore phase information or try to estimate it using magnitude information in the network. This thesis proposes a method that uses U-net based and lattice filter network by evaluating both magnitude and phase information together. At the same time, the phase loss function is used to optimize the phase information accurately. By performing upsampling entirely in the frequency domain, the entire spectrum is estimated. This method solves the artifact problem that occurs when upsampling is done over time. The experiments and the results show that the proposed method gives the better results than the state-of-art methods in the evaluation metric ViSQOL and comparable results with the other metric LSD with fewer model parameters.

Benzer Tezler

  1. Görüntü işlemede derin öğrenme tabanlı süper çözünürlük uygulamaları

    Deep learning based super resolution applications in image processing

    AHENK VURAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

  2. Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi

    Başlık çevirisi yok

    AYŞENUR GENÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Comicverse: Expanding the frontiers of ai in comic books with holistic understanding

    Comicverse: Bütünsel anlayışla çizgi romanlarda yapay zekanın sınırlarını genişletmek

    GÜRKAN SOYKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. DENİZ YURET

    PROF. DR. TEVFİK METİN SEZGİN

  4. Uyanık kraniotomi uygulanan hastaların deneyimi-erken dönem dil, biliş becerileri ve yaşam kalitesine etkisinin incelenmesi

    Experience of patients undergoing awake craniotomy-investigation of the early effects on language, cognitive skills, and quality of life

    MERVE SOYER

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Dil ve Konuşma TerapisiHacettepe Üniversitesi

    Dil ve Konuşma Terapisi Ana Bilim Dalı

    DOÇ. DR. AYŞEN KÖSE

  5. Görme engelli ilkokul öğrencileri için yeni ürün geliştirme sürecinde tasarım: Yenilenebilir braille ekranlı elektronik okuyucu örneği

    Design in new product development process for visually impaired primary school students: Example of electronic reader with refreshable braille display

    BERA BAŞKURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Endüstri Ürünleri Tasarımıİstanbul Teknik Üniversitesi

    Endüstri Ürünleri Tasarımı Ana Bilim Dalı

    DR. LAYIKA NEY ECE ARIBURUN KIRCA