Phase-aware speech super resolution using u-net architecture with lattice topology

Kafes topolojili u-net mimarisi kullanılarak faz farkında konuşma süper çözünürlügü

PDF İndir

Tez No: 851624
Yazar: YALÇIN CENİK
Danışmanlar: DOÇ. DR. ŞEYDA ERTEKİN BOLELLİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 81

Özet

Konuşma süper çözünürlüğü (KSÇ), ses sinyali işlemenin ana araştırma alanlarından biridir. Amaç, yüksek frekansları tahmin ederek düşük örnekleme frekanslarına sahip konuşma sinyallerinin bant genişliğini artırmaktır. Bant genişliği artırılmış bir konuşma sinyali, doğru tahmin edilen yüksek frekanslarla birlikte, genellikle dinleyiciye daha iyi konuşma kalitesi sağlar. İnterpolasyon gibi geleneksel sinyal işleme yöntemleri bu sorunu çözmek için tatmin edici sonuçlar vermemektedir. Üretken modellerin konuşma alanına girmesiyle birlikte, sentetik konuşma üretimi ve geliştirilen modellerin üretken model tabanlı kayıp fonksiyonları ile optimizasyonu en güncel araştırma konularından biridir. Yüksek kaliteli konuşma sesi üretmek için hem büyüklük hem de faz bilgisinin birlikte yeniden yapılandırılması konuşma sentezi için çok kritiktir. Literatürde, konuşma faz bilgisinin yeniden yapılandırılması ana problemlerden biridir. Mevcut yöntemler ya faz bilgisini göz ardı etmekte ya da ağdaki büyüklük bilgisini kullanarak faz bilgisini tahmin etmeye çalışmaktadır. Bu tez, hem büyüklük hem de faz bilgisini birlikte değerlendirerek U-net tabanlı ve kafes filtre ağını kullanan bir yöntem önermektedir. Aynı zamanda, faz bilgisini doğru bir şekilde optimize etmek için faz kaybı fonksiyonu kullanmaktadır. Tamamen frekans uzayında yukarı örnekleme gerçekleştirilerek tüm spektrum tahmin edilmektedir. Bu yöntem, zaman uzayında yukarı örnekleme yapıldığında ortaya çıkan yapaylık sorununu çözmektedir. Yapılan deneyler ve sonuçlar daha az model parametresiyle önerilen yöntemin ViSQOL değerlendirme metriğinde son yöntemlerden daha iyi sonuçlar verdiğini ve diğer değerlendirme LSD metriğiyle karşılaştırılabilir sonuçlar verdiğini göstermektedir.

Özet (Çeviri)

Speech super resolution (SSR) is one of the main research areas of audio signal processing. The aim is to enhance the bandwidth of audio signals with low sampling frequencies by estimating the high frequencies. A speech signal with increased bandwidth, along with accurately predicted high frequencies, generally provides the listener with better speech quality. Traditional signal processing methods such as interpolation do not provide satisfactory results to solve this problem. With the introduction of generative models into the speech domain, synthetic speech generation and optimization of the developed models with generative models-based loss functions are one of the most current research topics. Reconstructing both magnitude and phase information together to produce high quality speech sound is very critical for speech synthesis. In the literature, reconstructing speech phase information is one of the main problem. Current methods either ignore phase information or try to estimate it using magnitude information in the network. This thesis proposes a method that uses U-net based and lattice filter network by evaluating both magnitude and phase information together. At the same time, the phase loss function is used to optimize the phase information accurately. By performing upsampling entirely in the frequency domain, the entire spectrum is estimated. This method solves the artifact problem that occurs when upsampling is done over time. The experiments and the results show that the proposed method gives the better results than the state-of-art methods in the evaluation metric ViSQOL and comparable results with the other metric LSD with fewer model parameters.

Benzer Tezler

Tez No
659034
Görüntü işlemede derin öğrenme tabanlı süper çözünürlük uygulamaları
Deep learning based super resolution applications in image processing
AHENK VURAL
Yüksek Lisans
Türkçe
2021
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
Tez No
684648
Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
Başlık çevirisi yok
AYŞENUR GENÇ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
836643
Comicverse: Expanding the frontiers of ai in comic books with holistic understanding
Comicverse: Bütünsel anlayışla çizgi romanlarda yapay zekanın sınırlarını genişletmek
GÜRKAN SOYKAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ YURET
PROF. DR. TEVFİK METİN SEZGİN
Tez No
909282
Uyanık kraniotomi uygulanan hastaların deneyimi-erken dönem dil, biliş becerileri ve yaşam kalitesine etkisinin incelenmesi
Experience of patients undergoing awake craniotomy-investigation of the early effects on language, cognitive skills, and quality of life
MERVE SOYER
Yüksek Lisans
Türkçe
2024
Dil ve Konuşma Terapisi Hacettepe Üniversitesi
Dil ve Konuşma Terapisi Ana Bilim Dalı
DOÇ. DR. AYŞEN KÖSE
Tez No
393001
Görme engelli ilkokul öğrencileri için yeni ürün geliştirme sürecinde tasarım: Yenilenebilir braille ekranlı elektronik okuyucu örneği
Design in new product development process for visually impaired primary school students: Example of electronic reader with refreshable braille display
BERA BAŞKURT
Yüksek Lisans
Türkçe
2015
Endüstri Ürünleri Tasarımı İstanbul Teknik Üniversitesi
Endüstri Ürünleri Tasarımı Ana Bilim Dalı
DR. LAYIKA NEY ECE ARIBURUN KIRCA

Geri Dön