Development of a voice filter and enhancement method based on deep learning
Başlık çevirisi mevcut değil.
- Tez No: 672359
- Danışmanlar: PROF. DR. OSMAN NURİ UÇAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Altınbaş Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilişim Teknolojileri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 72
Özet
Derin öğrenmeye dayalı konuşma ayırma ve filtre, tipik olarak gürültülü özelliklerden ayırma hedeflerine bir eşleme işlevini öğrenmek için denetimli bir algoritma kullanır. Bu tür ayırma hedefleri, uygun maskeler veya büyüklük spektrogramları olsun, önemli spektrotemporal yapılara sahiptir. Geç önerilen derin öğrenmenin büyük çoğunluğu, sinir sistemi modellerinin bir kara kutu olarak olasılığına göre merkezlenmiş söylem geliştirme prosedürlerini bir araya getirdi. Her durumda, modelin ne tür gizem tasvirleri sergilediğini anlamak sıklıkla yararlıdır. Bu mevcut gerçeklik ses bilgisinin, iç içe geçmiş çeşitli faktörleri içeren üretken bir prosedürden elde edilme şekli nedeniyle, ses faktörünün çözülmesi, hazırlanan modelin daha olası tüm ses iyileştirme sonuçlarına eklenmesine izin verecektir. Sinir sistemlerini kullanarak çözülmemiş betimlemeyi öğrenmenin devam eden başarısıyla, geleneksel söylem geliştirme hesaplamalarında söylem ve yaygarayı çözmek için kötüye kullanılmamış bir aracı araştırıyoruz. Bu araştırmada, rakip eğitim şeması kullanarak ara katmanlardaki konuşma ve gürültü özelliklerini ayırt etmek için gizli özellikleri manipüle eden sinir ağlarına dayanan derin öğrenme gürültüyle değişmeyen ses iyileştirme yöntemini öneriyoruz. Önerilen çözümün verimliliğini diğer geleneksel algoritmalarla karşılaştırmak için TIMIT ve TSPspeech veri kümelerini eşleşen ve eşleşmeyen gürültü koşullarında kullanarak deneyler yaptık. Deneysel sonuçlar, konuşma ve gürültünün gizli özelliklerinin modelimiz tarafından etkin bir şekilde ayrıldığını göstermektedir. Bu şekilde önerilen model, geleneksel söylem yükseltme stratejilerinden daha istikrarlı kargaşa değişmez özellikleri sunmanın yanı sıra, gelişmiş verim yükseltmesini gerçekleştirir.
Özet (Çeviri)
Deep learning based speech separation and filter typically uses a supervised algorithm to learn from noisy features to separation targets a mapping function. Such separation objectives have prominent spectrotemporal structures, whether they are suitable masks or magnitude spectrograms. The vast majority of the as of late proposed profound learning-put together discourse enhancement procedures centered with respect to the possibility of the neural system models as a black box. In any case it is frequently helpful to comprehend what sorts of mystery portrayals the model has aced. Because of the way that this present reality voice information is gotten from a generative procedure including various enmeshed factors, unraveling the voice factor would permit the prepared model to add to all the more likely voice improvement results. With the ongoing achievement of learning unraveled portrayal utilizing neural systems, we are investigating an instrument which has not been abused to unravel discourse and clamor in customary discourse improvement calculations. In this research, we propose a novel method of deep learning noise-invariant voice enhancement based on neural networks that manipulates the latent characteristics to discern speech and noise characteristics in intermediate layers using adversarial training scheme. We conducted experiments using TIMIT and TSPspeech datasets in matched and non-matched noise conditions to compare the efficiency of the proposed solution with other conventional algorithms. Experimental results indicate that the latent features of speech and noise are effectively disengaged by our model. The proposed model in this manner accomplishes improved yield upgrade as well as gives more steady commotion invariant properties than conventional discourse upgrade strategies
Benzer Tezler
- Geometrik tabanlı öznitelik çıkarma ve öznitelik füzyonuna dayalı parmak damar tanıma
Geometric based feature extraction and finger vein recognition based on feature fusion
FATİH TİTREK
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖMER KAAN BAYKAN
- Yapay zekâ ve demokrasi
Artificial intelligence and democracy
AYŞE NUR YAZICILAR
Yüksek Lisans
Türkçe
2023
HukukGalatasaray ÜniversitesiKamu Hukuku Ana Bilim Dalı
PROF. DR. ŞULE ÖZSOY BOYUNSUZ
- Sayısal hücre görüntülerinin kodlanması ve nicel analizi
Coding and quantitative analysis of the digital cell images
NEŞE APAK
Yüksek Lisans
Türkçe
1993
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiY.DOÇ.DR. MUHİTTİN GÖKMEN
- Sayısal işaret işleme geliştirme sistemi tasarımı ve gerçeklenmesi
Digital signal processing development system design and realization
İLKER AYDIN
Yüksek Lisans
Türkçe
1992
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF. DR. AHMET DERVİŞOĞLU
- Karma söz üretme yöntemi ile Türkçe yazılı metinden söze geçme
Text-to-speech in Turkish language by using a mixed speech synthesis method
MURAT SERVET ERER
Yüksek Lisans
Türkçe
1994
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. AHMET DERVİŞOĞLU