Geri Dön

Development of a voice filter and enhancement method based on deep learning

Başlık çevirisi mevcut değil.

  1. Tez No: 672359
  2. Yazar: ADNAN ABDULLAH ATIYAH
  3. Danışmanlar: PROF. DR. OSMAN NURİ UÇAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Altınbaş Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Derin öğrenmeye dayalı konuşma ayırma ve filtre, tipik olarak gürültülü özelliklerden ayırma hedeflerine bir eşleme işlevini öğrenmek için denetimli bir algoritma kullanır. Bu tür ayırma hedefleri, uygun maskeler veya büyüklük spektrogramları olsun, önemli spektrotemporal yapılara sahiptir. Geç önerilen derin öğrenmenin büyük çoğunluğu, sinir sistemi modellerinin bir kara kutu olarak olasılığına göre merkezlenmiş söylem geliştirme prosedürlerini bir araya getirdi. Her durumda, modelin ne tür gizem tasvirleri sergilediğini anlamak sıklıkla yararlıdır. Bu mevcut gerçeklik ses bilgisinin, iç içe geçmiş çeşitli faktörleri içeren üretken bir prosedürden elde edilme şekli nedeniyle, ses faktörünün çözülmesi, hazırlanan modelin daha olası tüm ses iyileştirme sonuçlarına eklenmesine izin verecektir. Sinir sistemlerini kullanarak çözülmemiş betimlemeyi öğrenmenin devam eden başarısıyla, geleneksel söylem geliştirme hesaplamalarında söylem ve yaygarayı çözmek için kötüye kullanılmamış bir aracı araştırıyoruz. Bu araştırmada, rakip eğitim şeması kullanarak ara katmanlardaki konuşma ve gürültü özelliklerini ayırt etmek için gizli özellikleri manipüle eden sinir ağlarına dayanan derin öğrenme gürültüyle değişmeyen ses iyileştirme yöntemini öneriyoruz. Önerilen çözümün verimliliğini diğer geleneksel algoritmalarla karşılaştırmak için TIMIT ve TSPspeech veri kümelerini eşleşen ve eşleşmeyen gürültü koşullarında kullanarak deneyler yaptık. Deneysel sonuçlar, konuşma ve gürültünün gizli özelliklerinin modelimiz tarafından etkin bir şekilde ayrıldığını göstermektedir. Bu şekilde önerilen model, geleneksel söylem yükseltme stratejilerinden daha istikrarlı kargaşa değişmez özellikleri sunmanın yanı sıra, gelişmiş verim yükseltmesini gerçekleştirir.

Özet (Çeviri)

Deep learning based speech separation and filter typically uses a supervised algorithm to learn from noisy features to separation targets a mapping function. Such separation objectives have prominent spectrotemporal structures, whether they are suitable masks or magnitude spectrograms. The vast majority of the as of late proposed profound learning-put together discourse enhancement procedures centered with respect to the possibility of the neural system models as a black box. In any case it is frequently helpful to comprehend what sorts of mystery portrayals the model has aced. Because of the way that this present reality voice information is gotten from a generative procedure including various enmeshed factors, unraveling the voice factor would permit the prepared model to add to all the more likely voice improvement results. With the ongoing achievement of learning unraveled portrayal utilizing neural systems, we are investigating an instrument which has not been abused to unravel discourse and clamor in customary discourse improvement calculations. In this research, we propose a novel method of deep learning noise-invariant voice enhancement based on neural networks that manipulates the latent characteristics to discern speech and noise characteristics in intermediate layers using adversarial training scheme. We conducted experiments using TIMIT and TSPspeech datasets in matched and non-matched noise conditions to compare the efficiency of the proposed solution with other conventional algorithms. Experimental results indicate that the latent features of speech and noise are effectively disengaged by our model. The proposed model in this manner accomplishes improved yield upgrade as well as gives more steady commotion invariant properties than conventional discourse upgrade strategies

Benzer Tezler

  1. Geometrik tabanlı öznitelik çıkarma ve öznitelik füzyonuna dayalı parmak damar tanıma

    Geometric based feature extraction and finger vein recognition based on feature fusion

    FATİH TİTREK

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÖMER KAAN BAYKAN

  2. Yapay zekâ ve demokrasi

    Artificial intelligence and democracy

    AYŞE NUR YAZICILAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. ŞULE ÖZSOY BOYUNSUZ

  3. Sayısal hücre görüntülerinin kodlanması ve nicel analizi

    Coding and quantitative analysis of the digital cell images

    NEŞE APAK

    Yüksek Lisans

    Türkçe

    Türkçe

    1993

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Y.DOÇ.DR. MUHİTTİN GÖKMEN

  4. Sayısal işaret işleme geliştirme sistemi tasarımı ve gerçeklenmesi

    Digital signal processing development system design and realization

    İLKER AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. AHMET DERVİŞOĞLU

  5. Karma söz üretme yöntemi ile Türkçe yazılı metinden söze geçme

    Text-to-speech in Turkish language by using a mixed speech synthesis method

    MURAT SERVET ERER

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. AHMET DERVİŞOĞLU