Geri Dön

Robust end-to-end synthetic speech detection with deep neural networks and masking

Sağlam sonlu durumlu yapay konuşma algılama: Derin sinir ağları ve maskelerle güçlendirilmiş bütünsel yaklaşım

  1. Tez No: 823977
  2. Yazar: BARIŞ AYDIN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ GÖKAY DİŞKEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Adana Alparslan Türkeş Bilim Ve Teknoloji Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 76

Özet

Bu tez, gürültülü koşullar altında sentetik konuşma algılamanın i-vectörlerinin sağlamlığını artırmak için bir yöntem önermektedir. İ-vectörler, konuşmacı tanıma sistemlerinde yaygın olarak kullanılan sabit uzunluktaki temsillemelerdir. Ancak, performansları gürültü ile bozulmaktadır. Sistemi korumak için, gürültü maskesi üretmek için evrişimsel sinir ağı (CNN) kullanılması önerilmiştir. Bu maske, gürültü tarafından bozulan konuşma spektrogramındaki güvenilmez bölgeleri bastırır. Maske uygulanan spektrogram daha sağlam i-vectörlerin çıkarılması için kullanılır. Deneyler, eklenmiş gürültü, beyaz gürültü ve araba gürültüsü içeren ASVspoof 2015 veri kümesi kullanılarak yapılmıştır. CNN, her spektrogram çerçevesinde sinyal-gürültü oranını tahmin etmek üzere eğitilir. Bu, i-vectör çıkarılmasından önce uygulanan gürültü maskesini oluşturur. Sonuçlar, önerilen maskeleme yaklaşımının standart i-vectörlerle karşılaştırıldığında eşit hata oranlarını %50'den fazla azalttığını göstermektedir. Ancak, performans, CNN eğitimi sırasında görülmeyen araba gürültüsü üzerinde bozulur. Bu, daha çeşitli eğitim gürültü türlerine ihtiyaç duyulduğunu vurgular. Sonuç olarak, spektrogram maskesi kullanma tekniği ile derin öğrenme tabanlı bir CNN, gürültülü koşullarda i-vectörlerin sağlamlığını artırabilir. Gürültü maskesi, güvenilmez bölgeleri bastırmaya yardımcı olarak daha iyi sahtecilik karşıtı performans sağlar. Ancak, maske görünmeyen gürültü türlerine iyi genelleşmez. Genel olarak, çalışma, gürültü altında sahtecilik saldırılarına karşı konuşmacı tanıma sistemlerinin güvenliğini artırmak için derin öğrenmeye dayalı maskelerin potansiyelini göstermektedir. Ancak daha fazla araştırma, çeşitli gürültü koşullarını ele alma konusunda gereklidir.

Özet (Çeviri)

This thesis proposes a method to improve the robustness of i-vectors for synthetic speech detection under noisy conditions. I-vectors are fixed-length representations commonly used in speaker recognition systems. However, their performance degrades with noise. In order protect the system, using a convolutional neural network (CNN) to generate a noise mask is proposed. This mask suppresses unreliable regions in the speech spectrogram corrupted by noise. The masked spectrogram is then used to extract more robust i-vectors. Experiments use the ASVspoof 2015 dataset with added babble, white, and car noise. The CNN is trained to estimate the signal-to-noise ratio in each spectrogram frame. This generates the noise mask that is applied before i-vector extraction. Results show the proposed masking approach reduces equal error rates by over 50% compared to standard i-vectors from noisy speech. However, performance degrades on car noise which was not seen during CNN training. This highlights the need for more diverse training noise types. In conclusion, the proposed spectrogram masking technique using a CNN can increase robustness of i-vectors for synthetic speech detection in noisy conditions. The noise mask helps suppress unreliable regions to provide improved anti-spoofing performance. However, the mask does not generalize well to unseen noise types. Overall, the study shows potential for deep learning-based masking to improve security of speaker recognition systems against spoofing attacks under noise. But more research is needed into handling diverse noise conditions.

Benzer Tezler

  1. Synthesization and reconstruction of 3d facesby deep neural networks

    Başlık çevirisi yok

    BARİS GECER

    Doktora

    İngilizce

    İngilizce

    2020

    BiyoteknolojiUniversity of London

    DR. STEFANOS ZAFEİRİOU

  2. Development of hematomir technologies for the hematopoietic stem cells ex vivo expanion

    Hematopoietik kök hücrelerin ex vıvo çoğaltılmasında hematomir teknolojilerin geliştirilmesi

    MERVE USLU

    Doktora

    İngilizce

    İngilizce

    2020

    BiyoteknolojiYeditepe Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. FATİH KOCABAŞ

  3. Bambu malzeme davranışına bir model olarak kabuk strüktür tasarım ve şekil optimizasyonu

    Shell structure design and shape optimization as a model for material behavior of bamboo

    ESRA DEMİREL

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. LEMAN FİGEN GÜL

  4. Organokatalizör olarak kullanılabilecek diamid yapılı bileşiklerin sentezi

    Synthesis of diamide compounds as organocatalysts

    ELİF KESKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    KimyaYıldız Teknik Üniversitesi

    Kimya Ana Bilim Dalı

    PROF. DR. FERAY AYDOĞAN

  5. Polyurethane modifications via double click reactions

    İkili 'Click' reaksiyonları ile poliüretan modifikasyonu

    ERHAN DEMİREL

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Kimyaİstanbul Teknik Üniversitesi

    Kimya Ana Bilim Dalı

    PROF. DR. ÜMİT TUNCA