Sahte konuşma sinyali tespit sistemi geliştirilmesi
Spoof speech detection system development
- Tez No: 799942
- Danışmanlar: DR. ÖĞR. ÜYESİ TURGAY KOÇ
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Süleyman Demirel Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Telekomünikasyon - Sinyal İşleme Bilim Dalı
- Sayfa Sayısı: 60
Özet
Günümüzde kişiye özel retina, parmak izi, yüz ve ses gibi biyometrik işaretlerin kullanımı giderek yaygınlaşmaktadır. Söz konusu biyometrik işaretlerden ses, kişiden kolaylıkle elde edilebilmesi ve herkesin daha kolay erişebileceği cep telefonu vb. araçlarla temin edilebilir olması sebebiyle ekonomik ve pratik elde edilebilen bir kimlik bilgisi taşımaktadır. Bu sebeple mobil bankacılık başta olmak üzere günlük hayattaki farklı alanlarda otomatik konuşmacı doğrulama (Automatic Speaker Verification - ASV) sistemleri yaygın hale gelmektedir. ASV sistemlerinin insanların günlük hayatında giderek yaygın kullanım alanı bulması sebebiyle kötü niyetli kişiler tarafından söz konusu sistemlere yönelik farklı saldırı yöntemleri de geliştirilmektedir. Bu çalışmada, bilinen saldırı yöntemleri arasında ASV sistemlerine en büyük tehdidi oluşturan konuşma sentezleme ve ses dönüştürme yöntemleri ele alınarak bu yöntemlere yönelik mevcut savunma metodları incelenmiş ve alternatif çözüm önerileri değerlendirilmiştir. Alternatif çözüm olarak, 2015 yılında gerçekleştirilen ASVspoof2015 yarışmasında en iyi performansı gösteren genlik spektrumu tabanlı Sabit Q Kepstral Katsayıları (Constant Q Cepstral Coefficients – CQCC) özniteliği ile faz spektrumu tabanlı Gırtlak Akımı Değiştirilmiş Grup Gecikmesi (Glottal Flow Modified Group Delay – GFMGD) öznitelikleri birleştirilmiş ve Gauss Karışım Modeli kullanılarak sahte seslere yönelik bir sınıflandırma sistemi oluşturulmuştur. Geliştirilen sistem performansı, CQCC temelli baz sistem referansıyla değerlendirilerek avantaj ve dezavantajları belirlenmiştir. Ek olarak mevcut sistemlerin zayıf yönleri incelenerek gelecek çalışmalarda üzerinde durulması gereken konular değerlendirilmiştir. ASVspoof 2019 lojik erişim senaryosu kapsamında kullanılan veritabanı ile yapılan çalışmalarda, ilgili veritabanı yaklaşık 120 bin ses kaydından oluşmakta olup eğitim, geliştirme ve doğrulama alt veri kümelerine bölünmüştür. Geliştirme ve doğrulama alt veri kümeleri birbirinden farklı 19 farklı sahte konuşma oluşturma algoritmasının kullanımıyla oluşturulmuş ve böylelikle sahte konuşmacı algılama sisteminin farklı algoritmalar karşısında gösterdiği performansı inceleme imkanı bulunmuştur. GFMGD ve CQCC özniteliğini birlikte kullanan önerilen sistem, derin yapay sinir ağı tabanlı yöntemlerle sahte konuşma oluşturan sistemler karşısında sadece CQCC kullanan temel sisteme göre yaklaşık %55 daha iyi performans göstermektedir. Gerçek konuşma kesitlerinin manipülasyonuyla oluşturulan sahte konuşmalarda ise önerilen sistem temel sisteme göre görece daha kötü performans gösterse de %1 EER değerinin altında kaldığı için bu durum olumsuz değerlendirilmemiştir. Doğrudan gırtlak akımı dalga şeklinin kendisini kullanan sahte konuşma sentezleme sistemlerinde ise her iki sistemin de zayıf performans gösterdiği tespit edilmiştir.
Özet (Çeviri)
The use of biometric signals such as person's retina, fingerprint, face, and voice are becoming more and more common each day and finding itself much wider space in our daily lives. Among the mentioned biometric signals, due to it's nature to be more easily obtained from the person via much more common tools such as cell phone, voice carries an economical and practical credential information. Therefore, automatic speaker verification (ASV) systems are being commonly used in different areas of daily life such as mobile banking and similar applications. Due to the fact that ASV systems are increasingly used, different attack methods are also being developed by malicious people against these systems. In this study, speech synthesis and voice conversion methods, which pose the greatest threat to ASV systems among known attack strategies, are discussed and the existing defense strategies for these methods are examined. Additionally, alternative solutions are evaluated. As an alternative solution, the best-performing amplitude spectrum based Constant Q Cepstral Coefficients (CQCC) feature in the ASVSpoof 2015 competition organised in 2015 and phase spectrum-based Glottal Flow Modified Group Delay (GFMGD) feature were combined and a classification system for spoof speech was created by using Gaussian Mixture Model (GMM). The proposed system performance was evaluated and compared with the CQCC based baseline system. Thus, advantages and disadvantages of the proposed method were determined. In addition, the weaknesses of the existing systems were examined and the issues that should emphasized in future studies were evaluated in order to build more robust systems. In this study, it is conducted with the database used within the scope of the ASVspoof 2019 logic access scenario, the database consists of approximately 120 thousand voice recordings and is divided into training, development and evaluation sub-datasets. The development and validation sub-datasets were created by using 19 different spoof speech generation algorithms, and thus, it was possible to examine the performance of the spoof speech detection system against different algorithms. The proposed system, which uses the GFMGD and CQCC feature together, performns approximately 55% better than the baseline system using only CQCC against systems that generate spoof speech with deep neural network-based methods. Although the proposed system performed relatively worse than the baseline system for spoof speech generated by the manipulation of genuine speech segments, this situation was not evaluated as a poor performance as it remained below 1% EER. In speech synthesis systems that directly use the glottal flow waveform itself, both systems have been found to perform poorly.
Benzer Tezler
- Sahte GPS sinyallerine karşı gömülü sistem tasarımı ve mekatronik sistemlerde uygulanması
Embedded system design against spoofing GPS signals and its application in mechatronic systems
MUSTAFA TANIŞ
Doktora
Türkçe
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. MÜŞTAK ERHAN YALÇIN
- Vi̇sual servo control appli̇cati̇on i̇n a humanoi̇d robot usi̇ng depth-camera i̇nformati̇on
Derinlik kamera bilgisini kullanarak insansı robot'ta görsel servo-kontrol uygulaması
AREZOU RAHİMİ
Yüksek Lisans
İngilizce
2014
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ALİ FUAT ERGENÇ
YRD. DOÇ. DR. PINAR BOYRAZ
- Yeni Cami'nin akustik açıdan performans değerlendirmesi
Evaluation of the acoustical performance of the New Mosque
EVREN YILDIRIM
Yüksek Lisans
Türkçe
2003
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. SEVTAP YILMAZ DEMİRKALE
- Erişkinlerde işitme cihazı kullanımını etkileyen odyolojik ve psikososyal faktörlerin araştırılması
Investigation of the audiological and psychosocial factors affecting the use of hearing aids in the adults
MELİKE DURGUN YAĞCI
Yüksek Lisans
Türkçe
2006
Kulak Burun ve BoğazGazi ÜniversitesiOdyoloji ve Konuşma Bozuklukları Ana Bilim Dalı
PROF. DR. YUSUF KEMAL KEMALOĞLU
- Multimodal machine comprehension of how-to instructions with images and text
Görüntü ve metin içeren çok kipli nasıl yapılır talimatlarının makine ile kavranması
SEMİH YAĞCIOĞLU
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERKUT ERDEM
DOÇ. DR. İBRAHİM AYKUT ERDEM