Robust keyword spotting in noisy environments based on deep learning
Derin öğrenmeye dayalı gürültülü ortamlarda dayanıklı anahtar kelı̇me tespı̇tı̇
- Tez No: 947702
- Danışmanlar: PROF. DR. HAMİT ERDEM
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Başkent Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Eğitimi Ana Bilim Dalı
- Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 69
Özet
Bu tez çalışmasında, olumsuz gürültü koşullarında anahtar kelime algılama (KWS) performansını artırmak amacıyla, tamamlayıcı akustik bilgilerin dönüştürücü tabanlı bir meta-sınıflandırıcı çerçevesi aracılığıyla bütünleştirildiği özgün bir sistem önerilmektedir. Bu doğrultuda, Berg ve diğerleri tarafından geliştirilen Keyword Transformer ailesinin bir türevi olan KWT-1 modeli bilgi damıtımı (knowledge distillation) uygulanmaksızın yeniden tasarlanmış ve Google Speech Commands v2 veri kümesi üzerinde 12 sınıflı bir sınıflandırma görevi için eğitilmiştir. Modelin dayanıklılığını artırmak amacıyla, ilgili literatürde önerilen kapsamlı veri artırma stratejileri uygulanmıştır. Sisteme tamamlayıcı akustik özellikler kazandırmak amacıyla iki ek modül geliştirilmiştir: bir gürültü türü sınıflandırıcısı ve bir sinyal-gürültü oranı (SNR) tahmin modeli. Gürültü türü sınıflandırıcısı, Abdoli ve diğerlerinin yöntemi temel alınarak tasarlanmış tek boyutlu bir evrişimli sinir ağı mimarisi kullanılarak geliştirilmiş ve UrbanSound8K veri kümesi üzerinde on farklı çevresel gürültü sınıfını tanıyacak şekilde eğitilmiştir. SNR tahmin modeli ise, kum saati (hourglass) tarzında özgün bir evrişimsel sinir ağı mimarisi benimseyerek sürekli SNR tahmini gerçekleştirmektedir. Bu modelin eğitimi sırasında, Google Speech Commands v2 veri kümesinden elde edilen temiz konuşma örnekleri, UrbanSound8K veri kümesinden seçilen gürültü sinyalleriyle 0 ila 20 dB arasında rastgele belirlenen SNR seviyelerinde karıştırılarak gerçekçi akustik ortamlar simüle edilmiştir. Anahtar kelime tahmini, gürültü türü sınıflandırması ve SNR tahmini olmak üzere üç farklı modülden elde edilen çıktılar, karar düzeyinde dönüştürücü tabanlı bir meta-sınıflandırıcı kullanılarak bütünleştirilmiştir. Bu yapı içerisinde her bir model çıktısı ayrı bir token olarak ele alınmış, ortak bir gömme (embedding) uzayına projekte edilmiş ve bir dönüştürücü kodlayıcı (transformer encoder) bloğu aracılığıyla işlenmiştir. Bu tasarım, anlamsal, çevresel ve akustik faktörler arasındaki karmaşık ilişkileri etkin bir şekilde modellemeyi amaçlamaktadır. Önerilen birleştirme modeli, anahtar kelime sınıflandırma doğruluğu bakımından temel KWT-1 modelinin performansını aşamamakla birlikte, kum saati tarzında tasarlanan SNR tahmin ağı sayesinde mevcut sinir ağı tabanlı yaklaşımlara kıyasla daha başarılı sonuçlar elde edilmiştir. Modelin performansı, anahtar kelime ve gürültü türü tespiti için sınıflandırma doğruluğu; SNR tahmini için ise ortalama mutlak hata (MAE) metriği kullanılarak değerlendirilmiştir.
Özet (Çeviri)
The present thesis introduces a novel keyword spotting (KWS) system aimed at enhancing performance under adverse noisy conditions by integrating supplementary acoustic information through a transformer-based meta-classifier framework. To accomplish this, KWT-1—a variant of the Keyword Transformer family introduced by Berg et al.—is reimplemented as the base KWS component. This model is applied without the use of knowledge distillation and is trained on the Google Speech Commands v2 dataset for a 12-label classification task. Extensive data augmentation strategies are employed in alignment with the original study to ensure robust model performance. To extract complementary acoustic features, two additional modules are integrated: a noise type classifier and a signal-to-noise ratio (SNR) prediction model. The noise classifier is implemented as a one-dimensional convolutional neural network informed by the methodology of Abdoli et al. and trained on the UrbanSound8K dataset to recognize ten distinct environmental noise classes. The SNR prediction model adopts a novel hourglass-style convolutional architecture to perform continuous SNR regression. During its training, clean speech samples from the Google Speech Commands v2 dataset are mixed with noise from UrbanSound8K at random SNR levels ranging from 0 to 20 dB, simulating realistic acoustic environments. The outputs from the three branches—keyword prediction, noise type, and estimated SNR—are fused at the decision level using a transformer-based meta-classifier. In this configuration, each model output is treated as a discrete token, projected into a shared embedding space, and processed by a transformer encoder block. This design is intended to capture the complex interdependencies between semantic, environmental, and acoustic factors. Although the proposed fusion model did not surpass the performance of the standalone KWT-1 baseline in terms of keyword classification accuracy, the work contributes to the academic literature by introducing an hourglass-style CNN for SNR level estimation that outperforms existing neural network-based approaches. Evaluation is conducted using classification accuracy for keyword and noise type detection tasks and mean absolute error (MAE) for the SNR regression task.
Benzer Tezler
- Analysis for UDS and KWP 2000 communication protocols with uds based diagnosis design on AUTOSAR standards
AUTOSAR standartında UDS tabanlı teşhis tasarımı ile UDS ve KWP 2000 haberleşme protokollerinin analizi
MAHİR UMUT DİLEK
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik MühendisliğiÇankaya ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. BARBAROS PREVEZE
- Mekanik salınımların azaltılmasında giriş işaretini şekillendirme ve güvenilir denetim geliştirme
Input shaping for reducing mechanical vibrations and developing robust control
ŞEFİK CİNAL
Yüksek Lisans
Türkçe
2006
Elektrik ve Elektronik MühendisliğiZonguldak Karaelmas ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. SIRRI SUNAY GÜRLEYÜK
- Kolorektal kanser tanısı için güvenli çok dilli LLM tabanlı diyalog sistemi: Guardrails ve Monte Carlo risk puanlamasının entegrasyonu
A secure multilingual LLM-based dialogue system for colorectal cancer diagnosis: Integration of guardrails and Monte Carlo risk scoring
ABDURRAHİM KIZILAY
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAfyon Kocatepe Üniversitesiİnternet ve Bilişim Teknolojileri Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KEREM GENCER
- Investor attention and stock performance: A search engine optimization approach
Yatırımcı ilgisi ve hisse senedi performansı: Arama motoru optimizasyonu yaklaşımı
ABDULLAH EFE GÜL
Yüksek Lisans
İngilizce
2022
MaliyeOrta Doğu Teknik ÜniversitesiFinansal Matematik Ana Bilim Dalı
DOÇ. DR. SEZA DANIŞOĞLU
- Angle control of a single-degree-of-freedom mechanical helicopter model
Tek serbestlik dereceli mekanik helikopter modelinin açı denetimi
WALEED AL-JUMAILI
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik MühendisliğiGaziantep ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGAY KARA