Application of deep learning for array microphone processing

Derin öğrenme ile dizilimli mikrofon işlemesi

PDF İndir

Tez No: 652282
Yazar: MUHAMMED FURKAN AKYÜREK
Danışmanlar: PROF. DR. MUSTAFA LEVENT ARSLAN
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 87

Özet

Çoklu mikrofon işleme birbiriyle bağlantılı birçok bileşenin birlikte çalıştığı komplek bir yapıdır. Bu işleme yapısı lokalizasyon, hüzmeleme ve filtremele gibi bileşenleri içerir ve dizilimli mikrofon geometrisine bağımlı şekilde çalışır. Dizilimli mikrofonlar akıllı hoparlörler ile popülerlik kazandı. Bu tez ile derin öğrenme metodları ile uçtan uca bir işleme çözümü sunulacak ve geleneksel hüzmeleme metodlarının tüm bileşenlerini tek bir sistem çatısı altında içerecek. Aynı zamanda temelinde gürültü temizlemeyi de barındıracak. Otokodlayıcı derin öğrenme modeli kullanarak geliştirelen bu model genlik spektrumunu kullanarak çalışacak. Sistemin eğitimi için gerekli veriseti bu tez için özel olarak halka açık kaynaklardan erişilebilen konuşma ve gürültü setleri kullanılarak farklı oda ve mikrofon senaryoları simule edilerek oluşturulmuştur. Bu tez çerçevesinde tekli mikrofon bazlı konuşma temizliği ve çoklu mikrofon bazlı konuşma temizliği modelleri oluşturulmuştur. Çoklu mikrofon modelinin yapılan objektif değerlendirme metodları ile geleneksel hüzmeleme tekniklerinden daha başarılı olduğu gösterilmiştir. Bu tez ile derin öğrenme yöntemleri bu çoklu mikrofon işleme konusunda ilerleme fırsatı olduğu görülmüştür.

Özet (Çeviri)

Array microphone processing is a complex application with multiple interlinked components like direction of arrival for the audio sources, beamforming and post- filtering that are dependent on the array geometry. The array microphones gained popularity by the advent of the smart speakers. In this thesis, an end-to-end solution is provided containing all of the array microphone processing components along with the denoising integrated to the core of the system using a deep learning method called autoencoders. The neural network system is trained on the magnitude spectra generated by a dataset created exclusively for this thesis by combining some of the publicly available speech and noise datasets. This thesis proposes a single channel and a multichannel speech enhancement model to solve the beamforming problem. The multichannel autoencoder model is shown to perform better than some of the common conventional beamforming methods by objective evaluation methods. Results from this thesis indicate the room for improvement in this field by the use of neural networks.

Benzer Tezler

Tez No
959379
Ses olay tespit problemine derin öğrenme tabanlı çözümler
Utilizing footstep sound event detection by using cnn techniques for assuring property security
FURKAN YUSUF YAVUZ
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NEJAT YUMUŞAK
Tez No
905405
Tek mikrofon dizisi ile yapay zeka destekli silah sesi konumlama yöntemi
A single microphone array-based ai-assisted gunshot sound localization method
KAZIM ZENGİN
Doktora
Türkçe
2024
Mekatronik Mühendisliği Yıldız Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. AYDIN YEŞİLDİREK
Tez No
581887
Deep learning based three dimensional face expression recognition using geometry images from three dimensional face models
Üç boyutlu yüz modellerinden elde edilen geometri görüntüleri kullanılan derin öğrenme tabanlı üç boyutlu yüz ifadelerini tanıma
NEŞE GÜNEŞ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
Tez No
832508
Age and gender classification in EEG signals using deep learning
Başlık çevirisi yok
KHALID TAWFIQ ABDULALBAQI AL-DIWAN
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliği Altınbaş Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. GALİP CANSEVER
Tez No
879686
Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN

Geri Dön