Geri Dön

Application of deep learning for array microphone processing

Derin öğrenme ile dizilimli mikrofon işlemesi

  1. Tez No: 652282
  2. Yazar: MUHAMMED FURKAN AKYÜREK
  3. Danışmanlar: PROF. DR. MUSTAFA LEVENT ARSLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 87

Özet

Çoklu mikrofon işleme birbiriyle bağlantılı birçok bileşenin birlikte çalıştığı komplek bir yapıdır. Bu işleme yapısı lokalizasyon, hüzmeleme ve filtremele gibi bileşenleri içerir ve dizilimli mikrofon geometrisine bağımlı şekilde çalışır. Dizilimli mikrofonlar akıllı hoparlörler ile popülerlik kazandı. Bu tez ile derin öğrenme metodları ile uçtan uca bir işleme çözümü sunulacak ve geleneksel hüzmeleme metodlarının tüm bileşenlerini tek bir sistem çatısı altında içerecek. Aynı zamanda temelinde gürültü temizlemeyi de barındıracak. Otokodlayıcı derin öğrenme modeli kullanarak geliştirelen bu model genlik spektrumunu kullanarak çalışacak. Sistemin eğitimi için gerekli veriseti bu tez için özel olarak halka açık kaynaklardan erişilebilen konuşma ve gürültü setleri kullanılarak farklı oda ve mikrofon senaryoları simule edilerek oluşturulmuştur. Bu tez çerçevesinde tekli mikrofon bazlı konuşma temizliği ve çoklu mikrofon bazlı konuşma temizliği modelleri oluşturulmuştur. Çoklu mikrofon modelinin yapılan objektif değerlendirme metodları ile geleneksel hüzmeleme tekniklerinden daha başarılı olduğu gösterilmiştir. Bu tez ile derin öğrenme yöntemleri bu çoklu mikrofon işleme konusunda ilerleme fırsatı olduğu görülmüştür.

Özet (Çeviri)

Array microphone processing is a complex application with multiple interlinked components like direction of arrival for the audio sources, beamforming and post- filtering that are dependent on the array geometry. The array microphones gained popularity by the advent of the smart speakers. In this thesis, an end-to-end solution is provided containing all of the array microphone processing components along with the denoising integrated to the core of the system using a deep learning method called autoencoders. The neural network system is trained on the magnitude spectra generated by a dataset created exclusively for this thesis by combining some of the publicly available speech and noise datasets. This thesis proposes a single channel and a multichannel speech enhancement model to solve the beamforming problem. The multichannel autoencoder model is shown to perform better than some of the common conventional beamforming methods by objective evaluation methods. Results from this thesis indicate the room for improvement in this field by the use of neural networks.

Benzer Tezler

  1. Tek mikrofon dizisi ile yapay zeka destekli silah sesi konumlama yöntemi

    A single microphone array-based ai-assisted gunshot sound localization method

    KAZIM ZENGİN

    Doktora

    Türkçe

    Türkçe

    2024

    Mekatronik MühendisliğiYıldız Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYDIN YEŞİLDİREK

  2. Deep learning based three dimensional face expression recognition using geometry images from three dimensional face models

    Üç boyutlu yüz modellerinden elde edilen geometri görüntüleri kullanılan derin öğrenme tabanlı üç boyutlu yüz ifadelerini tanıma

    NEŞE GÜNEŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  3. Age and gender classification in EEG signals using deep learning

    Başlık çevirisi yok

    KHALID TAWFIQ ABDULALBAQI AL-DIWAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. GALİP CANSEVER

  4. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  5. Derin ağ tabanlı özniteliklerle gazların sınıflandırılması ve konsantrasyon değerlerinin regresyon analizi

    Classification of gases with deep network-based features and regression analysis of concentration values

    HANDE BAKİLER

    Doktora

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik MühendisliğiBaşkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELDA GÜNEY