Detector-driven speech background noise removal with convolutional networks
Saptayıcı-güdümlü konuşma arka planı gürültüsünün evrişimsel ağlar ile giderilmesi
- Tez No: 755637
- Danışmanlar: DR. ÖĞR. ÜYESİ ARMAN SAVRAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Yaşar Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 77
Özet
Konuşma arka planı gürültüsü, çevrimiçi toplantıların ve canlı internet yayınlarının artan popülaritesi ile özelikle önem teşkil eden, yaygın bir sorundur. Son zamanlarda, Derin Sinir Ağlarının (DSA), geniş bir yelpazedeki arka plan gürültü çeşitlerinin bastırılmasında, birden fazla mikrofon gerektirmeden yüksek başarı elde ettiği gösterilmiştir. Ancak, ciddi kaynak tüketen böyle derin ağlar birçok gerçek hayat uygulamasının pahalı, külfetli veya bazen kullanışsız olmasına yol açar. Bu tez, problemi hafifletmek için, yüksek başarımlı bir DSA'yı, kayda değer gürültü olmayan zamanlarda devre dışı bırakan, yani saptayıcı-güdümlü bir gürültü giderme yaklaşımı ile, bir çözüm önermektedir. İlk olarak, Conv-TasNet olarak bilinen zaman alanında çalışan modern bir evrişimsel sinir ağı (ESA), verimlilik ve başarımına göre eniyilenmiştir. Sonra, ESA-temelli bir gürültülü konuşma saptayıcı tasarlanmış ve farklı büyüklük ve çözünürlük varyasyonları ile saptayıcı-güdümlü tasarı için değerlendirilmiştir. Optimum saptayıcının, optimum Conv-TasNet'in hesaplama yükünün sadece %2'sine sahip olduğu ve çok düşük gürültülü konuşma ıskalama oranı ile sadece ihmal edilebilir bir başarım düşüşüne neden olduğu bulunmuştur. Böylece, bu önemsiz hesaplama yükü ile başarılı bir şekilde gürültülü konuşma saptayarak, saptayıcı-güdümlü yaklaşımımızın muhtemel önemli verimlilik kazanımları için kullanılabileceğini doğruladık. Bu verimlilik kazanımı gürültü oluşma olasılığı ile ters orantılıdır. Bunun yanında, zaten temiz olan konuşmanın otomatik olarak tanımlanmasıyla, ara sıra oluşan işleme kusurlarının yol açtığı hafif bozulmalardan sakınılabileceğini de gösterdik.
Özet (Çeviri)
Speech background noise is a common issue, which has become especially important with the increasing popularity of online meetings and live internet broadcasting. Recently, Deep Neural Networks (DNNs) have shown to be highly successful in the suppression of a wide variety of background noise types without requiring more than one microphone. However, such deep models which consume substantial resources cause many real-life applications to become expensive, burdensome or sometimes impractical. This thesis proposes a solution to mitigate the problem by de-activating a high performance DNN when there is no significant noise, that is, by a detector-driven noise removal approach. First, we optimized a modern time-domain convolutional neural network (CNN), known as Conv-TasNet, regarding the efficiency and performance. Then, a CNN-based noisy-speech detector was designed and evaluated with different size and resolution variations for the detector-driven scheme. We found that the optimal detector has only a 2% computation load of the optimal Conv-TasNet, with a very low noisy-speech miss-rate causing only negligible performance drop. Thus, having successful noisy-speech detection with this minor computation overhead, we justified our detector-driven approach for possible substantial gains in efficiency. This efficiency gain is inversely proportional to noise occurrence probability. Besides, we have also shown that, by automatic identification of already clean-speech, slight degradations due to occasional processing artifacts can be avoided.
Benzer Tezler
- Termal görüntülere derin öğrenme tabanlı süper çözünürlük yöntemlerinin uygulanması
Application of deep learning based super resolution in thermal images
CANER CİVE
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
- 2-8 MBit/s fiber optik hat teçhizatı arayüz devresinin sahada programlanabilir kapı dizisi ile tasarlanması ve gerçeklenmesi
Designing and implementing 2MBit/s and 8 MBit/s fiber optic line terminating equipment interface circuit by using field programmable gate array
ÜMİT GÖĞÜSGEREN
Yüksek Lisans
Türkçe
1993
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiPROF. DR. AHMET DERVİŞOĞLU
- Grafik işleme birimi önbelleklerinde yerelliğe bağlı dinamik yazma politikası
Locality driven dynamic cache write policy on graphics processing units
ÇAĞATAY TURGUT
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OĞUZ ERGİN
- Vector-driven: A new projection and backprojection algorithm based on vector mapping
Vector-driven: Vektör haritalamasına dayalı yeni bir projeksiyonve ters projeksiyon algoritması
İSMAİL MELİK TÜRKER
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSA YILDIRIM
- Noise immune frequency control loop design for resonant inverters
Rezonans evirgeçleri için gürültüye bağışıklı frekans kontrol döngüsü tasarımı
SALİH ÜNSAL
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik MühendisliğiDokuz Eylül ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. HALDUN KARACA