New approaches for speech enhancement with wavelet transform
Dalgacık dönüşümü ile konuşma iyileştirme için yeni yaklaşımlar
- Tez No: 712237
- Danışmanlar: DR. ÖĞR. ÜYESİ NALAN ÖZKURT
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Elektrik ve Elektronik Mühendisliği, Science and Technology, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Yaşar Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 93
Özet
Günümüzde teknolojik gelişmelerin ışığında iletişim giderek daha fazla önem kazanmaktadır. İletişim çeşitli yöntemlerle gerçekleşse de en sık kullanılan iletişim tabanlarından biri konuşmadır. Günümüzde iletişim sadece insanlar arasında değil, birçok önemli uygulamada insanlarla makineler arasında gerçekleşmektedir. Bu nedenlerden dolayı, iletişimin sorunsuz bir şekilde sağlanabilmesi için konuşma sinyalinin temiz ve anlaşılır olması gerekir. Konuşma iyileştirme uygulamaları, gürültü etkisini mümkün olduğunca ortadan kaldırarak konuşma sinyallerinin kalitesini ve anlaşılırlığını artırmak için kullanılır. Konuşma tabanlı uygulamaların artmasıyla bu alandaki araştırmalar da hız kazanmıştır. Bu amaçla kullanılan yöntemler, tek kanallı ve çok kanallı yöntemler olmak üzere iki ana sınıf altında incelenir. Bu çalışmada, dalgacık dönüşümü yardımıyla şimdiye kadar kullanılan yöntemin başarısını artırmak için her yöntem için yeni bir yaklaşım önerdik. Önerilen ilk yöntem, bir dalgacık dönüşümü alan uyarlamalı filtre sistemidir. Konuşma sinyalleri ve gürültü, statik olarak durağan olmayan sinyaller olduğundan, uyarlanabilir filtreler, gürültüyü gidermek için en çok tercih edilen yöntemlerden biridir. Ancak, zaman alanında uyarlanabilir filtre uygulamasının, büyük veri kümeleri için daha düşük yakınsama hızı ve oranı gibi bazı eksiklikleri vardır. Bu nedenle bazı çalışmalarda Dönüşüm Alanında Uyarlanabilir Filtreler (DAUF) kullanılmıştır. Önerilen yöntemle, dalgacık dönüşümü alanında tam olarak uygulanan çoklu alt bant uyarlamalı filtreler ile mevcut DAUF'in yakınsama hızı, yakınsama oranı ve hesaplama karmaşıklığı açısından eksikliklerini gidermeyi amaçladık. Önerilen sistemin performansı, beyaz gürültü, pembe gürültü, gevezelik gürültüsü, motor rölanti gürültüsü, uçak kokpit gürültüsü gibi çeşitli gürültülerin etkisi altında konuşma sinyalleri üzerinde test edilmiştir. Sonuçları değerlendirmek için yaygın olarak kullanılan objektif ölçümler kullanıldı. Ancak, çalışmadaki öncelikli odak noktamız konuşma sinyallerini iyileştirmek olduğundan, amacımız sadece sinyal üzerindeki gürültüyü azaltmak değil, aynı zamanda konuşma sinyallerinin kalitesini ve anlaşılırlığını artırmaktır. Bu nedenle, işlenmiş konuşma sinyallerini değerlendirmek için Konuşma Kalitesinin Algısal Değerlendirmesi (PESQ) ve Kısa Süreli Amaç Anlaşılabilirlik puanı (STOI) gibi nesnel ölçüler kullanıldı. Son olarak sonuçlar literatürdeki çalışmalarla karşılaştırılmıştır. Tezde önerilen ikinci yöntem, dalgacık dönüşümü ile birleştirilmiş bir Evrişimsel Sinir Ağıdır (ESA). Bu yöntem, bir tek kanallı bir konuşma geliştirme uygulamasıdır ve bu yöntemdeki ana zorluk, konuşma sinyallerini bilinmeyen gürültüden ayırt etmektir. Bunu sağlamak için son yıllarda birçok derin öğrenme tabanlı yöntem kullanılmaktadır. ESA da son yıllarda konuşma iyileştirme için kullanılan yöntemlerden birisidir. ESA, normalde birçok uygulamada görüntü sinyallerini işlemek için kullanılır. Bu yöntemde, biz Sürekli Dalgacık Dönüşümünün (SDD) büyüklüğü ile elde edilen skalogramlarla ESA'yı eğittik. Bu şekilde, scalogramlar da görüntü gibi iki boyutlu veriler olduğu için ESA'nın en iyi özelliklerinden yararlanmayı amaçladık. Ayrıca dalgacık dönüşümü, sinyalleri zaman-frekans düzleminde gözlemlemek için en iyi yöntemlerden biridir. Çalışmanın bu bölünde, ESA'yı dalgacık dönüşümüyle birleştirerek, dalgacık dönüşümünün mevcut yöntemlerin başarısını artırma ve hesaplama karmaşıklığını azaltma açısından katkısını araştırdık. Son olarak, sonuçları standart konuşma değerlendirme ölçütleriyle değerlendirdik ve karşılaştırmalar ile sunduk.
Özet (Çeviri)
Today, in the light of technological developments, communication is gaining more and more importance. Although there are various communication methods, one of the most frequently used communication bases is speech. Today, communication takes place between humans and between humans and machines in many crucial applications. Therefore, speech signals must be clear and intelligible to ensure these communications are carried out smoothly. The speech enhancement application improves the quality and intelligibility of speech signals by removing the noise effect as much as possible. With the increase in speech-based applications, research in this field has gained momentum. Generally, speech enhancement methods are examined under two main classes: single-channel and multi-channel methods. In this study, In this study, we proposed a new approach for both types to increase the success of the method used up to now with the help of the wavelet transform. The first proposed method is a wavelet transform domain adaptive filter system. Since speech signals and noise are non-stationary signals, adaptive filters are one of the most preferred methods to denoise them. However, the application of adaptive filter in the time domain has some deficiencies, such as lower convergence speed especially for large datasets. Therefore, Transform Domain Adaptive Filters (TDAF) have been used in some studies. With the proposed method, we aimed to eliminate deficiencies of existing TDAF in terms of convergence speed, denoising rate, and computational complexity with multiple sub-band adaptive filters fully applied in the wavelet transform domain. The performance of the proposed system was tested on speech signals under the effect of various noises such as white noise, pink noise, babble noise, engine idling noise, aircraft cockpit noise. The commonly used objective measures were used to evaluate results. However, as our primary focal point in the study is enhancing speech signals, our aim is not only decreasing noise on the signal but also increasing the quality and intelligibility of speech signals. Therefore, objective measures such as Perceptual Evaluation of Speech Quality (PESQ) and the Short-Time Objective Intelligibility score (STOI) were used to evaluate processed speech signals. Finally, the results were compared with the studies in the literature. The second method proposed in the thesis is a Convolutional Neural Network (CNN) combined with wavelet transform. This is a single-channel speech enhancement application, and the main challenge in this method is distinguishing speech signals from unknown noise. Many deep learning-based methods have been used to ensure this in recent years. CNN is one of the methods used for speech enhancement applications. Commonly, it is used for image processing in many applications. We trained CNN with scalograms obtained by the magnitude of Continuous Wavelet Transform (CWT) in this method. In this way, as scalograms are two-dimensional data like images, we aimed to utilize to best properties of CNNs. Also, wavelet transform is one of the best methods to observe signals in the time-frequency plane. By combining CNNs and wavelet transform, we investigated the contribution of wavelet transform in terms of increasing the success of the existing methods and decreasing computational complexity. Finally, we evaluated the results with standard speech evaluation criterias and presented them with comparisons.
Benzer Tezler
- Novel fractional order calculus-based audio processing methods and their applications on neural networks for classification and synthesis problems
Kesirli mertebeden kalkülüs temelli yeni ses işleme yöntemleri ve bunların sinir ağları üzerinde sınıflandırma ve sentez problemlerine uygulanması
BİLGİ GÖRKEM YAZGAÇ
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MÜRVET KIRCI
- Görüntü işlemede derin öğrenme tabanlı süper çözünürlük uygulamaları
Deep learning based super resolution applications in image processing
AHENK VURAL
Yüksek Lisans
Türkçe
2021
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
- Yapay zekâ ve demokrasi
Artificial intelligence and democracy
AYŞE NUR YAZICILAR
Yüksek Lisans
Türkçe
2023
HukukGalatasaray ÜniversitesiKamu Hukuku Ana Bilim Dalı
PROF. DR. ŞULE ÖZSOY BOYUNSUZ
- A speaker dependent, large vocabulary, isolated word speech recognition system for Turkish
Türkçe için konuşmacı bağımlı, geniş sözcük dağarcıklı, ayrık sözcüklü tanıma sistemi
VOLKAN TUNALI
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. MURAT DOĞRUEL
- A unified approach to speech enhancement and voice activity detection
Konuşma işaretinin iyileştirilmesi ve ses aktivitesi algılama için bütüncü bir yaklaşım
CEYHAN KASAP
Yüksek Lisans
İngilizce
2009
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. LEVENT M. ARSLAN