Enhancement of the coded speech using filtering
Filtreleme kullanarak kodlanmış sesin iyileştirilmesi
- Tez No: 459017
- Danışmanlar: DOÇ. DR. ÜMİT GÜZ, DOÇ. DR. HAKAN GÜRKAN
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Işık Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 90
Özet
Bu çalışma konuşma işaretini sıkıştırıp, arka plan da yer alan gürültünün indirgenmesini sağlayan iyileştirme algoritmaları sayesinde arka plandaki gürültü temizlenmesi hedeflenmiştir. Kullanılan sıkıştırma algoritması SYMPES' in temel amacı ifade edilmek istenirse, konuşma işaretlerinin işlenmesi, depolanması modern iletişim sistemlerinde oldukça önem taşımaktadır. Özellikle konuşma işaretlerinin modellenmesi ya da yeniden oluşturulması sonucunda, gerekli bilgi miktarının azaltılması, sayısal konuşma işaretlerinin depolanmasını ve iletilmesini sağlayan sistemlerin kapasitesi ses verisi sıkıştırması sayesinde belirgin bir şekilde artmaktadır. Ancak bundan dolayı bir takım veri kaybı olmakta ya da arka plan da gürültü oluşmaktadır. Bu sıkıştırma algoritmalarında temel amaç; konuşma iletiminin ya da konuşmanın yeniden oluşturulmasında konuşma işaretinin kendisinden ve konuşmacıdan bağımsız ve bilginin önemli özelliklerini kaybetmeden yüksek sıkıştırma oranları ile oluşturmaktdır. Bu çalışma da kullanılan SYMPES algoritması da diğer bilinen sıkıştırma algoritmalarına oranla daha az veri kaybı ile sıkıştırma yapmaktadır. Yinede sıkıştırma sonucunda, arka planda birtakım gürültüler olmaktadır. Bu gürültü diğer bir adı ile bozulmalar ses iyileştirme algoritmalarının farklı metodları kullanarak minimize edilmeye çalışılmıştır. Araştırılan bu ses iyileştirme algoritmalarından gürültü kaynığının belli olmadığında arka plan gürültüsü için en sağlıklı sonuçları veren iki algoritma önerilmiş: Spektral Çıkarma Algoritması ve İstatistiksel Tabanlı Model metodudr. Bu metodlar arasındaki karşılaştırmalar yapılmıştır. Spektral Çıkarma Algoritması' nı özetlemek istersek; ek gürültüyü varsayarsak, gürültülü konuşma spektrumundan gürültü spektrumunu çıkararak temiz sinyal spektrumunun bir tahmini elde edilebilir. Ses sinyaline karşılık, ek gürültü düşünüldüğünde, gürültülü ses spektrumundan bir gürültü spektrumu çıkartılarak, temiz bir sinyal spektrumun bir tahminin elde edilir. Gürültü spectrum yokluğunda sinyal güncellenebilir ve tahmin edilebilmektedir. Bu yaklaşım, gürültü spektrumunun güncelleme dönemleri arasında önemli ölçüde farklı olmadığını ve gürültülü durağan veya yavaş yavaş değişen bir süreç olduğunu özetler niteliktedir. İleri ve ters Fourier dönüşümleri algoritmada kullanılır, bu nedenle algoritma oldukça basittir. Basit çıkarma algoritması maliyetli bir işlem olduğudan dolayı çıkarma işlemi, herhangi bir konuşma bozulmasını önlemek için çok dikkatli yapılmalıdır. Çok fazla çıkarma yapılırsa, bazı konuşma bilgileri ortadan kaldırılabilir, ancak çok az çıkarılırsa, araya giren gürültünün büyük çoğunluğu kalabildiği gözlemlenmiştir. Buna ek olarak, bazı durumlarda spektral çıkarmadan kaynaklanan konuşma bozukluklarının çoğu kaldırılmıştır. Diğer bir yaklaşım ise istatistiksel model tabanlı algoritmalardır. Bu istatistiksel konuşma geliştirme metodu, temiz ve gürültülü sinyalin ortak istatistiklerini net bir şekilde bilinmesini ve konuşma sinyalleri için algısal bir bozulma önlemi gerektiren belirli bir örnek fonksiyonu için gürültülü bir sinyalin temiz bir sinyalinin tahmin edilmesi yaklaşımıdır. Diğer bir ifadeyle, eğer konuşma sinyalleri istatistiksel olarak bağımsız bir gürültüyle bozulursa, temiz konuşma ve gürültü sinyalinin marjinal olasılık dağılımları açıkça bilinmesi gereklidir. Bu model tabanlı istatiksel metodda, sinyal ve gürültü istatistikleri öncelikle konuşma ve gürültü içeriğinden tahmin edilir. Optimal çözüm, istatistiksel modeller kullanılarak elde edilir ve daha sonra mevcut konuşma geliştirme problemini çözmek için bozulma önlemleri ile birlikte kullanılır. Bu yaklaşımda, otoregresif hareketli ortalama (ARMA), otoregresif (AR) veya hareketli ortalama (MA) gibi konuşma sinyallerini parametreleştirmek için farklı teknikler bu yaklaşımda uygulanmıştır. Ayrıca, Maksimum olasılık (ML), maksimum posteriori (MAP) ve minimum ortalama karesel hata (MMSE) olarak bilinen üç tahmin kuralının, konuşma sinyalinin parametrelerini tahmin etmek için birçok istenen özelliklere sahip olduğu için bu yaklaşımda kullanılmıştır [64]. ML rasgele olmayan parametrelerin bakımı için kullanılmıştır. Tahmin yöntemleri olan MAP ve MMSE, önceden rastgele değişken olarak incelenebilen önceden bilinen yoğunluk fonksiyonunun bilinen parametreleri için kullanılmıştır. Konuşma sinyali için, bu model hem gürültülü sinyalden hem modelin hem de sinyalin tahmin edildiği konuşma geliştirme için zamanla değişen bir AR modeli varsayarak, MAP tahmini yaklaşımı kullanılmıştır[37]. Bununla birlikte, sinyal gelişiminin sonucu olarak ses sinyalinin dalga biçimi bozulduğundan, SNR sonuçları çok sağlıklı bulunmadığından, elde edilen sonuçlar Mean Opinion Score (MOS) testi ile değerlendirilir. Bazı seçilmiş konuşmalar üzerinde MOS temelli öznel bir test gerçekleştirilir. Konuşma geliştirme algoritmalarının değerlendirilmesi için en uygun objektif önlemi belirlemek için öznel testin sonuçları da objektif test ile karşılaştırıldı. Çeşitli algoritmaların güçlü ve zayıf yönleri analiz edilir ve karşılaştırılır. Kalite, bir dinleyicinin konuşmanın kalitesini 1'den 5'e çıkardığı Mean Opinion Score (MOS) kullanılarak ölçülebilir ve gürültünün temizlendiğine dair ayrıntılar grafiklerle gösterilmektedir.
Özet (Çeviri)
The process and storage of speech signals are widely dealt in modern communication systems. Decreasing the amount of information for the modelling reconstruction of speech signals, increases the capacity of the systems of transmission and storage of speech signals. It is important to compress the speech without losing its significant properties during transmission or reconstruction independently from the speaker and speech signals itself. However, some losses occur in every compression process. Increasing the compression ratio result with increased loss. Speech enhancement algorithm can be used to enhance strongly compressed speech signals for better intelligibility and quality. The purpose of this study is to enhancing a speech with healing algorithms that compress the speech signal and reduce the background noise. The SYMPES algorithm used in this study compresses data with less loss than other known compression algorithms. As a result of the compression, noise occur in the background. The type of the noise cannot be classified. These background noises (distortions) have been tried to be minimized by using different methods of speech enhancement algorithms. More than ten speech enhancement algorithms have been investigated and implemented. Two algorithms with the best enhanced sound output were chosen and compared. One of them, Spectral Substraction Algorithm, was applied via a geometric approach which was studied in 2008 by Yang Lu and Philipos C. Loizou[8]. In the algorithm, a noise spectrum is subtracted from the noisy speech signal then a clean signal spectrum is obtained. Moreover, in the absence of signal, the noise spectrum can be updated and predicted. This approach is expresses that the noise spectrum is not significantly different between update periods and is a noisy stationary or slowly changing process. Forward and inverse Fourier transforms are used in the algorithm, so the algorithm is quite simple. Since the simple subtraction algorithm is a costly operation, subtraction must be done with extreme caution to avoid any speech distortion. If too many subtractions are made, some speech information can be removed from the center, but if too little is subtracted, it can be observed that the clear majority of the intervening noise still present. The other speech enhancement method is statistical model based algorithms. This statistical speech enhancement method involves predicting statistic of a clean and noisy signal for a sample. In other words, if speech signals are distorted with a statistically independent noise, the marginal probability distributions of the clean speech and noise signal must be clearly known. In this model-based statistical method, signal and noise statistics are estimated primarily from speech and noise content. The optimal solution is obtained using statistical models and then is used in conjunction with distortion measures to solve the existing speech enhancement problem. In this approach, different techniques have been applied to parameterize speech signals such as autoregressive moving average (ARMA), autoregressive (AR), or moving average (MA). Three prediction rules known as maximum probability (ML), maximum posteriori (MAP) and minimum mean square error (MMSE) are used in the approach and have many desirable features to estimate the parameters of the speech signal [64]. ML is used for maintenance of non-random parameters. The estimation methods MAP and MMSE are used for known parameters of the previously known density function which can be examined in advance as a random variable. For the speech signal, this model uses the MAP estimation approach, assuming a time-varying AR model for speech enhancement in which both the model and the signal are estimated from the noisy signal [37]. However, since the waveform of the audio signal is distorted as a result of the signal improvement, the SNR results are not found very healthy. Therefore, the results are evaluated by the MOS test. A subjective test based on Mean Opinion Score is also carried out on some selected utterances. The results of the subjective test are also compared with those of the objective test to determine the most appropriate objective measure for the evaluation of speech enhancement algorithms. The strengths and weaknesses of the various algorithms are analysed and compared. Quality has been shown in detail graphs that can be measured and smoothed using the Mean Opinion Score (MOS), which defines the quality of speech by a listener from 1 to 5.
Benzer Tezler
- Paralel işaret işleme sistemi ve bir uygulama
A Parallel signal processing system and an application
FATİH KURUGÖLLÜ
Yüksek Lisans
Türkçe
1994
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. A. EMRE HARMANCI
- Single channel noisy speech enhancement based on spectral amplitude estimation methods
İzgesel genlik kestirimi tabanlı yöntemlerle tek kanal gürültülü konuşmanın temizlenmesi
CEM DEMİRKIR
Yüksek Lisans
İngilizce
2000
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA ÇİLOĞLU
- Sayısal işaret işleme geliştirme sistemi tasarımı ve gerçeklenmesi
Digital signal processing development system design and realization
İLKER AYDIN
Yüksek Lisans
Türkçe
1992
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF. DR. AHMET DERVİŞOĞLU
- Karma uyarım doğrusal öngörüm (KUDÖ) kodlamasının çeşitli parametrelerinin kodlama başarımına etkisinin incelenmesi
Investigation of various parameters of mixed excitation linear prediction (MELP) coder on the coding performance
MURAT ŞAHİN
Yüksek Lisans
Türkçe
2004
Elektrik ve Elektronik MühendisliğiHacettepe ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. SEMİH BİNGÖL
- Yoğurttan biyoaktif peptit eldesi ve bu peptitlerin antimikrobiyel ve antioksidan aktivitelerinin belirlenmesi
Identification of bioactive peptides obtained from yogurt and determination of antimicrobial and antioxidant activity of these peptides
HATİCE ŞANLIDERE ALOĞLU
Doktora
Türkçe
2010
BiyoteknolojiSüleyman Demirel ÜniversitesiGıda Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZÜBEYDE ÖNER