Geri Dön

Derin öğrenme ile ses iyileştirilmesi

Voice enhancement by deep learning

  1. Tez No: 540691
  2. Yazar: MUSTAFA ERSEVEN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ BÜLENT BOLAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Mühendislik Bilimleri, Electrical and Electronics Engineering, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Haberleşme Bilim Dalı
  13. Sayfa Sayısı: 52

Özet

Günümüzde ses sinyalini kullanan sayısız cihaz ve uygulama vardır; örneğin haberleşme uygulamaları, müzik sistemleri ve biyomedikal cihazlar gibi. Özellikle telsiz ve cep telefonlarının kullanımının yaygınlığı düşünülürse, bu konu gerek askeri gerekse sivil alanda önemli bir yer tutmaktadır. Bahsi geçen bu uygulama alanlarının ortak problemlerinden biri ses sinyali üzerinde oluşan gürültüdür. Sinyali etkileyen gürültü kaynakları ile her alanda karşılaşılabilir. Ticari bağlamda kullanıcılara daha iyi bir hizmet sunulması amacıyla, akademik bağlamda ise istatistiksel sinyal işleme alanında ilgi çekici bir konu olması nedeniyle bu problem üzerinde sayısız çalışma yapılmıştır. Bu çalışmada ise problem özel olarak konuşma sinyalinin iyileştirilmesiyle ile sınırlandırılmıştır. Konuşma sinyalinin özellikle haberleşme bağlamında önemli uygulamaları olması konuyu ilgi çekici kılmıştır. Gerek telsiz gerekse GSM haberleşmesi sırasında oluşan arka plan gürültüsünün giderilmesi önemlidir. Arka plan gürültüsünün giderilmesiyle konuşma sinyalinin, kısa süreli nesnel netlik (KSNN) (short time objective intelligibility) ve konuşma kalitesinin algısal değerlendirilmesi (KKAD) (perceptual evaluation of speech quality) ölçütleri iyileştirilir. Böylece dinleyici tarafına arka plandaki gürültüden arındırılmış ve anlaşılır bir konuşma sunulmuş olur. Bu çalışmada, arka plan gürültüsü olarak gevezelik (babble) gürültüsü seçilmiştir. Yöntem olarak ise, makine öğrenmesinin bir dalı olan derin öğrenmenin (deep learning) altında bulunan derin sinir ağları kullanılmıştır. Derin sinir ağı olarak ise en popülerinden biri olan evrişimsel sinir ağının (ESA) probleme uygun bir mimarisi önerilmiştir. Gevezelik (babble) gürültüsünün istatistiksel modelinin çıkarılması zor olduğundan dolayı, istatistiksel özellikleri taban alan klasik yöntemler (Wiener süzgeci, minimum ortalama karesel hata tabanlı spektral genlik kestirimcisi gibi) kullanılamamaktadır. Bu problemin üstesinden gelmek amaclı, gürültülü konuşma spektrumları ile temiz konuşma spektrumları arasında doğrusal olmayan haritalama yapabilen sinir ağları popüler yöntem olmuştur. Özellikle derin öğrenme (DÖ) görüntü ve ses işleme uygulamalarında kendine geniş yer bulmuştur. Evrişimsel sinir ağının ses için frekans ilişkisini de işlemesi ve diğer derin öğrenme yöntemlerine nazaran daha az değişken gerektirmesi konuşma işleme konusunda ESA'yı daha popüler bir yöntem haline getirmiştir. Bu çalışmada, konuşma iyileştirme için regresyon temelli bir ESA mimarisi oluşturulmuştur. İki farklı konuşmacıya ait 460 farklı cümle kullanılmıştır. Temiz konuşma sinyallerine gevezelik gürültüsü eklenmiş ve farklı sinyal gürültü oranlarında (SGO) veri setleri oluşturulmuştur. Temiz ve gürültülü sinyallerin kısa süreli Fourier dönüşümü (KSFD) katsayıları elde edilmiş, ardından bu katsayıların genlik bilgilerinden logaritmik güç spektrumu (LGS) katsayıları hesaplanmıştır. Gürültülü sinyalin faz bilgisi, genlik spektrumu iyileştirildikten sonra sesi sentezlemek için saklanmıştır. Önerilen ESA eğitilmiştir. İyileştirilen LGS katsayıları ve saklanan faz ile ses tekrar sentezlenmiş ardından KKAD ve KSNN ölçütleri ile değerlendirilmiştir.

Özet (Çeviri)

Today, there are countless devices and applications that use audio signals; such as communication apps, music systems and biomedical devices. Especially when considering the prevalence of the use of wireless and mobile phones, it keeps these issues, both military and civilian areas in an important place. One of the common problems of these applications is the noise generated on the audio signal. Noise sources affecting the signal can be encountered in every field. Numerous studies have been carried out on this problem because it is an interesting subject in the field of statistical signal processing in the academic context in order to provide better service to users in a commercial context. In this study, the problem was limited by the enhancement of the speech signal. The fact that the speech signal has important applications in the context of communication has made it interesting. It is important to remove the background noise generated during both wireless and GSM communications. By eliminating background noise, short time objective intelligibility (STOI) and perceptual evaluation of speech quality (PESQ) are improved. In this way, clear speech is provided to the listener that free of background noise. In this study, babble noise was chosen as background noise. As a method, deep neural networks under deep learning have been used. As a deep neural network, an appropriate architecture of the convolutional neural network (CNN), one of the most popular, has been proposed. Because the statistical modeling of babble noise is difficult to extract, classical methods based on statistical features (such as the Wiener filter, the minimum mean square error-based spectral amplitude estimator) cannot be used. To overcome this problem, neural networks which can perform non-linear mapping between noisy speech spectra and clean speech spectra have been popular. Especially deep learning has found wide space in image and sound processing applications. In this study, CNN architecture based on regression was created for speech enhancement. 460 different sentences of two different speakers were used. Speech noise was added to the clean speech signals and data sets were generated at different signal to noise ratios (SNR). Short time Fourier transform (STFT) coefficients of the clear and noisy signals were obtained and then the logarithmic power spectrum (LPS) coefficients were calculated from the amplitude information of these coefficients. The phase information of the noisy signal was stored to synthesize the signal after the amplitude spectrum was enhanced. Proposed CNN is trained. Speech signal were re-synthesized from enhanced LPS coefficients and the stored phase and then evaluated by PESQ and STOI criteria.

Benzer Tezler

  1. Derin öğrenme tabanlı süper çözünürlük teknikleri kullanarak JPEG sıkıştırma kaybının iyileştirilmesi

    Recovering JPEG compression loss via deep learning-based super resolution techniques

    MUHAMMET BOLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. LÜTFİYE DURAK ATA

    DR. NURULLAH ÇALIK

  2. Pansharpening using generative adversarial networks with dual discriminators

    Çift ayrıştırıcılı çekişmeli üretken ağlar kullanarak pankeskinleştirme

    NAHİDE NESLİ CESUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. IŞIN ERER

  3. Data-driven design and analysis of next generation mobile networks for anomaly detection and signal classification with fast, robust and light machine learning

    Hızlı, Sağlam ve Hafif Makine Öğrenmesi ile Anormallik Algılaması ve Sinyal Sınıflandırması için Yeni Nesil Mobil Ağların Veriye Dayalı Tasarımı ve Analizi

    MUHAMMED FURKAN KUCUK

    Doktora

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiUniversity of South Florida

    Haberleşme Ana Bilim Dalı

    DOÇ. DR. İSMAİL UYSAL

  4. Görüntü analizi uygulama süreçlerinin geliştirilmesi: Tamamlama, sahtecilik ve iyileştirme

    Development of image analysis application processes: Completion, forgery and enhancement

    HÜSEYİN ALPEREN DAĞDÖGEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. İBRAHİM TÜRKOĞLU

  5. Generative adversarial networks based level generation for angry birds

    Çekişmeli üretici ağlar ile angry birds bölümlerinin üretilmesi

    BURKAN YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. SANEM SARIEL UZER