Geri Dön

Derin öğrenme kullanarak konuşma bölütlerinin tespiti için optimal özellik parametre kümesi belirleme

Determining optimal feature parameter set for detection of speech segments using deep learning

  1. Tez No: 636912
  2. Yazar: ÖZLEM BATUR DİNLER
  3. Danışmanlar: PROF. DR. NİZAMETTİN AYDIN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 92

Özet

Konuşma, birçok kişisel bilgi içeren bir biyometrik işarettir. İnsan iletişiminin en doğal ve en verimli biçimini temsil etmektedir. Gelişen teknoloji ile birlikte, bu konuşma işaretinden elde edilen bilgiler kullanılarak konuşma tanıma, konuşmacı tanıma, konuşma sentezleme ve konuşma kodlama ve çözme gibi çok çeşitli ses işleme uygulamaları geliştirilmektedir. Günümüzde özellikle güvenlik gerektiren kişisel işlemlerde bu uygulamalar aktif bir rol oynamaktadır. Bu uygulamaların geliştirilmesinde çoğu zaman konuşma bölütlerinin tespit sistemi bir ön işlem olarak kullanıldığından konuşma bölütlerinin doğru tespit edilmesi oldukça önemlidir. Konuşma bölütleme (segmentasyon), bir konuşma işaretini daha küçük akustik birimlere bölme işlemi olarak adlandırılır. Aynı zamanda, konuşma işaretini kelimeler, heceler veya fonemler arasında sınır bulma prosedürü olarak tanımlamak ta mümkündür. Bu tez çalışmasında, sürekli bir konuşma içerisindeki Ünsüz (Consonant), Ünlü (Vowel), ve Sessiz (konuşmanın olmadığı, Silent) (C/V/S) bölgeleri Geçitli Tekrarlayan Birim (Gated Recurrent Unit, GRU) tekrarlayan sinir ağlarına dayalı tahmin edebilen (belirleyebilen) fonem tabanlı bir konuşma tespit sistemi geliştirilmiştir. Bu amaçla, C/V/S konuşma bölütlerinin sınırlarını tanımlamak için 4 farklı pencere uzunluğu, 3 farklı pencereleme yöntemi ve 3 farklı hibrit özellik çıkarım yöntemi birlikte kullanılarak 6 farklı sınıflandırıcı yöntemi ile test edilmiştir. Böylece çeşitli parametrelerin farklı hibrit özellik çıkarım yöntemleri ile birlikte kullanılmasının C/V/S konuşma bölütlerinin tespit sistemi üzerindeki etkisi incelenmiştir. Bu çalışmada, Enerji, Sıfır Geçiş Sayısı (ZCR) ve Mel Frekans Kepstral Katsayı (MFCC) temelli bir hibrit özellik çıkarım yöntemi kullanılmıştır. Bu bağlamda, farklı hibrit özellik çıkarım yöntemleri çeşitli parametreler ile birlikte kullanılarak bir ses işaretinin içerisindeki C/V/S konuşma içeren bölütlerin tespitini en iyi modelleyen parametre setinin belirlenmesi amaçlanmıştır. Yapılan uygulamalar sonucunda GRU modelinin, Kürtçe akustik işaretini karakterize etme başarımını arttırdığı gözlenmiştir. Ayrıca, günümüzde, Kürtçe alanında çok az sayıda akademik çalışma yapıldığından dolayı, bu çalışma bu alanda önemli bir katkı yapacaktır.

Özet (Çeviri)

Speech is a biometric sign containing a lot of personal information. It represents the most natural and efficient form of human communication. Along with the developing technology, a wide range of sound processing applications such as speech recognition, speaker recognition, speech synthesis, and speech coding and decoding have been developed using the data obtained from this speech signal. Nowadays, these applications play an active role, especially in personal processes that require security. Since the detection system of speech segments is usually used as a pre-treatment in the development of these applications, it is very important to determine speech segments accurately. The procedure of dividing a speech signal into smaller acoustic units is called speech segmentation. It is also possible to define speech signal segmentation as the procedure of finding boundaries between words, syllables, or phonemes. A phoneme based speech detection system that can predict (detect) Consonant, Vowel, and Silent (no speech) (C/V/S) regions in a continuous speech based on Gated Recurrent Unit (GRU) recurrent neural networks was developed in this thesis study. For this purpose, 4 different window lengths, 3 different windowing methods and 3 different hybrid feature extraction methods were tested together with 6 different classifier methods in order to define the boundaries of C/V/S speech segments. Thus, the effect of the use of various parameters with different hybrid feature extraction methods on the recognition system of C/V/S speech segments was examined. A hybrid feature extraction method based on Energy, Zero-Crossing Rate (ZCR), and Mel Frequency Cepstral Coefficient (MFCC) was used in this study. In this proposed method, it was aimed to determine the parameter set that best models the detection of segments containing C/V/S speech within a sound signal by using different hybrid feature extraction methods together with various parameters. As a result of the applications, it was observed that the GRU model increased the performance of characterizing the Kurdish acoustic signal. Furthermore, since there are very few academic studies in the field of Kurdish nowadays, this study will provide a significant contribution to this field.

Benzer Tezler

  1. Hatalı yerleştirilen araç sigortalarının şablon eşleştirme yöntemiyle tespiti

    Detection of misplaced vehicle fuses using template matching method

    MUSTAFA KARAKURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiSakarya Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET KÜÇÜKER

  2. 1H-MRSI of the deep gray matter structures in patients with amyotrophic lateral sclerosis

    Amyotrofik lateral skleroz hastalarında derin gri madde yapılarının multi voksel proton manyetik rezonans spektroskopisi

    MERYEM TORLAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Biyomühendislikİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. İSA YILDIRIM

    PROF. DR. ESİN ÖZTÜRK IŞIK

  3. A corpus analysis of economics textbooks

    Ekonomi ders kitaplarının corpus analizi

    JEROME CHARLES BUSH

    Doktora

    İngilizce

    İngilizce

    2020

    DilbilimYeditepe Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EVRİM EVEYİK AYDIN

  4. A new volterra neural network layer lıbrary usıng tensorflow

    Başlık çevirisi yok

    ZAKARIA FAYEZ ABD ALYAFAWI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Enformatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DEVRİM AKGÜN

  5. Derin öğrenme algoritmaları kullanarak bir konuşma tanıma uygulaması

    Speech recognition application using deep learning algorithms

    HARUN KUTUCU

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDULLAH FERİKOĞLU