Geri Dön

Uzun kısa süreli bellek tipi derin sinir ağları ile konuşmacı tanıma

Speaker recognition with long short-term memory type deep neural networks

  1. Tez No: 791280
  2. Yazar: ERKAN GÜNERHAN
  3. Danışmanlar: PROF. DR. CEMAL KÖSE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Karadeniz Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 69

Özet

İnsan sesi; parmak izi, yüz şekli veya retina gibi kişiye özeldir ve biyometriktir. İnsan sesinde sabit rezonans noktaları bulunmaktadır. Bu sabit noktalar konuşurken ya da şarkı söylerken değişmez. Bu özelliği kullanarak birçok farklı konuşmacı içerisinden konuşmacının kimliğini tespit etmeyi amaçlanmaktadır. Analog ses örnekleme sayısına göre dijital forma dönüştürülür. Örnekleme sayısı 16 kHz seçildiğinde insan sesinin özelliklerini taşıması için yeterlidir. Bu çalışmada veri seti olarak VoxForge ve LibriSpeech veri setlerinden yararlanılmıştır. Konuşmacı tanıma için özellik çıkarım algoritmalarından yaygın olarak kullanılan Mel-Frekans Kepstral Katsayıları (Mel-Frequency Cepstral Coefficients-MFCC) tercih edilmiştir. Ardından sinir ağı eğitimi için makine öğrenmesi olan Yapay Sinir Ağları (Artificial Neural Network-ANN) ile derin öğrenme türü olan Konvolüsyonel Sinir Ağları (Convolutional Neural Network-CNN), ve Uzun Kısa Süreli Bellek (Long Short Term Memory-LSTM) ağları ile eğitilmiştir. Sonuçlar ayrı ayrı 20 konuşmacı ve 30 konuşmacı için karşılaştırılmıştır. Zaman serilerinde daha iyi sonuçlar veren LSTM ağının doğruluk yüzdesini artırmak için ilave hiper parametre eklenerek eğitilmiştir. Genel olarak LSTM ağının daha yüksek sonuçlar verdiği tespit edilmiştir. İlave hiper parametre eklenmesiyle birlikte 20 konuşmacı için doğruluk yüzdesi %95.2'den %99.5'e yükselmiştir.

Özet (Çeviri)

Human voice; It is personal and biometric, like a fingerprint, face shape or retina. There are fixed resonance points in the human voice. These fixed points do not change when talking or singing. Using this feature, it is aimed to determine the identity of the speaker from among many different speakers. Analogue sound is converted into digital form according to the number of samples. As a sampling rate, 16 kHz is sufficient to convey the characteristics of the human voice. VoxForge and LibriSpeech datasets were used as datasets in this study. Mel-Frequency Cepstral Coefficients (MFCC), which is widely used among feature extraction algorithms for speaker recognition, has been preferred. Then it was trained with Artificial Neural Network (ANN), which is machine learning for neural network training. It has also been trained with Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) networks, which are types of deep learning. Results were compared for 20 speakers and 30 speakers. It is trained by adding additional hyperparameters to increase the accuracy percentage for the LSTM network. Results were compared for 20 and 30 users separately. It is trained by adding additional hyper parameters to increase the accuracy percentage for the LSTM network, which gives better results in time series. In general, it has been determined that the LSTM network gives higher results. With the addition of additional hyperparameters, the percentage of accuracy for 20 speakers increased from 95.2% to 99.5%.

Benzer Tezler

  1. Asenkron motor rulman hatalarının uzun-kısa süreli bellek tipi derin sinir ağları ile sınıflandırılması

    Classification of induction motor bearing faults using long-short term memory deep neural networks

    RUMEYSA HACER KILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EMRE DANDIL

  2. Manyetik rezonans spektroskopi sinyalleri kullanılarak uzun kısa süreli bellek tipi derin sinir ağları ile sahte beyin tümörlerinin bilgisayar destekli tespiti

    Computer-assisted detection of pseudo brain tumors using lstm deep neural networks on magnetic resonance spectroscopy signals

    SEMİH KARACA

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE DANDIL

  3. Derin öğrenme ile modülasyon sınıflandırması

    Modulation classification with deep learning

    SELÇUK BALSÜZEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. MESUT KARTAL

  4. Conventional and future prediction methods for turbine design parameters in drinking water and irrigation pipelines

    İçme suyu ve sulama borularındaki türbin tasarım parametreleri için geleneksel ve geleceğe yönelik tahmin yöntemleri

    ASLI BERİL EJDER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Makine MühendisliğiTED Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. SELİN ARADAĞ ÇELEBİOĞLU

    DOÇ. DR. TEVFİK KUTAY ÇELEBİOĞLU

  5. Elektrikli ev cihazlarının zaman serisi özelliklerine göre belirlenmesi

    Determination of household electric appliances according to the time series features

    EBRA NUR ZUREL

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik MühendisliğiBingöl Üniversitesi

    Yenilenebilir Enerji Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUZAFFER ASLAN