Geri Dön

Uzun kısa süreli bellek tipi derin sinir ağları ile konuşmacı tanıma

Speaker recognition with long short-term memory type deep neural networks

  1. Tez No: 791280
  2. Yazar: ERKAN GÜNERHAN
  3. Danışmanlar: PROF. DR. CEMAL KÖSE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Karadeniz Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 69

Özet

İnsan sesi; parmak izi, yüz şekli veya retina gibi kişiye özeldir ve biyometriktir. İnsan sesinde sabit rezonans noktaları bulunmaktadır. Bu sabit noktalar konuşurken ya da şarkı söylerken değişmez. Bu özelliği kullanarak birçok farklı konuşmacı içerisinden konuşmacının kimliğini tespit etmeyi amaçlanmaktadır. Analog ses örnekleme sayısına göre dijital forma dönüştürülür. Örnekleme sayısı 16 kHz seçildiğinde insan sesinin özelliklerini taşıması için yeterlidir. Bu çalışmada veri seti olarak VoxForge ve LibriSpeech veri setlerinden yararlanılmıştır. Konuşmacı tanıma için özellik çıkarım algoritmalarından yaygın olarak kullanılan Mel-Frekans Kepstral Katsayıları (Mel-Frequency Cepstral Coefficients-MFCC) tercih edilmiştir. Ardından sinir ağı eğitimi için makine öğrenmesi olan Yapay Sinir Ağları (Artificial Neural Network-ANN) ile derin öğrenme türü olan Konvolüsyonel Sinir Ağları (Convolutional Neural Network-CNN), ve Uzun Kısa Süreli Bellek (Long Short Term Memory-LSTM) ağları ile eğitilmiştir. Sonuçlar ayrı ayrı 20 konuşmacı ve 30 konuşmacı için karşılaştırılmıştır. Zaman serilerinde daha iyi sonuçlar veren LSTM ağının doğruluk yüzdesini artırmak için ilave hiper parametre eklenerek eğitilmiştir. Genel olarak LSTM ağının daha yüksek sonuçlar verdiği tespit edilmiştir. İlave hiper parametre eklenmesiyle birlikte 20 konuşmacı için doğruluk yüzdesi %95.2'den %99.5'e yükselmiştir.

Özet (Çeviri)

Human voice; It is personal and biometric, like a fingerprint, face shape or retina. There are fixed resonance points in the human voice. These fixed points do not change when talking or singing. Using this feature, it is aimed to determine the identity of the speaker from among many different speakers. Analogue sound is converted into digital form according to the number of samples. As a sampling rate, 16 kHz is sufficient to convey the characteristics of the human voice. VoxForge and LibriSpeech datasets were used as datasets in this study. Mel-Frequency Cepstral Coefficients (MFCC), which is widely used among feature extraction algorithms for speaker recognition, has been preferred. Then it was trained with Artificial Neural Network (ANN), which is machine learning for neural network training. It has also been trained with Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) networks, which are types of deep learning. Results were compared for 20 speakers and 30 speakers. It is trained by adding additional hyperparameters to increase the accuracy percentage for the LSTM network. Results were compared for 20 and 30 users separately. It is trained by adding additional hyper parameters to increase the accuracy percentage for the LSTM network, which gives better results in time series. In general, it has been determined that the LSTM network gives higher results. With the addition of additional hyperparameters, the percentage of accuracy for 20 speakers increased from 95.2% to 99.5%.

Benzer Tezler

  1. Asenkron motor rulman hatalarının uzun-kısa süreli bellek tipi derin sinir ağları ile sınıflandırılması

    Classification of induction motor bearing faults using long-short term memory deep neural networks

    RUMEYSA HACER KILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EMRE DANDIL

  2. Manyetik rezonans spektroskopi sinyalleri kullanılarak uzun kısa süreli bellek tipi derin sinir ağları ile sahte beyin tümörlerinin bilgisayar destekli tespiti

    Computer-assisted detection of pseudo brain tumors using lstm deep neural networks on magnetic resonance spectroscopy signals

    SEMİH KARACA

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE DANDIL

  3. Turbofan motorlarda faydalı ömür tahmini için yapay sinir ağlarına dayalı model geliştirilmesi

    Development of a neural network-based model for remaining useful life prediction in turbofan engines

    FURKAN İŞBİLEN

    Doktora

    Türkçe

    Türkçe

    2025

    Havacılık ve Uzay MühendisliğiErciyes Üniversitesi

    Havacılık Elektrik ve Elektroniği Ana Bilim Dalı

    DOÇ. DR. MEHMET KONAR

    DOÇ. DR. OĞUZ BEKTAŞ

  4. Derin öğrenme ile modülasyon sınıflandırması

    Modulation classification with deep learning

    SELÇUK BALSÜZEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. MESUT KARTAL

  5. Yeni nesil binalarda derin öğrenmeyle enerji analizi

    Energy analysis with deep learning in next generation buildings

    NEVZAT YAĞIZ TOMBAL

    Doktora

    Türkçe

    Türkçe

    2025

    Elektrik ve Elektronik Mühendisliğiİstanbul Üniversitesi-Cerrahpaşa

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TARIK VELİ MUMCU