Uzun kısa süreli bellek tipi derin sinir ağları ile konuşmacı tanıma

Speaker recognition with long short-term memory type deep neural networks

PDF İndir

Tez No: 791280
Yazar: ERKAN GÜNERHAN
Danışmanlar: PROF. DR. CEMAL KÖSE
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: Karadeniz Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 69

Özet

İnsan sesi; parmak izi, yüz şekli veya retina gibi kişiye özeldir ve biyometriktir. İnsan sesinde sabit rezonans noktaları bulunmaktadır. Bu sabit noktalar konuşurken ya da şarkı söylerken değişmez. Bu özelliği kullanarak birçok farklı konuşmacı içerisinden konuşmacının kimliğini tespit etmeyi amaçlanmaktadır. Analog ses örnekleme sayısına göre dijital forma dönüştürülür. Örnekleme sayısı 16 kHz seçildiğinde insan sesinin özelliklerini taşıması için yeterlidir. Bu çalışmada veri seti olarak VoxForge ve LibriSpeech veri setlerinden yararlanılmıştır. Konuşmacı tanıma için özellik çıkarım algoritmalarından yaygın olarak kullanılan Mel-Frekans Kepstral Katsayıları (Mel-Frequency Cepstral Coefficients-MFCC) tercih edilmiştir. Ardından sinir ağı eğitimi için makine öğrenmesi olan Yapay Sinir Ağları (Artificial Neural Network-ANN) ile derin öğrenme türü olan Konvolüsyonel Sinir Ağları (Convolutional Neural Network-CNN), ve Uzun Kısa Süreli Bellek (Long Short Term Memory-LSTM) ağları ile eğitilmiştir. Sonuçlar ayrı ayrı 20 konuşmacı ve 30 konuşmacı için karşılaştırılmıştır. Zaman serilerinde daha iyi sonuçlar veren LSTM ağının doğruluk yüzdesini artırmak için ilave hiper parametre eklenerek eğitilmiştir. Genel olarak LSTM ağının daha yüksek sonuçlar verdiği tespit edilmiştir. İlave hiper parametre eklenmesiyle birlikte 20 konuşmacı için doğruluk yüzdesi %95.2'den %99.5'e yükselmiştir.

Özet (Çeviri)

Human voice; It is personal and biometric, like a fingerprint, face shape or retina. There are fixed resonance points in the human voice. These fixed points do not change when talking or singing. Using this feature, it is aimed to determine the identity of the speaker from among many different speakers. Analogue sound is converted into digital form according to the number of samples. As a sampling rate, 16 kHz is sufficient to convey the characteristics of the human voice. VoxForge and LibriSpeech datasets were used as datasets in this study. Mel-Frequency Cepstral Coefficients (MFCC), which is widely used among feature extraction algorithms for speaker recognition, has been preferred. Then it was trained with Artificial Neural Network (ANN), which is machine learning for neural network training. It has also been trained with Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) networks, which are types of deep learning. Results were compared for 20 speakers and 30 speakers. It is trained by adding additional hyperparameters to increase the accuracy percentage for the LSTM network. Results were compared for 20 and 30 users separately. It is trained by adding additional hyper parameters to increase the accuracy percentage for the LSTM network, which gives better results in time series. In general, it has been determined that the LSTM network gives higher results. With the addition of additional hyperparameters, the percentage of accuracy for 20 speakers increased from 95.2% to 99.5%.

Benzer Tezler

Tez No
726734
Asenkron motor rulman hatalarının uzun-kısa süreli bellek tipi derin sinir ağları ile sınıflandırılması
Classification of induction motor bearing faults using long-short term memory deep neural networks
RUMEYSA HACER KILIÇ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bilecik Şeyh Edebali Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE DANDIL
Tez No
645058
Manyetik rezonans spektroskopi sinyalleri kullanılarak uzun kısa süreli bellek tipi derin sinir ağları ile sahte beyin tümörlerinin bilgisayar destekli tespiti
Computer-assisted detection of pseudo brain tumors using lstm deep neural networks on magnetic resonance spectroscopy signals
SEMİH KARACA
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bilecik Şeyh Edebali Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE DANDIL
Tez No
965861
Turbofan motorlarda faydalı ömür tahmini için yapay sinir ağlarına dayalı model geliştirilmesi
Development of a neural network-based model for remaining useful life prediction in turbofan engines
FURKAN İŞBİLEN
Doktora
Türkçe
2025
Havacılık ve Uzay Mühendisliği Erciyes Üniversitesi
Havacılık Elektrik ve Elektroniği Ana Bilim Dalı
DOÇ. DR. MEHMET KONAR
DOÇ. DR. OĞUZ BEKTAŞ
Tez No
684391
Derin öğrenme ile modülasyon sınıflandırması
Modulation classification with deep learning
SELÇUK BALSÜZEN
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MESUT KARTAL
Tez No
962778
Yeni nesil binalarda derin öğrenmeyle enerji analizi
Energy analysis with deep learning in next generation buildings
NEVZAT YAĞIZ TOMBAL
Doktora
Türkçe
2025
Elektrik ve Elektronik Mühendisliği İstanbul Üniversitesi-Cerrahpaşa
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TARIK VELİ MUMCU

Geri Dön