Uzun kısa süreli bellek tipi derin sinir ağları ile konuşmacı tanıma
Speaker recognition with long short-term memory type deep neural networks
- Tez No: 791280
- Danışmanlar: PROF. DR. CEMAL KÖSE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Karadeniz Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 69
Özet
İnsan sesi; parmak izi, yüz şekli veya retina gibi kişiye özeldir ve biyometriktir. İnsan sesinde sabit rezonans noktaları bulunmaktadır. Bu sabit noktalar konuşurken ya da şarkı söylerken değişmez. Bu özelliği kullanarak birçok farklı konuşmacı içerisinden konuşmacının kimliğini tespit etmeyi amaçlanmaktadır. Analog ses örnekleme sayısına göre dijital forma dönüştürülür. Örnekleme sayısı 16 kHz seçildiğinde insan sesinin özelliklerini taşıması için yeterlidir. Bu çalışmada veri seti olarak VoxForge ve LibriSpeech veri setlerinden yararlanılmıştır. Konuşmacı tanıma için özellik çıkarım algoritmalarından yaygın olarak kullanılan Mel-Frekans Kepstral Katsayıları (Mel-Frequency Cepstral Coefficients-MFCC) tercih edilmiştir. Ardından sinir ağı eğitimi için makine öğrenmesi olan Yapay Sinir Ağları (Artificial Neural Network-ANN) ile derin öğrenme türü olan Konvolüsyonel Sinir Ağları (Convolutional Neural Network-CNN), ve Uzun Kısa Süreli Bellek (Long Short Term Memory-LSTM) ağları ile eğitilmiştir. Sonuçlar ayrı ayrı 20 konuşmacı ve 30 konuşmacı için karşılaştırılmıştır. Zaman serilerinde daha iyi sonuçlar veren LSTM ağının doğruluk yüzdesini artırmak için ilave hiper parametre eklenerek eğitilmiştir. Genel olarak LSTM ağının daha yüksek sonuçlar verdiği tespit edilmiştir. İlave hiper parametre eklenmesiyle birlikte 20 konuşmacı için doğruluk yüzdesi %95.2'den %99.5'e yükselmiştir.
Özet (Çeviri)
Human voice; It is personal and biometric, like a fingerprint, face shape or retina. There are fixed resonance points in the human voice. These fixed points do not change when talking or singing. Using this feature, it is aimed to determine the identity of the speaker from among many different speakers. Analogue sound is converted into digital form according to the number of samples. As a sampling rate, 16 kHz is sufficient to convey the characteristics of the human voice. VoxForge and LibriSpeech datasets were used as datasets in this study. Mel-Frequency Cepstral Coefficients (MFCC), which is widely used among feature extraction algorithms for speaker recognition, has been preferred. Then it was trained with Artificial Neural Network (ANN), which is machine learning for neural network training. It has also been trained with Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) networks, which are types of deep learning. Results were compared for 20 speakers and 30 speakers. It is trained by adding additional hyperparameters to increase the accuracy percentage for the LSTM network. Results were compared for 20 and 30 users separately. It is trained by adding additional hyper parameters to increase the accuracy percentage for the LSTM network, which gives better results in time series. In general, it has been determined that the LSTM network gives higher results. With the addition of additional hyperparameters, the percentage of accuracy for 20 speakers increased from 95.2% to 99.5%.
Benzer Tezler
- Asenkron motor rulman hatalarının uzun-kısa süreli bellek tipi derin sinir ağları ile sınıflandırılması
Classification of induction motor bearing faults using long-short term memory deep neural networks
RUMEYSA HACER KILIÇ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE DANDIL
- Manyetik rezonans spektroskopi sinyalleri kullanılarak uzun kısa süreli bellek tipi derin sinir ağları ile sahte beyin tümörlerinin bilgisayar destekli tespiti
Computer-assisted detection of pseudo brain tumors using lstm deep neural networks on magnetic resonance spectroscopy signals
SEMİH KARACA
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE DANDIL
- Derin öğrenme ile modülasyon sınıflandırması
Modulation classification with deep learning
SELÇUK BALSÜZEN
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MESUT KARTAL
- Conventional and future prediction methods for turbine design parameters in drinking water and irrigation pipelines
İçme suyu ve sulama borularındaki türbin tasarım parametreleri için geleneksel ve geleceğe yönelik tahmin yöntemleri
ASLI BERİL EJDER
Yüksek Lisans
İngilizce
2023
Makine MühendisliğiTED ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. SELİN ARADAĞ ÇELEBİOĞLU
DOÇ. DR. TEVFİK KUTAY ÇELEBİOĞLU
- Elektrikli ev cihazlarının zaman serisi özelliklerine göre belirlenmesi
Determination of household electric appliances according to the time series features
EBRA NUR ZUREL
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik MühendisliğiBingöl ÜniversitesiYenilenebilir Enerji Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUZAFFER ASLAN