Uzun kısa süreli bellek tipi derin sinir ağları ile konuşmacı tanıma
Speaker recognition with long short-term memory type deep neural networks
- Tez No: 791280
- Danışmanlar: PROF. DR. CEMAL KÖSE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Karadeniz Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 69
Özet
İnsan sesi; parmak izi, yüz şekli veya retina gibi kişiye özeldir ve biyometriktir. İnsan sesinde sabit rezonans noktaları bulunmaktadır. Bu sabit noktalar konuşurken ya da şarkı söylerken değişmez. Bu özelliği kullanarak birçok farklı konuşmacı içerisinden konuşmacının kimliğini tespit etmeyi amaçlanmaktadır. Analog ses örnekleme sayısına göre dijital forma dönüştürülür. Örnekleme sayısı 16 kHz seçildiğinde insan sesinin özelliklerini taşıması için yeterlidir. Bu çalışmada veri seti olarak VoxForge ve LibriSpeech veri setlerinden yararlanılmıştır. Konuşmacı tanıma için özellik çıkarım algoritmalarından yaygın olarak kullanılan Mel-Frekans Kepstral Katsayıları (Mel-Frequency Cepstral Coefficients-MFCC) tercih edilmiştir. Ardından sinir ağı eğitimi için makine öğrenmesi olan Yapay Sinir Ağları (Artificial Neural Network-ANN) ile derin öğrenme türü olan Konvolüsyonel Sinir Ağları (Convolutional Neural Network-CNN), ve Uzun Kısa Süreli Bellek (Long Short Term Memory-LSTM) ağları ile eğitilmiştir. Sonuçlar ayrı ayrı 20 konuşmacı ve 30 konuşmacı için karşılaştırılmıştır. Zaman serilerinde daha iyi sonuçlar veren LSTM ağının doğruluk yüzdesini artırmak için ilave hiper parametre eklenerek eğitilmiştir. Genel olarak LSTM ağının daha yüksek sonuçlar verdiği tespit edilmiştir. İlave hiper parametre eklenmesiyle birlikte 20 konuşmacı için doğruluk yüzdesi %95.2'den %99.5'e yükselmiştir.
Özet (Çeviri)
Human voice; It is personal and biometric, like a fingerprint, face shape or retina. There are fixed resonance points in the human voice. These fixed points do not change when talking or singing. Using this feature, it is aimed to determine the identity of the speaker from among many different speakers. Analogue sound is converted into digital form according to the number of samples. As a sampling rate, 16 kHz is sufficient to convey the characteristics of the human voice. VoxForge and LibriSpeech datasets were used as datasets in this study. Mel-Frequency Cepstral Coefficients (MFCC), which is widely used among feature extraction algorithms for speaker recognition, has been preferred. Then it was trained with Artificial Neural Network (ANN), which is machine learning for neural network training. It has also been trained with Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) networks, which are types of deep learning. Results were compared for 20 speakers and 30 speakers. It is trained by adding additional hyperparameters to increase the accuracy percentage for the LSTM network. Results were compared for 20 and 30 users separately. It is trained by adding additional hyper parameters to increase the accuracy percentage for the LSTM network, which gives better results in time series. In general, it has been determined that the LSTM network gives higher results. With the addition of additional hyperparameters, the percentage of accuracy for 20 speakers increased from 95.2% to 99.5%.
Benzer Tezler
- Asenkron motor rulman hatalarının uzun-kısa süreli bellek tipi derin sinir ağları ile sınıflandırılması
Classification of induction motor bearing faults using long-short term memory deep neural networks
RUMEYSA HACER KILIÇ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE DANDIL
- Manyetik rezonans spektroskopi sinyalleri kullanılarak uzun kısa süreli bellek tipi derin sinir ağları ile sahte beyin tümörlerinin bilgisayar destekli tespiti
Computer-assisted detection of pseudo brain tumors using lstm deep neural networks on magnetic resonance spectroscopy signals
SEMİH KARACA
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE DANDIL
- Turbofan motorlarda faydalı ömür tahmini için yapay sinir ağlarına dayalı model geliştirilmesi
Development of a neural network-based model for remaining useful life prediction in turbofan engines
FURKAN İŞBİLEN
Doktora
Türkçe
2025
Havacılık ve Uzay MühendisliğiErciyes ÜniversitesiHavacılık Elektrik ve Elektroniği Ana Bilim Dalı
DOÇ. DR. MEHMET KONAR
DOÇ. DR. OĞUZ BEKTAŞ
- Derin öğrenme ile modülasyon sınıflandırması
Modulation classification with deep learning
SELÇUK BALSÜZEN
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MESUT KARTAL
- Yeni nesil binalarda derin öğrenmeyle enerji analizi
Energy analysis with deep learning in next generation buildings
NEVZAT YAĞIZ TOMBAL
Doktora
Türkçe
2025
Elektrik ve Elektronik Mühendisliğiİstanbul Üniversitesi-CerrahpaşaElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TARIK VELİ MUMCU