Türkçe sesler ile konuşmacı kimliğinin doğrulanması/belirlenmesi
Verification/identification of speaker identity with turkish voices
- Tez No: 539714
- Danışmanlar: DOÇ. DR. CEMAL HANİLÇİ
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Bursa Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
Konuşmacı tanıma sistemleri son yıllarda oldukça popüler hale gelen ancak üzerinde uzun süredir çalışılmasına rağmen hala istenilen performans başarısı elde edilmemiş bir örüntü tanıma problemidir. Konuşmacı tanıma sistemleri, sesli aramadan telefon bankacılığına, çağrı merkezlerinden adli uygulamalara kadar bir çok alanda aktif olarak kullanılmaktadır. Konuşmacı tanıma alanında yapılan çalışmalar, genellikle İngilizce sesler kullanılarak oluşturulan veritabanlarından elde edilen sonuçları göstermektedir. Türkçe sesler kullanılarak oluşturulan veritabanları ile yapılan çalışmalar az sayıda olduğundan dolayı literatürde bilinen ve uygulanan başarılı yöntemlerin Türkçe sesler üzerindeki performansları hala belirsizdir. Bu sebepten dolayı bu tezde konuşmacı tanıma uygulamalarında literatürde çok sık kullanılan sınıflandırma yöntemlerinden, Gauss Karışım Modeli - Genel Arkaplan Modeli (Gaussian Mixture Model - Universial Background Model), Gauss Karışım Modeli - Destek Vektör Makinaları (Gaussian Mixture Model - Support Vector Machine), Birleşik Etmen Analizi (Joint Factor Analysis - JFA), i-vektör yaklaşımı yöntemleri kullanılarak Türkçe metne bağlı konuşmacı doğrulama sistemi üzerindeki başarı performansları incelenmiştir. Kullanılan sınıflandırma yöntemlerinde Mel - Frekansı Kepstrum Katsayıları (Mel - Frequency Cepstral Coefficients) ve Değiştirilmiş Grup Gecikme Kepstrum Katsayıları (Modified Group Delay Cepstral Coefficients) kullanılarak iki farklı öznitelik yönteminin de konuşmacı tanıma sistemi üzerindeki performans etkisi karşılaştırmalı olarak incelenmiştir. GKM-GAM, GKM-DVM ve JFA sınıflandırıcıları ile yapılan deneysel çalışmalarda 46 konuşmacıdan oluşan Türkçe veritabanı kullanılırken i-vector yaklaşımı kullanılarak yapılan deneysel çalışmalarda ise 59 konuşmacıdan oluşan veritabanı kullanılmıştır. Ayrıca, GKM-GAM sınıflandırıcısıyla yapılan deneylerde, Türkçe sesler ve İngilizce sesler kullanılarak eğitilen arkaplan sesleriyle sistemin dil uyumu arasındaki bağlantının sistem üzerindeki etkisi incelenmiştir. GKM-GAM, GKM-DVM, JFA, i-vektör sınıflandırıcıları ile yapılan deneysel çalışmalarda MFKK ve DGKK olmak üzere, farklı boyutlardaki öznitelik sayılarının ve farklı sayıdaki gauss bileşenlerinin sistem üzerindeki etkisi de karşılaştırmalı olarak ele alınmıştır. Deneysel sonuçlara göre sınıflandırıcılar içerisinden en düşük sistem hatasına sahip olan en başarılı sınıflandırıcı % 4,62 EER değeriyle GKM-GAM sınıflandırıcısı olarak bulunmuştur. Aynı zamanda öznitelik yöntemlerinden MFKK özniteliklerinin DGKK özniteliklerine kıyasla sistem üzerinde daha başarılı sonuçlar verdiği gözlenmiştir.
Özet (Çeviri)
Speaker recognition is a pattern recognition problem which has become very popular in recent years but it does not achieve the desired performance although long work on it. Speaker recognition systems are actively used in many areas, from voice calls to telephone banking, from call centers to forensic applications. Studies in the field of speaker recognition generally report the results obtained from databases consisting of English recordings. Because of the less number of studies conducted with the databases created by using Turkish voices, the performances of the aplied and known successful methods on Turkish voices are still uncertain. For this reason, in this thesis, the performance on the Turkish text-based speaker verification system was investigated using Gaussian Mixture Model - Universal Background Model (GMM - UBM), Joint Factor Analysis (JFA) and i-vector approach which are well known methods in speaker recognition systems. In the used classification methods, Mel - Frequency Cepstrum Coefficients and Modified Group Delay Cepstral Coefficients were used as the features and the in performance on the speaker recognition system was analyzed comparatively. In the experimental studies conducted with GMM-UBM, GMM-SVM and JFA classifiers, the Turkish database consisting of 46 speakers was used, while in the experimental studies using the i-vector approach, the database consisting of 59 speakers was used. In addition, in the experiments conducted with the GMM-UBM classifier, the effects of connection between the background sounds trained by using Turkish and English recordings and system's language compatibility on the system were examined. In the experimental studies conducted with GMM-UBM, GMM-SVM, JFA, i-vector classifiers, the effect of different number of features and Gaussian components on the system has been discussed comparatively. According to the experimental results, the most successful classifier having the lowest system error among the classifiers was found as GMM-UBM classifier with the value of 4,62% EER. Besides, it was observed that the MFCC features of the yield better performance on the system than the MODGD features.
Benzer Tezler
- Yapay sinir ağları kullanılarak konuşmacı tanıma uygulaması
Speaker recognition application using artificial neural networks
TARIK ERDEM
Yüksek Lisans
Türkçe
2003
Elektrik ve Elektronik MühendisliğiNiğde ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SAMİ TEZEKİCİ
- Wavelet (dalgacık dönüşümü) ve yapay sinir ağı kullanarak ses sinyalinden konuşmacı tespiti
Speaker identification by means of wavelet and neural network aproach
MURAT İKİZ
Yüksek Lisans
Türkçe
2006
Elektrik ve Elektronik MühendisliğiDicle ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET AKIN
- Yapay sinir ağları ile kişilerin ses örneklerinden kimliklerinin tanınması
Recognizing speaker identification fron speech samples with artificial neural network
MURAT CANSIZ
Yüksek Lisans
Türkçe
1997
Elektrik ve Elektronik MühendisliğiAfyon Kocatepe ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ABDURRAHMAN KARAMANCIOĞLU
- Otantisite inşası çerçevesinde Türkiye'de bağlama icrasının değişim süreci: Gelenek, icat, ihtilaf, ihya
The change process of bağlama performance practice in the context of authenticity construction: Tradition, invention, conflict, revival
ERDEM ŞİMŞEK
Doktora
Türkçe
2022
Müzikİstanbul Teknik ÜniversitesiMüzikoloji ve Müzik Teorisi Ana Bilim Dalı
PROF. SONGÜL KARAHASANOĞLU
- Ses kayıtlarında manipülasyon varlığının tespit edilmesi
Detection of manipulation in recorded speech
SEMA ÇÖPOĞLU
Yüksek Lisans
Türkçe
2013
Elektrik ve Elektronik MühendisliğiUludağ ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. FİGEN ERTAŞ