Geri Dön

Konuşmacı tanıma yöntemlerinin karşılaştırmalı analizi

A comparative study of speaker recognition techniques

  1. Tez No: 202358
  2. Yazar: CEMAL HANİLÇİ
  3. Danışmanlar: YRD. DOÇ. DR. FİGEN ERTAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: metinden bağımsız konuşmacı tanıma, mel ölçekli kepstrum katsayıları, saklı Markov Modelleri, Vektör Nicemleme, text-independent speaker identification, mel frequency cepstrum coefficients, Hidden Markov Models, Vector Quantization
  7. Yıl: 2007
  8. Dil: Türkçe
  9. Üniversite: Uludağ Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Son yıllarda kişinin sesinden kim olduğunun belirlenebildiği uygulamalar yoğun ilgi odağı olmuştur. Kimlik belirleme ya da doğrulama, güvenlik ve erişim kontrolü gibi uygulamalarda en önemli işlevlerden biridir. Gizli kaynaklara (bilgi, bilgisayar, özel saha) kontrollü erişimi sağlamanın yöntemlerinden olan anahtar, şifre, kimlik kartı kolaylıkla kaybolabilir, çalınabilir veya taklit edilebilirken, başkalarınca taklit edilemeyen kişiye has eşsiz özellikler yani biyometriklerin kullanımı rağbet görmeye başlamıştır. Biyometrikler parmak izi, el geometrisi ve retina örüntüsü gibi fiziksel özellikleri ya da el yazısı ve sesizi (voiceprint) gibi kişisel özellikleri kullanır. Her ne kadar parmak izi ve retina örüntüsü kişinin kimliğini belirlemede daha güvenilir olsa da telefon hattı üzerinden bilgi toplama gibi pratik uygulanabilirliğinden dolayı ses örneğinden kişinin kimliğinin belirlendiği uygulamalar son yıllarda ön plana çıkmıştır. Bu tezde metinden bağımsız konuşmacı belirleme konusunda sıkça kullanılan yöntemlerden Saklı Markov Modelleri ve Vektör Nicemle algoritmaları incelenmiştir. Birinci bölümde, konuşmacı tanıma uygulamalarında bugüne kadar kullanılmış kişinin sesini temsil eden özellikler ve bu özelliklerin modellenmesinde kullanılan yöntemlerden bahsedilmektedir. İkinci bölümde bu tezde yapılan deneyler sırasında kişinin sesini temsil eden parametrelerden mel ölçekli kepstrum katsayıları (mfcc) ve bu katsayıların çıkarımı sırasında izlenen adımlar detaylı bir şekilde anlatılmaktadır. Konuşmacı tanıma sisteminde özellik çıkarımından sonraki adım olan modelleme tekniklerinden Saklı Markov Modelleri (SMM) ve Vektör Nicemleme (VN) algoritmaları da detaylı bir şekilde ikinci bölümde anlatılmaktadır. Son bölümde ise mfcc özellikleri ile SMM ve/veya VN kullanılarak elde edilen deneysel sonuçlar verilmektedir. Bu tezin iki temel amacı vardır. Bunlardan ilki, konuşmacı tanıma sistemlerinin yapı taşlarından olan özellik vektörleri boyutunun optimum değerinin belirlenmesidir. İkincisi ise konuşmacı tanıma uygulamalarında en çok kullanılan iki yöntem olan SMM ve VN algoritmalarının karşılaştırmalı analizlerinin yapılmasıdır. Ayrıca SMM yöntemi ile en fazla konuşmacı sayısının kullanıldığı metinden bağımsız konuşmacı tanıma uygulaması olması nedeniyle de bu tez ayrı bir önem taşımaktadır. Deneyler sırasında 630 kişilik TIMIT veritabanı kullanılmıştır. VN ile yapılan deneylerde 21 sn eğitim (7 cümle) ve 9 sn test verisi (3 cümle) için 32 kod kitabı ile 630 kişi için %100 tanıma oranı elde edilmiştir. Yine aynı şartlarda 32 karışım ve 1 durumlu SMM kullanılarak 630 kişi için %100 tanıma oranı elde edilmiştir. Her iki test sonucu da deneysel sonuçlar ve tartışma bölümünde de belirtileceği gibi literatürde yapılan çalışmalardan yüksektir.

Özet (Çeviri)

Nowadays identifying people from their voices has become one of the most popular applications. Personal identification is an essential requirement for controlling access to protected resources. Personal identity can be claimed by a key, a password or a badge, all of which can be easily stolen, lost or faked. However, there are some unique (biometrics) features of individuals which cannot be imitated by someone else. Biometrics uses physical characteristics such as fingerprints, hand geometry and retinal patterns, and personal traits such as handwriting and voiceprint. Although fingerprints or retinal pattern are usually more reliable ways of verifying that a person is who he claims to be, identity verification based on person?s voice has special advantages for practical deployment such as the convenience of easy data collection over the telephone. In this thesis, two most common techniques, Hidden Markov Models (HMM) and Vector quantization (VQ), which are used in text-independent speaker identification, are analyzed from the view point of performance analysis. First chapter of this thesis describes the parameters which represent speakers? and the modeling techniques that are used for modeling of these parameters. In the second chapter we describe the Mel Frequency Cepstral Coefficients (mfcc), that is used during experiments as the parameters that represent speaker, and the steps of extraction these features from a given voice sample. It is also described in the second chapter, modeling of these features, HMM and VQ, which is the second step of a speaker identification system. Finally it is given that the text-independent speaker identification results using both HMM and VQ in the last chapter of this thesis. This thesis has two main purposes. First, making a decision about the optimum number of mfcc which is going to be used in the system and the second is, comparing two popular approaches to perform speaker identification, HMM and VQ, according to identification rates. The other importance of this thesis is, it is the largest population text-independent speaker identification study using HMM. The TIMIT database which contains 630 speakers was used during experiments. 100% speaker identification rate was achieved with the speaker identification system that uses VQ with 32 codebooks for 630 speakers when the 7 sentences (approximately 21 seconds) of each speaker were used to create codebook and the remaining 3 sentences (approximately 9 seconds) for testing. Under the same conditions but using a 1 state HMM with 32 mixtures for modeling the speakers instead of VQ, % 100 speaker identification rate was achieved. It will be shown that these are the highest identification rates of the earlier studies in the last chapter.

Benzer Tezler

  1. Speaker verification for microphone suitable data and audio diarization for Turkish broadcast news

    Mikrofon verisine uygun konuşmacı doğrulama ve Türkçe haber programları için işitsel bölütleme

    OĞUZ YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

  2. Blind audio source separation using independent component analysis and independent vector analysis methods

    Bağımsız bileşen analizi ve bağımsız vektör analizi kullarak ses sinyallerinde kör kaynak ayrıştırımı

    ALYAA ABDULHUSSEIN MAHDI ALRWSTIM

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Ana Bilim Dalı

    Prof. Dr. NİZAMETTİN AYDIN

  3. Türkçe sesler ile konuşmacı kimliğinin doğrulanması/belirlenmesi

    Verification/identification of speaker identity with turkish voices

    HAVVA ÇELİKTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik MühendisliğiBursa Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CEMAL HANİLÇİ

  4. Content-based lecture video retrieval

    İçerik tabanlı ders video erişimi

    YİĞİT ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Eğitim ve ÖğretimÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HASAN OĞUL

  5. Comparison of single channel blind dereverberation methods for speech signals

    Tek kanallı ses sinyallerinin ekodan arındırma yöntemlerinin karşılaştırması

    DEHA DENİZ TÜRKÖZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAKAN ERDOĞAN