Geri Dön

Telephone-based text-dependent speaker verification

Telefon üzerinden metne bağımlı konuşmacı onaylama

  1. Tez No: 297868
  2. Yazar: OSMAN BÜYÜK
  3. Danışmanlar: PROF. DR. LEVENT M. ARSLAN
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 134

Özet

Bu tezde telefon üzerinden metne bağımlı bir konuşmacı tanıma uygulamasında model seçimi ve kanal değişkenliği konuları incelenmektedir. Çalışma için uygun Türkçe bir veritabanının bulunmaması nedeniyle, metne bağımlı değişken metin (MBDM) ve metne bağımlı tek cümle (MBTC) isimlerinde çok kanallı iki veritabanı toplanmıştır. MBDM veritabanı sayı dizileri, kısa cümle ve kelimelerden oluşurken, MBTC veritabanı tek bir cümleden oluşmaktadır.MBDM veritabanında, Gauss karışım model (GKM) ve saklı Markov model (SMM) tabanlı iki metot farklı test cümleleri, eğitim senaryoları ve test-eğitim kanal durumları için karşılaştırılmıştır. Deneylerde sıralama tabanlı bir karar verme yöntemi kullanılmıştır. İkinci deney setinde, kanal uyumsuzluğu problemini gidermek için kepstral ortalama çıkarımı (CMS) ile birlikte, üç farklı yöntem denenmiştir: i) uzun dönemli ortalama spektrum (LTAS) filtrelemesi ii) maksimum olasılık doğrusal regresyon (MLLR) dönüşümü iii) kanal bağımlı sıralama tabanlı karar verme yöntemi (H-rank). Her üç yöntemde de, kullanılan kanal çeşidinin bilinmesi gerekmektedir. Kanal çeşidi her kanal için eğitilmiş kanal GKM'leri ile tanınmıştır. Deneylerde kanal tanıma hatalarının konuşmacı tanıma performansı üzerindeki etkisi de incelenmiştir.MBTC veritabanında, cümle SMM, fonetik SMM ve GKM yöntemleri tek cümle uygulaması için karşılaştırılmıştır. Kanal etkisini gidermek için test normalizasyonu (T-norm), sıfır normalizasyonu (Z-norm) ve kombinasyonları (ZT-norm ve TZ-norm) gibi farklı skor normalizasyon metotları denenmiştir. Bu metotlara ek olarak C-norm isimli bir kombinasyon önerilmiştir. Başarımı arttırmak için skor normalizasyonu sırasında kanal bilgisinden de faydalanılmıştır. Kohort tabanlı bir kanal tanıma yöntemi klasik GKM yöntemine ek olarak denenmiştir. Skor normalizasyonu bölümünden sonra, spektral ortalama bölümü (SMD) yöntemi sık kullanılan CMS'ye bir alternatif olarak önerilmiştir. Bu veritabanındaki son deneylerde, spektral özellikler ile enerji, tonlama ve süre özellikleri cümle SMM yapısı içerisinde birleştirilmiştir.

Özet (Çeviri)

In this thesis, we investigate model selection and channel variability issues on telephone-based text-dependent speaker verification applications. Due to the lack of an appropriate database for the task, we collected two multi-channel speaker recognition databases which are referred to as text-dependent variable text (TDVT-D) and text-dependent single utterance (TDSU-D). TDVT-D consists of digit strings and short utterances in Turkish and TDSU-D contains a single Turkish phrase.In the TVDT-D, Gaussian mixture model (GMM) and hidden Markov model (HMM) based methods are compared using several authentication utterances, enrollment scenarios and enrollment-authentication channel conditions. In the experiments, we employ a rank-based decision making procedure. In the second set of experiments, we investigate three channel compensation techniques together with cepstral mean subtraction (CMS): i) LTAS filtering ii) MLLR transformation iii) handset-dependent rank-based decision making (H-rank). In all three methods, a prior knowledge of the employed channel type is required. We recognize the channels with channel GMMs trained for each condition. In this section, we also analyze the influence of channel detection errors on the verification performance.In the TDSU-D, phonetic HMM, sentence HMM and GMM based methods are compared for the single utterance task. In order to compensate for channel mismatch conditions, we implement test normalization (T-norm), zero normalization (Z-norm) and combined (i.e., TZ-norm and ZT-norm) score normalization techniques. We also propose a novel combination procedure referred to as C-norm. Additionally, we benefit from the prior knowledge of handset-channel type in order to improve the verification performance. A cohort-based channel detection method is introduced in addition to the classical GMM-based method. After the score normalization section, feature domain spectral mean division (SMD) method is presented as an alternative to the well-known CMS. In the last set of experiments, prosodic (energy, pitch, duration) and spectral features are combined together in the sentence HMM framework.

Benzer Tezler

  1. MPEG hareketli görüntü sıkıştırma standardı

    Başlık çevirisi yok

    ERHAN TELLİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    DOÇ.DR. MELİH PAZARCI

  2. Genişbandlı şebekelerde hizmet adaptasyon protokolleri

    Başlık çevirisi yok

    RECEP EVREN PALANDUZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. GÜNSEL DURUSOY

  3. Dijital pazarlama reklamlarının dijital pazarlama araçlarının özelliklerine göre değerlendirilmesi: Kırgızistan'da bir araştırma

    Evaluation of digital marketing advertisements according to the characteristics of digital marketing tools: A research in Kyrgyzstan

    GULKAİYR HAKVERDİ

    Doktora

    Türkçe

    Türkçe

    2022

    İşletmeSüleyman Demirel Üniversitesi

    İşletme Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SONAY ZEKİ AYDIN

  4. Sosyal bilgiler öğretmen adaylarının tarihsel empati algısı ve tarihsel empatinin öğretimde kullanılmasına ilişkin görüş ve değerlendirmeleri

    Opinions and evaluations of social studies teacher candidates on perception of historical empathy and its use in teaching

    TUBA FİDAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimSivas Cumhuriyet Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    PROF. DR. KAYA YILMAZ