Geri Dön

Phoneme class based adaptation for mismatch acoustic modeling of distant noisy speech

Uzak gürültülü konuşmanın uyumsuz akustik modellenmesi için fonem sınıfı tabanlı uyarlama

  1. Tez No: 824421
  2. Yazar: SEÇKİN ULUSKAN
  3. Danışmanlar: PROF. DR. JOHN H. L. HANSEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: The University of Texas at Dallas
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 81

Özet

Distant speech capture in lecture halls and auditoriums offer unique challenges in algorithm development for automatic speech recognition. A new adaptation strategy for distant noisy speech is created by phoneme class based approaches for context-independent acoustic models. Unlike previous approaches such as maximum likelihood linear regression and maximum a posteriori (MLLR and MAP) adaptation which adapts the acoustic model to the features, the proposed phoneme-class based adaptation (PCBA) strategy adapts the distant data features to the present acoustic model which was previously trained on close microphone speech. The essence of PCBA is to create a transformation strategy which makes the distribution of phoneme-classes of distant noisy speech be similar to those of a close talk microphone acoustic model in a multidimensional mel-frequency cepstral coefficient (MFCC) space. PCBA creates a mean, orientation and variance adaptation scheme for each phoneme class to compensate for the overall mismatch of distance (talker to far-field microphone). New adapted features, and new and improved acoustic models produced by PCBA are shown to outperform those created by MLLR-MAP adaptation for automatic speech recognition (ASR) and keyword spotting (KWS). PCBA offers a new powerful understanding in acoustic-modeling of distant speech.

Özet (Çeviri)

Konferans salonlarında uzaktan konuşma yakalama, otomatik konuşma tanımaya yönelik algoritma geliştirmede belirli zorluklar sunar. Bağlamdan bağımsız akustik modeller için fonem sınıfına dayalı yaklaşımlarla uzak gürültülü konuşmaya yönelik yeni bir uyarlama stratejisi oluşturulmuştur. Akustik modeli özniteliklere uyarlayan Maksimum Olasılık Doğrusal Regresyon ve Maksimum Ardıl (MLLR ve MAP) uyarlama gibi önceki yaklaşımlardan farklı olarak, önerilen fonem sınıfı tabanlı uyarlama (PCBA) stratejisi, uzaktan kaydedilmiş verinin özniteliklerini, daha önce yakın mikrofon konuşması ile eğitilmiş mevcut akustik modele uyarlar. PCBA'nın temeli, uzak gürültülü konuşmaya ait fonem sınıflarının dağılımını, çok boyutlu bir mel-frekans cepstral katsayı (MFCC) uzayındaki yakın konuşma mikrofonu akustik modeline benzer hale getiren bir dönüşüm stratejisi yaratmaktır. PCBA, mesafe uyumsuzluğunu (konuşmacıdan uzak alan mikrofonuna) telafi etmek amacıyla her ses birimi sınıfı için bir ortalama, yönelim ve varyans uyarlama şeması oluşturur. PCBA tarafından üretilen yeni uyarlanmış öznitelikler ile yeni ve geliştirilmiş akustik modellerin, otomatik konuşma tanıma (ASR) ve anahtar kelime tespit etme (KWS) için MLLR-MAP uyarlaması tarafından oluşturulanlardan daha iyi performans gösterdiği gösterilmiştir. PCBA, uzaktan konuşmanın akustik modellenmesinde yeni ve güçlü bir anlayış sunmaktadır.

Benzer Tezler

  1. Variable sized input multi layer perceptrons for speech recognition

    Değişken boyutlu girdili çok katmanlı perceptronlar ile ses tanıma

    OLCAY KURŞUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2000

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ETHEM ALPAYDIN

  2. Ortak vektör yaklaşımı ile fonem tabanlı Türkçe yalıtık kelime tanıma

    Phoneme based Turkish isolated word recognition using common vector approach

    SERKAN KESER

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. RİFAT EDİZKAN

  3. Anadolu ağızlarında hâl kategorisi

    Case category in Anatolian dialects

    ALİ YUMURTACI

    Doktora

    Türkçe

    Türkçe

    2023

    Türk Dili ve EdebiyatıSakarya Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. ZİKRİ TURAN

  4. Sınıf içi ve sınıflar arası dağılımlardan elde edilen ölçütlerin birleştirilerek fonem tanımada kullanılması

    Combining criteria obtained from within and between class scatters for phoneme recognition

    MEHMET KOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. RİFAT EDİZKAN