Phoneme class based adaptation for mismatch acoustic modeling of distant noisy speech
Uzak gürültülü konuşmanın uyumsuz akustik modellenmesi için fonem sınıfı tabanlı uyarlama
- Tez No: 824421
- Danışmanlar: PROF. DR. JOHN H. L. HANSEN
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2012
- Dil: İngilizce
- Üniversite: The University of Texas at Dallas
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
Distant speech capture in lecture halls and auditoriums offer unique challenges in algorithm development for automatic speech recognition. A new adaptation strategy for distant noisy speech is created by phoneme class based approaches for context-independent acoustic models. Unlike previous approaches such as maximum likelihood linear regression and maximum a posteriori (MLLR and MAP) adaptation which adapts the acoustic model to the features, the proposed phoneme-class based adaptation (PCBA) strategy adapts the distant data features to the present acoustic model which was previously trained on close microphone speech. The essence of PCBA is to create a transformation strategy which makes the distribution of phoneme-classes of distant noisy speech be similar to those of a close talk microphone acoustic model in a multidimensional mel-frequency cepstral coefficient (MFCC) space. PCBA creates a mean, orientation and variance adaptation scheme for each phoneme class to compensate for the overall mismatch of distance (talker to far-field microphone). New adapted features, and new and improved acoustic models produced by PCBA are shown to outperform those created by MLLR-MAP adaptation for automatic speech recognition (ASR) and keyword spotting (KWS). PCBA offers a new powerful understanding in acoustic-modeling of distant speech.
Özet (Çeviri)
Konferans salonlarında uzaktan konuşma yakalama, otomatik konuşma tanımaya yönelik algoritma geliştirmede belirli zorluklar sunar. Bağlamdan bağımsız akustik modeller için fonem sınıfına dayalı yaklaşımlarla uzak gürültülü konuşmaya yönelik yeni bir uyarlama stratejisi oluşturulmuştur. Akustik modeli özniteliklere uyarlayan Maksimum Olasılık Doğrusal Regresyon ve Maksimum Ardıl (MLLR ve MAP) uyarlama gibi önceki yaklaşımlardan farklı olarak, önerilen fonem sınıfı tabanlı uyarlama (PCBA) stratejisi, uzaktan kaydedilmiş verinin özniteliklerini, daha önce yakın mikrofon konuşması ile eğitilmiş mevcut akustik modele uyarlar. PCBA'nın temeli, uzak gürültülü konuşmaya ait fonem sınıflarının dağılımını, çok boyutlu bir mel-frekans cepstral katsayı (MFCC) uzayındaki yakın konuşma mikrofonu akustik modeline benzer hale getiren bir dönüşüm stratejisi yaratmaktır. PCBA, mesafe uyumsuzluğunu (konuşmacıdan uzak alan mikrofonuna) telafi etmek amacıyla her ses birimi sınıfı için bir ortalama, yönelim ve varyans uyarlama şeması oluşturur. PCBA tarafından üretilen yeni uyarlanmış öznitelikler ile yeni ve geliştirilmiş akustik modellerin, otomatik konuşma tanıma (ASR) ve anahtar kelime tespit etme (KWS) için MLLR-MAP uyarlaması tarafından oluşturulanlardan daha iyi performans gösterdiği gösterilmiştir. PCBA, uzaktan konuşmanın akustik modellenmesinde yeni ve güçlü bir anlayış sunmaktadır.
Benzer Tezler
- Variable sized input multi layer perceptrons for speech recognition
Değişken boyutlu girdili çok katmanlı perceptronlar ile ses tanıma
OLCAY KURŞUN
Yüksek Lisans
İngilizce
2000
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ETHEM ALPAYDIN
- Ortak vektör yaklaşımı ile fonem tabanlı Türkçe yalıtık kelime tanıma
Phoneme based Turkish isolated word recognition using common vector approach
SERKAN KESER
Yüksek Lisans
Türkçe
2008
Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. RİFAT EDİZKAN
- Anadolu ağızlarında hâl kategorisi
Case category in Anatolian dialects
ALİ YUMURTACI
Doktora
Türkçe
2023
Türk Dili ve EdebiyatıSakarya ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. ZİKRİ TURAN
- İmpulsif gürültünün incelenmesi ve V.32 modemin impulsif gürültülü ortamda hata başarımı
Başlık çevirisi yok
ERCAN BÜYÜKKARA
Yüksek Lisans
Türkçe
1996
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiDOÇ.DR. ÜMİT AYGÖLÜ
- Sınıf içi ve sınıflar arası dağılımlardan elde edilen ölçütlerin birleştirilerek fonem tanımada kullanılması
Combining criteria obtained from within and between class scatters for phoneme recognition
MEHMET KOÇ
Yüksek Lisans
Türkçe
2006
Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. RİFAT EDİZKAN