Bimodal automatic speech segmentation and boundary refinement techniques
Çift durumlu otomatik konuşma bölütleme ve sınır iyileştirme teknikleri
- Tez No: 268437
- Danışmanlar: DOÇ. DR. TOLGA ÇİLOĞLU
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 151
Özet
Otomatik konuşma bölütleme, konuşma işleme uygulamalarında kullanılanacak geniş konuşma veritabanlarının hazırlanması için gereklidir. Bu çalışmada artikülatörlerin konum bilgileri ya da kamera kayıtlarından elde edilen görsel verileri, işitsel verilerle birlikte kullanan çift durumlu otomatik konuşma bölütleme sistemi önerilmiştir. Görsel verilerden, birçok konuşma tanıma uygulamasında faydalanılmıştır. Görsel bilgilerin varlığı bu sistemlerin performansını ve gürbüzlüklerini arttırmıştır. Bu çalışmada çift durumlu otomatik konuşma bölütleme sistemi kullanılarak, bölütleme başarımında kayda değer bir artış sağlanmıştır.Otomatik konuşma bölütleme sistemlerinin çözünürlüğü arttırıldığında sistemin yaptığı büyük hatalar da artmaktadır. Bu durumun üstesinden gelebilmek için sınır iyileştirme teknikleri kullanılmaktadır. Bu çalışmada iki ayrı sınır iyileştirme yöntemi önerilmiştir; Saklı Markov Modeli (SMM) tabanlı ve ters süzgeçleme tabanlı sınır iyileştirme sistemleri. Çift durumlu otomatik konuşma bölütleme sistemiyle elde edilen ses sınırları önerilen iki yeni sınır iyileştirme sistemi kullanılarak elle işaretlenmiş sınırlarla aralarindaki ortalama mutlak fark daha da azaltılmıştır.Sonuç olarak iki basamaklı bir otomatik konuşma bölütleme sistemi oluşturulmuş ve bu sistemin başarımı iki ayrı veritabanı kullanılarak sınanmıştır. Ayrıca bu çalışmada kullanılmak üzere bir Türkçe görsel-işitsel konuşma veritabanı oluşturulmuştur.
Özet (Çeviri)
Automatic segmentation of speech is compulsory for building large speech databases to be used in speech processing applications. This study proposes a bimodal automatic speech segmentation system that uses either articulatory motion information (AMI) or visual information obtained by a camera in collaboration with auditory information. The presence of visual modality is shown to be very beneficial in speech recognition applications, improving the performance and noise robustness of those systems. In this dissertation a significant increase in the performance of the automatic speech segmentation system is achieved by using a bimodal approach.Automatic speech segmentation systems have a trade off between precision and resulting number of gross errors. Boundary refinement techniques are used in order to increase precision of these systems without decreasing the system performance. Two boundary refinement techniques are proposed in this thesis; a hidden Markov model (HMM) based fine tuning system and an inverse filtering based fine tuning system. The segment boundaries obtained by the bimodal speech segmentation system are improved further by using these techniques.To fulfill these goals, a complete two-stage automatic speech segmentation system is produced and tested in two different databases. A phonetically rich Turkish audiovisual speech database is build from scratch in order to be used in the experiments.
Benzer Tezler
- Azot içeren heterohalkalı gruplar ile sübstitüe ftalosiyaninlerin sentezi ve özelliklerinin incelenmesi
The synthesis and investigation of the properties of the phthalocyanines bearing nitrogen containing heterocyclic groups
HALİT KOÇAN
- Forward problem solution of EMSI of the human brain using a new FEM formulation with realistic head model
İnsan beyninin elektro-manyetik kaynak görüntülemesi için ileri problem çözümünün yeni bir sonlu elemanlar yöntemi ve gerçekçi kafa modeli ile çözülmesi
MEHMET KEMAL ÖZDEMİR
Yüksek Lisans
İngilizce
1998
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. NEVZAT GÜNERİ GENÇER
- VC ve Si3N4 katkılı Ti6Al4V alaşımının spark plazma sinterleme yöntemi ile üretimi ve karakterizasyonu
Production and characterization of VC and Si3N4 added Ti6Al4V alloy via spark plasma sintering method
BÜŞRA GÜNEY
Yüksek Lisans
Türkçe
2019
Metalurji Mühendisliğiİstanbul Teknik ÜniversitesiMetalurji ve Malzeme Mühendisliği Ana Bilim Dalı
PROF. DR. FİLİZ ŞAHİN
- Astımlı çocuklarda CD14 C159T polimorfizminin in vitro IgE sentezi üzerine etkileri
The in vitro effects of CD14 C159T polymorphism on IgE synthesis in children with asthma
OZGE UYSAL SOYER
Tıpta Uzmanlık
Türkçe
2009
Allerji ve İmmünolojiHacettepe ÜniversitesiÇocuk Sağlığı ve Hastalıkları Ana Bilim Dalı
DOÇ. DR. CANSIN SAÇKESEN
- Realistic microwave breast models through T1-weighted 3-D MRI data
T1-ağırlıklı 3-boyutlu MRI datası kullanılarak gerçekçi mikrodalga meme modelleri geliştirilmesi
AHMET HAKAN TUNÇAY
Yüksek Lisans
İngilizce
2013
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM AKDUMAN