Indexation, retrieval and decision techniques for spoken term detection

Konuşulan terimlerin saptanmak için dizinleme, geri getirim ve karar teknikleri

PDF İndir

Tez No: 255884
Yazar: DOĞAN CAN
Danışmanlar: YRD. DOÇ. DR. MURAT SARAÇLAR
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2010
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 106

Özet

Konuşma geri getirim sistemleri, otomatik konuşma tanıma ve bilgi geri getirim teknolojilerini bir araya getirerek konuşma içeriği zengin çokluortam (ders videoları, haber klipleri, sesli kitaplar, vb.) arşivlerine erişim sağlamayı hedefler. Otomatik konuşma tanıma vasıtasıyla elde edilen metinler aslına sadık olduğunda, konuşma geri getirimi bu metinler üzerinde klasik geri getirim tekniklerinin uygulanmasından ibarettir. Ancak günümüzün otomatik konuşma tanıma teknolojisi iş dağarcık sınırı olmayan, düzensiz, karma ses kayıtlarını yazılandırmaya geldiğinde yüksek kalitede çıktı üretmekten oldukça uzaktır. Son kullanıcının ilgi alanları göz önüne alındığında -- örneğin ``YouTube'' arşivi -- sadece otomatik metinleri kullanarak makul düzeyde konuşma geri getirimi sağlamak pek de mümkün görünmemektedir.Pek cok konuşma geri getirim sistemi, konuşma tanıma hatalarının etkisini azaltmak amacıyla tanıma örülerinden faydalanır. Dizinleme esnasında veritabanındaki her sözce için pek çok alternatif söz dizisi dikkate alınır. Bu sayede, en iyi hipotezlerin dışarıda bıraktığı kimi söz dizilerini geri getirmek mümkün olmaktadır. Ancak, tanıma örüleri de sistem dağarcığı ile sınırlı olduğundan, bu yöntem sisteme açık dağarcıklı sorgulama yapabilme özelliğini kazandırmaz. Ses, hece, morfem gibi kelime altı birimlerden oluşan tanıma örülerinin kullanımı, dizinleme, arama ve karar problemlerinin daha yüksek çözünürlükteki bir düzleme taşınmasını sağlar. Bu düzlemde, dizinleme ve sorgulama işlemleri kelime altı söz dizileri vasıtasıyla yapılır. Bu sayede, geri getirim kısmen de olsa sistem dağarcığının kısıtlarından kurtulur ve dağarcık dışı kelimeleri arayabilmenin yolu açılmış olur.Örü dizinleme ve kelime altı yöntemler geri getirilen sonuç miktarını ciddi oranda arttırırken, sezim sürecini önemli ölçüde zorlaştırmaktadır. Kabul eşiği daha fazla sonuç elde etmek adına düşürüldükçe, örülerin ve kelime altı birimlerin ortaklaşa sonucu olan büyük miktardaki hatalı sonuç eşiği geçerek son kullanıcıya ulaşır. Bu nedenle, örülerin ve kelime altı birimlerin kullanıldığı sistemlerde, doğru ve hatalı sonuçlar arasında iyi ayrım yapabilen yöntemler çok daha önemli hale gelir.Konuşulan terimlerin saptanması büyük bir veritabanı içerisinde sorgu terimiyle birebir örtüşen kısımları bulmayı hedefler. Sorgu terimi, tıpkı arama motorlarında olduğu gibi metin formundaki bir sözcük dizisidir. Bu çalışmada, konuşulan terimlerin saptanması dahilinde karşımıza çıkan problemlere yüksek performanslı, düşük maliyetli ve güvenilir çözümler getirmeyi amaçlıyoruz. Geliştirdiğimiz yöntemler genel, verimli ve matematiksel açıdan ayakları yere basan bir geri getirim platformu dahilinde otomatik konuşma tanıma örülerinin dizinlenmesi, dağarcık dışı kelimelerin geri getirimi ve aday sonuçların eşiklenmesi için çözümler sunmaktadır.

Özet (Çeviri)

Speech Retrieval (SR) systems aim to provide access to large multimedia archives that include a vast amount of spoken media like lecture videos, podcasts, news clips and audio books. To that end, SR integrates two well studied fields: Automatic Speech Recognition (ASR) and Information Retrieval (IR). In an ideal setup where ASR transcripts are on a par with manual transcripts, SR is nothing more than classical text retrieval applied on ASR output. However, ASR technology is far from that point when it comes to heterogeneous stacks of unconstrained, unorganized audio recorded in uncontrolled environments. Considering the domain of interest to the end-user -- think of databases like ``YouTube'' --, it becomes immediately obvious that relying entirely on ASR transcripts is a not an option for SR.To minimize the effect of recognition errors, most SR systems are built upon ASR lattices where the oracle word error rates are much lower. In these systems, it is possible to retrieve overlapping hits for different queries since the index takes many alternative transcriptions into consideration for each spoken segment in the database. As a result, it becomes possible to retrieve matches that are omitted in the best hypotheses. However, this approach alone does not meet the open-vocabulary search objective held by most SR systems since after all we are limited to ASR vocabulary during retrieval. Utilizing sub-word (phone, graphone, morpheme) transcripts, or sub-word lattices for that matter, projects the word-level index/search/decide problem to a finer grained space where sub-word strings are now the object of search. In this sub-word universe, retrieval is partly freed from the chains of system vocabulary and we can retrieve out-of-vocabulary (OOV) query terms simply by searching the sub-word level ASR outputs.Lattice indexing and sub-word methods improve recall but they also stress the ranking/decision process by matching segments irrelevant to the query. As the decision threshold is lowered to retrieve more, a large number of false alarms come into play as a combined effect of lattices and sub-words. For that matter, it is increasingly important to develop effective decision strategies which provide better discrimination between actual hits and false alarms.Spoken Term Detection (STD) is a relatively new SR task which aims to locate exact matches to a given query term -- a sequence of words in text form -- in a large spoken database. In this thesis, we look for high-performing, low cost, efficient and reliable solutions to the various challenges of the STD task. Our methods include novel techniques for indexing ASR lattices, retrieving OOV words and ranking/thresholding candidate results in a general, efficient and mathematically sound retrieval framework.

Benzer Tezler

Tez No
722677
Teachers' and students'perceptions of multiple-choiceand open-ended questions,along with the gcse system
Başlık çevirisi yok
MUSTAFA SARIAY
Yüksek Lisans
İngilizce
2017
Eğitim ve Öğretim University of East Anglia
DR. REBECCA WESTRUP
Tez No
646760
Yerel yönetimlerde çocuk katılımının incelenmesi: Ankara ve İstanbul büyükşehir belediyelerinin çocuk meclisleri
Investigation of child participation in local governments: Children assembly of Ankara and İstanbul metropolitan municipalities
İREM AKYÜREK
Yüksek Lisans
Türkçe
2020
Kamu Yönetimi Nuh Naci Yazgan Üniversitesi
Siyaset Bilimi ve Kamu Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HÜSNİYE AKILLI
Tez No
672559
Formalization of information requirements for implementing building information modeling based on model uses
Yapı bilgileri modellemesinin model kullanımlarına göre uygulanması için bilgi gereksinimlerinin formalizasyonu
RAIF ALSHORAFA
Doktora
İngilizce
2021
İnşaat Mühendisliği İstanbul Teknik Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ESİN ERGEN PEHLEVAN
Tez No
363527
Evaluation of NOx emission inventories using NO2 ground observations and NO2 satellite retrievals for Turkey
Türkiye için NOx emisyon envanterlerinin NO2 yer ölçümleri ve NO2 uydu verileri kullanılarak değerlendirilmesi
ECEM ÖNER
Yüksek Lisans
İngilizce
2014
Çevre Mühendisliği İstanbul Teknik Üniversitesi
Çevre Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. BURÇAK KAYNAK TEZEL
Tez No
338822
Article ranking with citation context analysis
Atıf metni analizi ile makale sıralama
METİN DÖŞLÜ
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. HALUK BİNGÖL

Geri Dön