Keyword search for low resource languages
Kısıtlı kaynaklı dillerde anahtar sözcük arama
- Tez No: 503233
- Danışmanlar: PROF. DR. MURAT SARAÇLAR
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 135
Özet
Konuşma geri getirimi, yalnızca ilgilenilen konuşma parçalarının bulunması için değil aynı zamanda daha iyi otomatik konuşma tanıma (OKT) sistemlerinin kurulabilmesine yönelik, otomatikleştirilmiş ve kolaylaştırılmış bir konuşma madenciliği için, önemli bir problemdir. Bilhassa, anahtar sözcük arama (ASA) sistemleri, bir kullanıcının sağladığı anahtar sözcüğün telaffuz edildiği belirli kısımları bulmak suretiyle bu hedefleri gerçekleştirmeyi amaçlamaktadır. Anahtar sözcük arama için en akla yatan ve en çok kullanılan yöntem, OKT sistemleri kullanarak konuşmadan metin yazıları elde etmek ve bu OKT çıktısında metin tabanlı arama yapmaktır. Öte yandan, mevcut etiketli konuşma eğitim verilerinin yetersiz olduğu kısıtlı kaynaklı diller için güvenilir OKT sistemleri oluşturulamayacak ve kendilerine bağımlı ASA sistemleri başarısız olacaktır. Ayrıca, ilgilenilen anahtar sözcük OKT sisteminin dağarcığında yer almıyorsa, kelime düzeyi OKT çıktılarında bulunması imkansız olacaktır. Bu tezde, kısıtlı kaynaklı diller için ASA'nın yukarıda bahsedilen problemlerini ele alacağız. Tamamen farklı bir yaklaşımla, örnek ile sorgu problemlerinin benzerlik arama tekniklerinden esinlenen fikirlerle bir ASA sistemi kurmayı hedefledik. Bunun için, metin sorguları için yapay olarak ``sahte örnekler'' oluşturduktan sonra, bir alt-dizi dinamik zaman bükme araması kullanıyoruz. Ayrıca, dinamik zaman bükmede kullanılmak üzere, bu sorgu gösterimleri ile uygun bir mesafe metriğini bütünleşik ularak öğrenilmesini inceliyoruz. Önerdiğimiz bu yeni ASA sisteminin, dağarcık dışı terimlerin bulunmasında, mevcut en iyi ASA tekniklerinden daha iyi performans gösterdiğini, ve farklı yapısı nedeniyle geleneksel OKT tabanlı ASA sistemleri ile birlstirildiğinde ciddi iyileştirmeler sağladığını gördük.
Özet (Çeviri)
Retrieval of spoken content is one key endeavor, not only for nding the speech parts of interest, but also for an automated and facilitated speech mining towards better automatic speech recognition (ASR) systems. In particular, keyword search (KWS) systems aims to address these goals, by locating the speci c parts of speech where a user provided keyword uttered. The most intuitive and convenient method for keyword search is to obtain text transcriptions from speech using ASR systems, and then conduct text based search on this ASR output. However, for low resource languages, for which available labeled speech training data is not sucient, reliable ASR systems cannot be built and, KWS systems that depend on them will fail. Furthermore, if the keyword of interest is not within the vocabulary of the ASR system, it can never be found in the word level transcriptions. In this thesis, we address the above mentioned issues of KWS for the low resource languages. We aim to build a KWS system, using a completely di erent approach, with ideas inspired by the similarity search techniques of the query by example retrieval tasks. For this, we utilize a subsequence dynamic time warping-based search, after arti cially modeling \pseudo examples" for text queries. Furthermore, we investigate a joint learning of these query representations and a proper distance metric for use in dynamic time warping. We show that, this new KWS system, we propose, outperforms the state of the art KWS techniques for retrieval of out-of-vocabulary terms, and provides signi cant improvements when combined with the conventional ASR-based KWS system due to its heterogeneity.
Benzer Tezler
- Using crosslingual information for keyword search in low resource languages
Kısıtlı kaynaklı dillerde anahtar sözcük arama için diller arası bilgi kullanımı
BOLAJI YUSUF
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik Elektronik Mühendisliği Bilim Dalı
PROF. DR. MURAT SARAÇLAR
- Keyword search by symbolic indexing
Simgesel dizinlemeyle anahtar sözcük arama
LEDA SARI
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
- APPN mimarisi ile diğer şebeke mimarilerinin bütünleştirilmesine ilişkin yöntemler
Integration methods of APPN architecture and other networking architectures
ALPER GÜVENER
Yüksek Lisans
Türkçe
2000
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. GÜNSEL DURUSOY
- Bankacılık sektöründe türev araçlarının yeri ve Türk bankacılık sektörüne etkileri
Derivatives in banking industry and their affects to the Turkish banking sector
MUHAMMET SELÇUK BAYINDIR
- End-to-end open vocabulary keyword search
Uçtan-uca açık sözvarlıklı anahtar sözcük arama
BOLAJI YUSUF
Doktora
İngilizce
2024
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT SARAÇLAR