Geri Dön

Keyword search for low resource languages

Kısıtlı kaynaklı dillerde anahtar sözcük arama

  1. Tez No: 503233
  2. Yazar: MUSTAFA BATUHAN GÜNDOĞDU
  3. Danışmanlar: PROF. DR. MURAT SARAÇLAR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 135

Özet

Konuşma geri getirimi, yalnızca ilgilenilen konuşma parçalarının bulunması için değil aynı zamanda daha iyi otomatik konuşma tanıma (OKT) sistemlerinin kurulabilmesine yönelik, otomatikleştirilmiş ve kolaylaştırılmış bir konuşma madenciliği için, önemli bir problemdir. Bilhassa, anahtar sözcük arama (ASA) sistemleri, bir kullanıcının sağladığı anahtar sözcüğün telaffuz edildiği belirli kısımları bulmak suretiyle bu hedefleri gerçekleştirmeyi amaçlamaktadır. Anahtar sözcük arama için en akla yatan ve en çok kullanılan yöntem, OKT sistemleri kullanarak konuşmadan metin yazıları elde etmek ve bu OKT çıktısında metin tabanlı arama yapmaktır. Öte yandan, mevcut etiketli konuşma eğitim verilerinin yetersiz olduğu kısıtlı kaynaklı diller için güvenilir OKT sistemleri oluşturulamayacak ve kendilerine bağımlı ASA sistemleri başarısız olacaktır. Ayrıca, ilgilenilen anahtar sözcük OKT sisteminin dağarcığında yer almıyorsa, kelime düzeyi OKT çıktılarında bulunması imkansız olacaktır. Bu tezde, kısıtlı kaynaklı diller için ASA'nın yukarıda bahsedilen problemlerini ele alacağız. Tamamen farklı bir yaklaşımla, örnek ile sorgu problemlerinin benzerlik arama tekniklerinden esinlenen fikirlerle bir ASA sistemi kurmayı hedefledik. Bunun için, metin sorguları için yapay olarak ``sahte örnekler'' oluşturduktan sonra, bir alt-dizi dinamik zaman bükme araması kullanıyoruz. Ayrıca, dinamik zaman bükmede kullanılmak üzere, bu sorgu gösterimleri ile uygun bir mesafe metriğini bütünleşik ularak öğrenilmesini inceliyoruz. Önerdiğimiz bu yeni ASA sisteminin, dağarcık dışı terimlerin bulunmasında, mevcut en iyi ASA tekniklerinden daha iyi performans gösterdiğini, ve farklı yapısı nedeniyle geleneksel OKT tabanlı ASA sistemleri ile birlstirildiğinde ciddi iyileştirmeler sağladığını gördük.

Özet (Çeviri)

Retrieval of spoken content is one key endeavor, not only for nding the speech parts of interest, but also for an automated and facilitated speech mining towards better automatic speech recognition (ASR) systems. In particular, keyword search (KWS) systems aims to address these goals, by locating the speci c parts of speech where a user provided keyword uttered. The most intuitive and convenient method for keyword search is to obtain text transcriptions from speech using ASR systems, and then conduct text based search on this ASR output. However, for low resource languages, for which available labeled speech training data is not sucient, reliable ASR systems cannot be built and, KWS systems that depend on them will fail. Furthermore, if the keyword of interest is not within the vocabulary of the ASR system, it can never be found in the word level transcriptions. In this thesis, we address the above mentioned issues of KWS for the low resource languages. We aim to build a KWS system, using a completely di erent approach, with ideas inspired by the similarity search techniques of the query by example retrieval tasks. For this, we utilize a subsequence dynamic time warping-based search, after arti cially modeling \pseudo examples" for text queries. Furthermore, we investigate a joint learning of these query representations and a proper distance metric for use in dynamic time warping. We show that, this new KWS system, we propose, outperforms the state of the art KWS techniques for retrieval of out-of-vocabulary terms, and provides signi cant improvements when combined with the conventional ASR-based KWS system due to its heterogeneity.

Benzer Tezler

  1. Using crosslingual information for keyword search in low resource languages

    Kısıtlı kaynaklı dillerde anahtar sözcük arama için diller arası bilgi kullanımı

    BOLAJI YUSUF

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik Elektronik Mühendisliği Bilim Dalı

    PROF. DR. MURAT SARAÇLAR

  2. Keyword search by symbolic indexing

    Simgesel dizinlemeyle anahtar sözcük arama

    LEDA SARI

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

  3. APPN mimarisi ile diğer şebeke mimarilerinin bütünleştirilmesine ilişkin yöntemler

    Integration methods of APPN architecture and other networking architectures

    ALPER GÜVENER

    Yüksek Lisans

    Türkçe

    Türkçe

    2000

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. GÜNSEL DURUSOY

  4. Bankacılık sektöründe türev araçlarının yeri ve Türk bankacılık sektörüne etkileri

    Derivatives in banking industry and their affects to the Turkish banking sector

    MUHAMMET SELÇUK BAYINDIR

    Doktora

    Türkçe

    Türkçe

    2016

    Ekonomiİstanbul Üniversitesi

    İktisat Ana Bilim Dalı

    PROF. DR. CEM SAATCİOĞLU

  5. End-to-end open vocabulary keyword search

    Uçtan-uca açık sözvarlıklı anahtar sözcük arama

    BOLAJI YUSUF

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT SARAÇLAR