Geri Dön

Keyword search by symbolic indexing

Simgesel dizinlemeyle anahtar sözcük arama

  1. Tez No: 433922
  2. Yazar: LEDA SARI
  3. Danışmanlar: DOÇ. DR. MURAT SARAÇLAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 111

Özet

Anahtar sözcük arama (ASA) sisteminin amacı yazılı olarak verilen sorguların arşivlenmiş haber bültenleri, ses ya da video biçimindeki ders kayıtları, müşteri hizmetlerinin kayıt altına alınmış telefon görüşmeleri gibi sesli veriler içindeki yerlerinin saptanmasıdır. Mevcut en iyi ASA sistemleri otomatik konuşma tanıma (OKT) sistemi örülerini dizinlemeye dayanır. Fakat, yazılandırılmış konuşma verisi az olan dillerde, OKT sisteminin başarımı dolayısıyla da ASA başarımı düşer. OKT tabanlı sistemlerde diğer bir problem de OKT dağarcığında bulunmayan dağarcık-dışı (DD) sözcüklerin aranmasıdır. Genellikle kullanılan bir yöntem anahtar sözcüğü bir karışıklık modeliyle (KM) genişletip benzer kelimeleri de orijinal haliyle birlikte aramaktır. Bu çalışmada, ASA dizini verinin OKT tanıma örüsü gösterimi yerine verinin simgesel gösteriminden oluşturulmuştur. Bu simgeler OKT sisteminin derin yapay sinir ağı çıktısından oluşturulan arama verisi posteriorgramının kodlanmasıyla elde edilmiştir. IARPA Babel Programı'nın az kaynaklı dil verileri üzerinde yapılan deneylerde, önerilen sistemin OKT örüsü tabanlı mevcut bir ASA sistemiyle birleştirildiğinde terim ağırlıklı değer (TAD) ile ölçülen ASA başarımını özellikle DD sorgular için artırdığı gösterilmiştir. DD sözcüklerin aranmasında KM için doğrudan DD sorgularda TAD'yi enbüyüklemeyi hedefleyen bir ayırıcı eğitim yöntemi tanıtılmıştır. Ayırıcı eğitimin, kaynağı az olan dillerde, hem mevcut OKT tanıma örüsü hem de simgesel dizinlemeye dayalı ASA sistemlerine etkisi incelenmiştir.

Özet (Çeviri)

The aim of keyword search (KWS) is to locate written queries in large amount of audio data such as archived news broadcasts, audio/video lectures, recorded customer call-center data or conversational speech. State of the art KWS approaches are based on indexing automatic speech recognition (ASR) lattices. However, for languages having only a limited amount of transcribed audio, the ASR performance decreases which in turn reduces the KWS performance. Another problem with ASR based KWS systems is searching for out-of-vocabulary (OOV) keywords which are not covered by the ASR vocabulary. One common approach is expanding the keyword using a confusion model (CM) and searching for similar words along with the original. In this work, the KWS index is generated using symbolic representations of the data instead of ASR lattices. These symbols are obtained by encoding the search data posteriorgram which is generated using the deep neural network (DNN) output of the ASR system. In the experiments performed on the low resource language datasets of the IARPA Babel Program, we show that when combined with existing ASR lattice based KWS systems, the proposed system improves the KWS performance measured in terms of term weighted value (TWV), especially for OOV queries. In order to handle OOV queries, a discriminative approach for training the CM is also introduced which directly aims at maximizing the TWV for OOV queries. We explore the influence of discriminative training on both an existing ASR lattice based system and the symbolic index based system under low resource settings.

Benzer Tezler

  1. Oyun Masası(Tufan hikâyelerinden metaforik bir uyarlama)

    Game Table (A metaphoric adaption from flood stories)

    BAŞAK ÇORAKLI

    Sanatta Yeterlik

    Türkçe

    Türkçe

    2013

    Güzel SanatlarMimar Sinan Güzel Sanatlar Üniversitesi

    Geleneksel Türk El Sanatları Ana Sanat Dalı

    PROF. DR. SİTARE TURAN BAKIR

  2. Taşra'da kuir olmak: Konya ve Diyarbakır örnekleri

    Being queer in province: The cases of Konya and Diyarbakır

    ERDİNÇ KİNEŞÇİ

    Doktora

    Türkçe

    Türkçe

    2016

    AntropolojiHacettepe Üniversitesi

    Antropoloji Ana Bilim Dalı

    PROF. DR. AKSU BORA

  3. Similar image retrieval in electronic commerce for online shopping based on color and edge directivity descriptor

    Elektronik ticarette çevrimiçi alışveriş için renk ve kenar yönelim açıklayıcı tabanlı benzer görüntü erişimi

    SORAN AL-JAF

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CAFER BAL

  4. Keyword search for sign language

    İşaret dilinde anahtar kelime arama

    NAZİF CAN TAMER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT SARAÇLAR

  5. Efficiency and effectiveness of xml keyword search using full element index

    Tam eleman indeksi kullanarak xml anahtar sözcük aramanın verimlilik ve etkililiği

    DUYGU ATILGAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgi ve Belge Yönetimiİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR ULUSOY