Geri Dön

Speech retrieval for Turkish broadcast news

Türkçe haber programları için konuşma geri getirimi

  1. Tez No: 232594
  2. Yazar: SIDDIKA PARLAK
  3. Danışmanlar: YRD. DOÇ. DR. MURAT SARAÇLAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Mühendislik Bilimleri, Electrical and Electronics Engineering, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2008
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 119

Özet

Son yıllarda, konuşma geri getirimi bilgi geri getiriminin bir alt dalı olarak gelişmeyebaşlamıştır. Alışılmışın aksine bilgi kaynağı yazılı değil, konuşma halindedir. Bu tezde,Türkçe Haber Programlarının geri getirimi üzerine çalışılmıştır. Bu amaçla iki sistemgeliştirilmiştir: Konuşulan Terimlerin Saptanması (KTS) ve Konuşulan DökümanlarınGeri Getirilmesi (KDGG). Her iki sistem de Otomatik Konuşma Tanıma ve Bilgi GeriGetirimi tekniklerini birleştirmektedir fakat ana hedefleri farklıdır. KTS sözcükleringörülme zamanlarını bulmayı amaçlar ve tam olarak örtüşmeyi esas alır. KDGG iseanahtar sözcükler ile ilgili dökümanları bulmayı hedefler ve daha çok içeriğe dayalıdır.Konuşmanın otomatik olarak yazıya çevrilmesi sondan eklemeli diller için dahakarmaşıktır çünkü normal boyutlardaki bir dağarcık dilin sadece belli bir kısmını kapsayabilmektedir.Sıkça uygulanan bir çözüm kelimeleri kelime-altı birimlere ayırmakve tanımada kelime-altı birimleri kullanmaktır. Bu çalışmada, KTS için biçimbilimselve istatistiksel kelime-altı birimler kullanılmıştır. En iyi sonuçlar kelime ve kelime-altıtabanlı yaklaşımların birlikte kullanılması ile elde edilmiştir. Kelime bölütleme algoritmalarıKDGG için de oldukça önemlidir çünkü kelime kökleri anlam yönünden dahabelirleyicidir. KDGG deneyleri kökleştirmenin başarımı iyileştirdiğini ancak yöntemlerarasında önemli bir fark olmadığını göstermiştir. Ek olarak, dilden bağımsız konuşmatanıma sorunları üzerinde de durulmuştur. En iyi hipotez yerine diğer olası hipotezlerinde kullanılması KTS için başarılı sonuçlar vermiştir. Sonuçlar tarafımızca toplanan vedüzenlenen Türkçe Haber Programları Verisi üzerinde sunulmuştur.

Özet (Çeviri)

Speech retrieval is a recently emerging field of information retrieval, in whichthe information is spoken, instead of written. So far, spoken information retrievalhas been studied in several languages. In this thesis, we concentrate on the retrieval ofTurkish Broadcast News. We implement two tasks: Spoken Term Detection (STD) andSpoken Document Retrieval (SDR). Although they both combine Automatic SpeechRecognition (ASR) and Information Retrieval (IR) techniques to retrieve spoken data,their main goals are different. STD retrieves specific occurrences and requires an exactmatch, while SDR retrieves related documents and cares more about context.Automatic transcription and retrieval of speech is more complicated in agglutinativelanguages because a standard size recognition vocabulary is able to cover onlya limited portion of the language. A common solution is segmenting the words intosubwords and using subwords units in recognition. We employed grammatical and statisticalsubword units in recognition and indexing for STD. Best scores are obtainedvia combining word and statistical subword based approaches. Word segmentationalgorithms are also useful in SDR since stems bear the meaning and provide a betterrepresentation of context. Experiments showed that stemming improves SDR performancebut the segmenting methods do not have a significant difference. We also studiedlanguage-independent ASR errors. Indexing the alternative ASR hypotheses, as wellas the best one, was shown to be effective on the STD task. Results are presented onour Turkish Broadcast News Corpus.

Benzer Tezler

  1. Multimodal representation learning for synchronized speech and videos

    Eşzamanlı konuşma ve video için çok kipli gösterim öğrenimi

    ÖYKÜ DENİZ KÖSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT SARAÇLAR

  2. Indexing and browsing of multimedia content data with MPEG-7

    Çoğul ortamlar verilerinin MPEG-7 ile indekslenmesi ve taranması

    OĞUZ İÇOĞLU

  3. Local context based linear text segmentation

    Yerel içerik tabanlı konusal metin bölümlendirme

    HAYRETTİN ERDEM

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  4. Content-based audio management and retrieval system for news broadcasts

    Haber yayınları için içerik tabanlı ses yönetim ve erişim sistemi

    EBRU DOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADNAN YAZICI

    YRD. DOÇ. DR. MUSTAFA SERT

  5. Türkçe için istatistiksel bir bilgi geri-getirim sistemi

    A statistical information retrieval system for Turkish

    BEKİR TANER DİNÇER

    Doktora

    Türkçe

    Türkçe

    2004

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    PROF.DR. BAHAR KARAOĞLAN