Speech retrieval for Turkish broadcast news
Türkçe haber programları için konuşma geri getirimi
- Tez No: 232594
- Danışmanlar: YRD. DOÇ. DR. MURAT SARAÇLAR
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Mühendislik Bilimleri, Electrical and Electronics Engineering, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2008
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 119
Özet
Son yıllarda, konuşma geri getirimi bilgi geri getiriminin bir alt dalı olarak gelişmeyebaşlamıştır. Alışılmışın aksine bilgi kaynağı yazılı değil, konuşma halindedir. Bu tezde,Türkçe Haber Programlarının geri getirimi üzerine çalışılmıştır. Bu amaçla iki sistemgeliştirilmiştir: Konuşulan Terimlerin Saptanması (KTS) ve Konuşulan DökümanlarınGeri Getirilmesi (KDGG). Her iki sistem de Otomatik Konuşma Tanıma ve Bilgi GeriGetirimi tekniklerini birleştirmektedir fakat ana hedefleri farklıdır. KTS sözcükleringörülme zamanlarını bulmayı amaçlar ve tam olarak örtüşmeyi esas alır. KDGG iseanahtar sözcükler ile ilgili dökümanları bulmayı hedefler ve daha çok içeriğe dayalıdır.Konuşmanın otomatik olarak yazıya çevrilmesi sondan eklemeli diller için dahakarmaşıktır çünkü normal boyutlardaki bir dağarcık dilin sadece belli bir kısmını kapsayabilmektedir.Sıkça uygulanan bir çözüm kelimeleri kelime-altı birimlere ayırmakve tanımada kelime-altı birimleri kullanmaktır. Bu çalışmada, KTS için biçimbilimselve istatistiksel kelime-altı birimler kullanılmıştır. En iyi sonuçlar kelime ve kelime-altıtabanlı yaklaşımların birlikte kullanılması ile elde edilmiştir. Kelime bölütleme algoritmalarıKDGG için de oldukça önemlidir çünkü kelime kökleri anlam yönünden dahabelirleyicidir. KDGG deneyleri kökleştirmenin başarımı iyileştirdiğini ancak yöntemlerarasında önemli bir fark olmadığını göstermiştir. Ek olarak, dilden bağımsız konuşmatanıma sorunları üzerinde de durulmuştur. En iyi hipotez yerine diğer olası hipotezlerinde kullanılması KTS için başarılı sonuçlar vermiştir. Sonuçlar tarafımızca toplanan vedüzenlenen Türkçe Haber Programları Verisi üzerinde sunulmuştur.
Özet (Çeviri)
Speech retrieval is a recently emerging field of information retrieval, in whichthe information is spoken, instead of written. So far, spoken information retrievalhas been studied in several languages. In this thesis, we concentrate on the retrieval ofTurkish Broadcast News. We implement two tasks: Spoken Term Detection (STD) andSpoken Document Retrieval (SDR). Although they both combine Automatic SpeechRecognition (ASR) and Information Retrieval (IR) techniques to retrieve spoken data,their main goals are different. STD retrieves specific occurrences and requires an exactmatch, while SDR retrieves related documents and cares more about context.Automatic transcription and retrieval of speech is more complicated in agglutinativelanguages because a standard size recognition vocabulary is able to cover onlya limited portion of the language. A common solution is segmenting the words intosubwords and using subwords units in recognition. We employed grammatical and statisticalsubword units in recognition and indexing for STD. Best scores are obtainedvia combining word and statistical subword based approaches. Word segmentationalgorithms are also useful in SDR since stems bear the meaning and provide a betterrepresentation of context. Experiments showed that stemming improves SDR performancebut the segmenting methods do not have a significant difference. We also studiedlanguage-independent ASR errors. Indexing the alternative ASR hypotheses, as wellas the best one, was shown to be effective on the STD task. Results are presented onour Turkish Broadcast News Corpus.
Benzer Tezler
- Multimodal representation learning for synchronized speech and videos
Eşzamanlı konuşma ve video için çok kipli gösterim öğrenimi
ÖYKÜ DENİZ KÖSE
Yüksek Lisans
İngilizce
2020
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT SARAÇLAR
- Indexing and browsing of multimedia content data with MPEG-7
Çoğul ortamlar verilerinin MPEG-7 ile indekslenmesi ve taranması
OĞUZ İÇOĞLU
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiPROF. DR. MUHİTTİN GÖKMEN
- Local context based linear text segmentation
Yerel içerik tabanlı konusal metin bölümlendirme
HAYRETTİN ERDEM
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FAZLI CAN
- Content-based audio management and retrieval system for news broadcasts
Haber yayınları için içerik tabanlı ses yönetim ve erişim sistemi
EBRU DOĞAN
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADNAN YAZICI
YRD. DOÇ. DR. MUSTAFA SERT
- Türkçe için istatistiksel bir bilgi geri-getirim sistemi
A statistical information retrieval system for Turkish
BEKİR TANER DİNÇER
Doktora
Türkçe
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
PROF.DR. BAHAR KARAOĞLAN