Geri Dön

Reading aid for visually impaired (a Turkish text-to-speech system development)

Görme özürlüler için okuma yardımcısı (Türkçe için yazıdan ses üretimi sistemi geliştirilmesi)

  1. Tez No: 95406
  2. Yazar: BARIŞ BOZKURT
  3. Danışmanlar: DOÇ. DR. MEHMED ÖZKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Tıbbi Biyoloji, Medical Biology
  6. Anahtar Kelimeler: Yazıdan ses üretimi, zamanda kaynaştırma, okuma yardımcısı, periyot işaretleme, TD-PSOLA, Text-To-Speech synthesis, time domain concatenation, reading aids, pitch marking, TD-PSOLA
  7. Yıl: 2000
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Biyo-Medikal Mühendislik Enstitüsü
  11. Ana Bilim Dalı: Biyomedikal Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 67

Özet

GÖRME ÖZÜRLÜLER İÇİN OKUMA YARDIMCISI (TÜRKÇE İÇİN YAZIDAN SES ÜRETİMİ SİSTEMİ GELİŞTİRİLMESİ) ÖZET Görme özürlüler için geliştirilmiş yardımcı okuma sistemleri arasında Yazıdan Ses Üretimi sistemi, hızlı bilgi işleyebilmesi ve kolay kullanımı nedeniyle en avantaj lısıdır. Yazıdan Ses Üretim sistemlerinin temel işlevi yazılı bilgiyi otomatik olarak ses bilgisine dönüştürmeleridir. Bu çalışmada, önceden kaydedilmiş sesleri kaynaştırarak ardarda dizme yöntemi kullanılmıştır. Kaydedilmiş ses parçalarının doğrudan ardarda dizelmesiyle oluşturulan konuşmanın anlaşılırlığı çok düşük olmaktadır. Bu çalışmada, ses parçalarında gerekli değişikliklerin (prosodi değişiklikleri) yapılması ve uygun bir şekilde eklenmeleri TD-PSOLA yöntemi kullanılarak gerçekleştirilmektedir. Hedeflenen dilde konuşma üretilebilmesi için kaydedilmiş konuşmalara ihtiyaç vardır. Kayıtlan, çeşitli Türkçe kelimeleri okuyup kaydederek oluşturduk. İlk olarak, kaydedilmiş sesler üzerinde zaman uzayında tanımlanmış bir algoritma kullanılarak periyot işaretleme işlemi uygulandı. Seslerin ayrıştırılması bir ses programı kullanılarak yapıldı. Sentez sırasında sistemimiz, birleştirildiğinde anlaşılabilir bir konuşma oluşturacak uygun sesleri kayıtlar içerisinden seçmektedir. Uygun seslerin belirlenmesi, seslerin komşu sesleri incelenerek kayıtların taranması ile gerçekleşir. Daha sonra bu sesler TD-PSOLA yöntemi ile işlenmekte ve birleştirilmektedir. Belirtilen yöntemle üretilen konuşmanın anlaşılabilirliği, yüksek bir düzeyde kullanılan kayıt arşivinin kalitesine ve boyutuna bağlıdır. Bu etkilerin anlaşılabilmesi için, farklı boyutlarda arşiv kullanılarak üretilen konuşmalar öznel değerlendirme testleriyle denenmiştir. Bu çalışmada geliştirilen sistem, kaliteli kayıtlar kullanıldığında, rahatlıkla görme özürlüler için okuma yardımcısı olarak kullanılabilir.

Özet (Çeviri)

IV READING AID FOR VISUALLY IMPAIRED (A TURKISH TEXT-TO-SPEECH SYSTEM DEVELOPMENT) ABSTRACT Among various reading aids for blind, Text-To-Speech systems are the most advantageous, regarding their high information processing speed and easiness of storage and usage. The function of a Text-To-Speech (TTS) Synthesizer is automatic production of speech from a given text. The method used in this study is to synthesize speech by concatenation of speech segments extracted from a prerecorded speech corpus. A direct concatenation of speech segments fails to achieve good intelligibility. In this study, the Time Domain Pitch Synchronous OverLap Add (TD-PSOLA) algorithm is used as the concatenation algorithm, which provides smooth transitions at phoneme boundaries and reduction in mismatches due to prosodic differences by allowing prosody alteration. A speech corpus is needed for the application language to be utilized. We constructed a Turkish speech corpus by recording a script of sentences read by a speaker. The recorded speech signal is first submitted to a time domain pitch-marking algorithm to obtain pitch marks. The segmentation of phonemes in the corpus is done manually using a wave editor. During synthesis, our TTS engine extracts phoneme segments from the speech corpus in a way to achieve most intelligible synthetic speech. A search through the speech corpus within the context of the neighboring phonemes provides highly intelligible results. Then TD-PSOLA algorithm is used to alter prosody of segments for more natural concatenation. The intelligibility of synthetic speech is highly dependent on the quality and size of speech corpus. Performing subjective evaluation tests, we studied corpus size effects on the intelligibility. We conclude that the system developed in this study can successfully be used as a reading machine for blinds with the existence of a high quality speech corpus.

Benzer Tezler

  1. Mekan üretiminin ağsal örgütlenmeler üzerinden okunması

    A reading of production of space using network theory

    DERYA UZAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. FATMA ERKÖK

  2. Kentsel dokunun değerlendirilmesi için mekan dizimi ve fraktal analize dayalı bir yöntem: Gaziantep örneği

    A method based on space syntax and fractal analysis for analysing urban texture: The case of Gazi̇antep

    ESRA GÜRBÜZ YILDIRIM

    Doktora

    Türkçe

    Türkçe

    2018

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. GÜLEN ÇAĞDAŞ

  3. Sembolik devre analizi

    Sembolic circuit analysis

    RECAİ OKTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HAKAN KUTMAN

  4. Dördüncü ve beşinci sınıf Türkçe öğretiminde materyal geliştirme

    Material development in Turkish language teaching for fourth and fifth classes

    ÖNDER POTUR

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    Eğitim ve ÖğretimÇanakkale Onsekiz Mart Üniversitesi

    Türkçe Eğitimi Ana Bilim Dalı

    PROF. DR. KEMAL YÜCE