Geri Dön

Derin öğrenme tabanlı uçtan uca Türkçe konuşma sentezleme sistemi

Deep learning based end to end Turkish speech synthesis system

  1. Tez No: 816333
  2. Yazar: MUSTAFA SAMİ CÜCEN
  3. Danışmanlar: DOÇ. DR. HÜSEYİN POLAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 106

Özet

Konuşma sentezleme sistemi, insan benzeri doğal konuşmaları üretmek için geliştirilen bir yapay zeka teknolojisidir. Bu sistem, metin girdilerini alır ve bunları gerçekçi ve akıcı sesli çıktılara dönüştürmek için derin öğrenme algoritmalarını kullanır. Bu çalışmada öncelikle derin öğrenme modelini eğitmek için, Türkçe doğal konuşma örnekleri üzerinde kapsamlı bir veri toplama süreci gerçekleştirilmiştir. Bu veriler, bir genç erkek konuşmacı tarafından İstanbul Türkçesi olarak kaydedilen konuşma örneklerini içermektedir. Bu veriler yaklaşık 13 saat uzunluğundadır. Daha sonra veri kümesi kullanılarak GlowTTS mimarisi ile her biri 261 adım olan 500 çevrimlik model ile eğitilerek derin öğrenme tabanlı bir Türkçe konuşma sentezleme sistemi geliştirilmiştir. Geliştirilen konuşma sentezleme sisteminin performansı farklı ölçütlerle değerlendirilmiştir. Ortalama görüş puanı deneyi, spektrogramların değerlendirilmesi, çapraz korelasyon ve sanal konuşma kalitesi nesnel dinleyici (SKKND) testleri kullanılarak sistemin başarısı analiz edilmiştir. Elde edilen sonuçlara göre, sistemin OGP 2,79, çapraz korelasyon değeri 51,09 ve SKKND puanı 2,32 olarak belirlenmiştir. OGP, kullanıcıların konuşma kalitesini değerlendirmesiyle ortaya çıkan bir ölçüt olarak sistemin tatmin edici bir performans sergilediğini göstermektedir. Çapraz korelasyon değeri ise orijinal ses ve sentezlenen ses arasındaki benzerliğin ortalama olduğunu göstermektedir. SKKND puanı ise konuşmanın algısal kalitesini değerlendiren bir ölçüt olarak sistem tarafından üretilen konuşmanın tatmin edici olduğunu göstermektedir. Bu çalışma, Türkçe konuşma sentezleme sistemlerinin performansını değerlendirmek için nesnel ölçütlerin kullanılabileceğini göstermektedir. Sonuçlar, gelecekteki çalışmalarda sistem iyileştirmelerine ve kullanıcı deneyimini artırmaya yönelik önemli bilgiler sağlamaktadır. Bu sistemin daha önceki Türkçe konuşma sentezleme çalışmalarında karşılaşılan doğallık ve anlaşılırlık sorunlarına çözüm getirmesi amaçlanmıştır.

Özet (Çeviri)

The speech synthesis system is an artificial intelligence technology developed to generate human-like natural conversations. This system takes text inputs and utilizes deep learning algorithms to convert them into realistic and fluent vocal outputs. In this study, an extensive data collection process was conducted initially to train the deep learning model using Turkish natural speech samples. The dataset comprises speech examples recorded in Istanbul Turkish by a young male speaker, totaling approximately 13 hours. Subsequently, a Turkish speech synthesis system based on deep learning was developed by training 500 iterations of the GlowTTS architecture, each consisting of 261 steps, using the collected dataset. The performance of the developed speech synthesis system was evaluated using different criteria. Experimentation involved Mean Opinion Score (MOS), spectrogram evaluation, cross-correlation, and the virtual speech quality objective listener (ViSQOL) test to analyze the system's success. The results obtained from these evaluations revealed an MOS of 2.79, a cross-correlation value of 51.09, and an ViSQOL score of 2.32 for the system. The MOS indicates that the system achieved satisfactory performance based on user evaluations of speech quality. The cross-correlation value suggests an average similarity between the original and synthesized speech. Furthermore, the ViSQOL score demonstrates that the system-generated speech was perceived as satisfying when assessing its perceptual quality. This study demonstrates the use of objective criteria in evaluating the performance of Turkish speech synthesis systems. The findings provide crucial information for future research, aimed at system improvements and enhancing user experience. The objective of this system is to address the naturalness and intelligibility issues encountered in previous Turkish speech synthesis studies.This master's thesis aims to present the results of a research conducted on a deep learning-based end-to-end Turkish speech synthesis system.

Benzer Tezler

  1. Kendi kendine denetimli öğrenme tabanlı Türkçe konuşma tanıma sistemi

    Self-supervised learning based Turkish speech recognition system

    ALP KAAN TURAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN POLAT

  2. Videodan derin öğrenme tabanlı duygu tanıma

    Deep learning-based emotion recognition on video

    ORHAN ATİLA

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Elektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı

    PROF. DR. ABDULKADİR ŞENGÜR

  3. Derin öğrenme mimarileri kullanılarak ayrık video görüntüleri üzerinden işaret dili tanıma

    Isolated sign language recognition using deep learning architectures

    CEMİL GÜNDÜZ

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN POLAT

  4. Derin öğrenme ile sesli komut tanıma

    Voice command recognition with deep learning

    EMRE ATEŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. RİFAT EDİZKAN

  5. Tarımsal uygulamalar için derin öğrenme temelli uç sistem modellerinin geliştirilmesi ve optimizasyonu

    Development and optimization of deep learning based edge system models for agricultural applications

    DORUK SÖNMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AYDIN ÇETİN