Derin öğrenme tabanlı uçtan uca Türkçe konuşma sentezleme sistemi
Deep learning based end to end Turkish speech synthesis system
- Tez No: 816333
- Danışmanlar: DOÇ. DR. HÜSEYİN POLAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 106
Özet
Konuşma sentezleme sistemi, insan benzeri doğal konuşmaları üretmek için geliştirilen bir yapay zeka teknolojisidir. Bu sistem, metin girdilerini alır ve bunları gerçekçi ve akıcı sesli çıktılara dönüştürmek için derin öğrenme algoritmalarını kullanır. Bu çalışmada öncelikle derin öğrenme modelini eğitmek için, Türkçe doğal konuşma örnekleri üzerinde kapsamlı bir veri toplama süreci gerçekleştirilmiştir. Bu veriler, bir genç erkek konuşmacı tarafından İstanbul Türkçesi olarak kaydedilen konuşma örneklerini içermektedir. Bu veriler yaklaşık 13 saat uzunluğundadır. Daha sonra veri kümesi kullanılarak GlowTTS mimarisi ile her biri 261 adım olan 500 çevrimlik model ile eğitilerek derin öğrenme tabanlı bir Türkçe konuşma sentezleme sistemi geliştirilmiştir. Geliştirilen konuşma sentezleme sisteminin performansı farklı ölçütlerle değerlendirilmiştir. Ortalama görüş puanı deneyi, spektrogramların değerlendirilmesi, çapraz korelasyon ve sanal konuşma kalitesi nesnel dinleyici (SKKND) testleri kullanılarak sistemin başarısı analiz edilmiştir. Elde edilen sonuçlara göre, sistemin OGP 2,79, çapraz korelasyon değeri 51,09 ve SKKND puanı 2,32 olarak belirlenmiştir. OGP, kullanıcıların konuşma kalitesini değerlendirmesiyle ortaya çıkan bir ölçüt olarak sistemin tatmin edici bir performans sergilediğini göstermektedir. Çapraz korelasyon değeri ise orijinal ses ve sentezlenen ses arasındaki benzerliğin ortalama olduğunu göstermektedir. SKKND puanı ise konuşmanın algısal kalitesini değerlendiren bir ölçüt olarak sistem tarafından üretilen konuşmanın tatmin edici olduğunu göstermektedir. Bu çalışma, Türkçe konuşma sentezleme sistemlerinin performansını değerlendirmek için nesnel ölçütlerin kullanılabileceğini göstermektedir. Sonuçlar, gelecekteki çalışmalarda sistem iyileştirmelerine ve kullanıcı deneyimini artırmaya yönelik önemli bilgiler sağlamaktadır. Bu sistemin daha önceki Türkçe konuşma sentezleme çalışmalarında karşılaşılan doğallık ve anlaşılırlık sorunlarına çözüm getirmesi amaçlanmıştır.
Özet (Çeviri)
The speech synthesis system is an artificial intelligence technology developed to generate human-like natural conversations. This system takes text inputs and utilizes deep learning algorithms to convert them into realistic and fluent vocal outputs. In this study, an extensive data collection process was conducted initially to train the deep learning model using Turkish natural speech samples. The dataset comprises speech examples recorded in Istanbul Turkish by a young male speaker, totaling approximately 13 hours. Subsequently, a Turkish speech synthesis system based on deep learning was developed by training 500 iterations of the GlowTTS architecture, each consisting of 261 steps, using the collected dataset. The performance of the developed speech synthesis system was evaluated using different criteria. Experimentation involved Mean Opinion Score (MOS), spectrogram evaluation, cross-correlation, and the virtual speech quality objective listener (ViSQOL) test to analyze the system's success. The results obtained from these evaluations revealed an MOS of 2.79, a cross-correlation value of 51.09, and an ViSQOL score of 2.32 for the system. The MOS indicates that the system achieved satisfactory performance based on user evaluations of speech quality. The cross-correlation value suggests an average similarity between the original and synthesized speech. Furthermore, the ViSQOL score demonstrates that the system-generated speech was perceived as satisfying when assessing its perceptual quality. This study demonstrates the use of objective criteria in evaluating the performance of Turkish speech synthesis systems. The findings provide crucial information for future research, aimed at system improvements and enhancing user experience. The objective of this system is to address the naturalness and intelligibility issues encountered in previous Turkish speech synthesis studies.This master's thesis aims to present the results of a research conducted on a deep learning-based end-to-end Turkish speech synthesis system.
Benzer Tezler
- Kendi kendine denetimli öğrenme tabanlı Türkçe konuşma tanıma sistemi
Self-supervised learning based Turkish speech recognition system
ALP KAAN TURAN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN POLAT
- Videodan derin öğrenme tabanlı duygu tanıma
Deep learning-based emotion recognition on video
ORHAN ATİLA
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiElektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı
PROF. DR. ABDULKADİR ŞENGÜR
- Derin öğrenme mimarileri kullanılarak ayrık video görüntüleri üzerinden işaret dili tanıma
Isolated sign language recognition using deep learning architectures
CEMİL GÜNDÜZ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. HÜSEYİN POLAT
- Derin öğrenme ile sesli komut tanıma
Voice command recognition with deep learning
EMRE ATEŞ
Yüksek Lisans
Türkçe
2019
Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. RİFAT EDİZKAN
- Tarımsal uygulamalar için derin öğrenme temelli uç sistem modellerinin geliştirilmesi ve optimizasyonu
Development and optimization of deep learning based edge system models for agricultural applications
DORUK SÖNMEZ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AYDIN ÇETİN