Türkçe konuşma tanıma sistemleri için derin öğrenme tabanlı modellerin geliştirilmesi

Development of deep learning based models for Turkish speech recognition

PDF İndir

Tez No: 656414
Yazar: SAADİN OYUCU
Danışmanlar: DOÇ. DR. HÜSEYİN POLAT
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 131

Özet

Kelime Hata Oranı (KHO) düşük Otomatik Konuşma Tanıma (OKT) sistemlerinde, büyük miktarda konuşma ve bu konuşmalar ile eşleştirilmiş metin veri kümesine ihtiyaç duyulmaktadır. Bu nedenle çalışma kapsamında Türkçe OKT veri kümesi hazırlamaya yönelik farklı bir yaklaşım sunulmuştur. Sunulan yaklaşımda üç farklı yöntem kullanılmıştır. İlk yöntemde, işitme güçlüğü çeken kişiler için hazırlanan altyazı belgeleri filmlerden elde edilen konuşma bilgisi ile eşleştirilmiştir. İkinci yöntemde, veriler bir mobil uygulama aracılığıyla gerçek kullanıcılardan elde edilmiştir. Üçüncü yöntemde ise transfer öğrenme yaklaşımı kullanılmıştır. Elde edilen veriler gerçek kullanıcıların onayına sunulmuştur. Türkçe OKT sistemi için gerekli Akustik Model (AM), Dil Modeli (DM) ve Okunuş Sözlüğü (OS) hazırlanan veri kümesi kullanılarak geliştirilmiştir. Yapay sinir ağı, Gauss Karışım Modeli ve Saklı Markov Modeli tabanlı akustik modellerin ilk konuşma tanıma sonuçları verilmiştir. Ayrıca OKT sistemlerinin başarımını düşürecek akustik bilgilerin ortadan kaldırılması için konuşma içerisinde geçen sessizliklerin kaldırılması ve konuşmaların parçalara ayrılması gerçekleştirilmiştir. OS'nin oluşturulmasındaki sesbirim kuralları belirlenmiştir. Günlük konuşma içerisinde sıklıkla kullanılan yabancı kelimeler ve Türkçede birden fazla okunuşa sahip olan kelimelerin farklı okunuşları OS'ye eklenmiştir. OKT için iyi dizayn edilmiş bir DM'nin AM ile birlikte kullanılması KHO'yu düşürmektedir. Bu nedenle çalışmada, Türkçe OKT'nin KHO başarımını arttırmak için cümle düzeyinde bir DM iyileştirme yöntemi önerilmiştir. Sonuç olarak, Türkçe için literatürdeki yetersiz kaynak durumu telafi edilmiştir. Ayrıca, AM, DM ve OS gerçekleştirilen iyileştirmeler ile KHO düşük ve geniş kelime dağarcığına sahip bir Türkçe OKT sistemi geliştirilmiştir. Geliştirilen OKT sistemine erişimi kolaylaştırmak için web servis tabanlı bir platform hazırlanmıştır. Kullanıcıların platforma erişimi, platform ile birlikte hazırlanan web arayüzü üzerinden gerçekleştirilmiştir. Ayrıca geliştirilen uygulama programlama arayüzleri sayesinde farklı uygulama ve servislerin platforma erişimi sağlanmıştır. Böylelikle mobil cihazlarda ve nesnelerin interneti ekosisteminde sorunsuz çalışabilen geniş kelime dağarcığına sahip bir Türkçe OKT platformu geliştirilmiştir.

Özet (Çeviri)

Automatic Speech Recognition (ASR) systems with low Word Error Rate (KHO) need a large amount of speech and a data set of text matched with these speeches. For this reason, a different approach to preparing a Turkish ASR data set is presented in the scope of the study. Three different methods were used in the proposed process. In the first method, subtitle documents prepared for people with hearing difficulties were matched with movies' speech information. In the second method, data were obtained from real users via a mobile application. In the third method, the transfer learning approach was used. The obtained data were submitted to the approval of real users. The Acoustic Model (AM), Language Model (LM) and lexicon required for the Turkish ASR system were developed using the prepared data set. The first speech recognition results of different acoustic models based are given. Also, to eliminate acoustic information that would reduce the performance of ASR systems, silences in the speech were removed and speeches were divided into parts. Also, the phoneme rules in the creation of the lexicon have been determined. Foreign words that are frequently used in daily speech and different readings of words that have more than one pronunciation in Turkish were added to the lexicon. Using LM together with AM in ASR systems decreases WER. Therefore, in the study, a sentence-level LM improvement method is proposed to increase the performance of Turkish ASR's WER. As a result, the low resource situation stated in the literature for Turkish has been compensated. Also, with the improvements made on AM, LM and lexicon, a Turkish ASR system with low WER and large vocabulary has been developed. A web service-based platform has been prepared to facilitate access to the developed ASR system. Users were provided with access to the ASR system via the web interface designed with the platform. Also, different applications access to the platform has been provided through the application programming interface. Thus, a Turkish ASR platform with a large vocabulary has been developed that can work smoothly on mobile devices and the Internet of Things ecosystem.

Benzer Tezler

Tez No
927368
Derin öğrenme tabanlı konuşma tanıma sistem tasarımı
Deep learning based speech recognition system design
BURAK KORCUKLU
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bursa Uludağ Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET EMİR DİRİK
Tez No
848265
Derin öğrenme ile türkçe ses işaretlerinden rakam tanıma
Digit recognition from turkish sound signals with deep learning
ABDULLAH EROĞLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Batman Üniversitesi
Bilgi Teknolojileri Ana Bilim Dalı
DOÇ. DR. YILMAZ KAYA
Tez No
823040
Adli delil incelemesi sürecinde derin öğrenme tabanlı çoklu ortam içeriklerinin analizi
Deep learning-based analysis of multimedia contents in forensic evidence investigation process
MUSTAFA ERİŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA KAYA
Tez No
729816
Derin öğrenme mimarileri kullanılarak ayrık video görüntüleri üzerinden işaret dili tanıma
Isolated sign language recognition using deep learning architectures
CEMİL GÜNDÜZ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. HÜSEYİN POLAT
Tez No
511546
Türkçe'de varlık ismi tanıma
Named entity recognition in Turkish
ASIM GÜNEŞ
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ

Geri Dön