Uçtan-uca konuşma tanıma modeli: Türkçe'deki deneyler

End-to-end speech recognition model: Experiments in Turkish

PDF İndir

Tez No: 493886
Yazar: BEHNAM ASEFISARAY
Danışmanlar: PROF. DR. HAYRİ SEVER, YRD. DOÇ. DR. ERHAN MENGÜŞOĞLU
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2018
Dil: Türkçe
Üniversite: Hacettepe Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 126

Özet

Okunuş sözlüğü ve saklı markov modeli (Hidden Markov Model - HMM) yıllardır konuşma tanıma sistemlerinin en önemli iki parçası olarak bilinmekteler. HMM'ler çıktı olarak ürettikleri fonemler arasında bağımsızlık varsayımında bulunup, sözlükteki kelimelerin okunuşunu el yordamı ile oluşturmak da oldukça zaman alıcı bir süreçtir. Ayrıca bu modellerin eğitimi de birbirinden bağımsız yapılıp, bir modeldeki iyileşme her zaman konuşma tanıma sisteminin hata oranını düşürmemektedir. Son yıllarda, bağlantıcı zamansal sınıflandırma (Connectionist Temporal Classification - CTC) yöntemi bu sorunu kısmen çözmüş olup akustik model ile okunuş modelinin birlikte eğitilebilmesini sağlamıştır. Ancak hem HMM hem de CTC çözümleri, karakter/kelime çıktıları arasında bağımsızlık varsayımında bulunup, gerek akustik gerekse okunuş açısından uzun bağımlılıkları modelleyememekteler. Bu nedenden dolayı da, HMM ve CTC tabanlı sistemler her zaman güçlü bir dil modeline ihtiyaç duyup, dil modeli kullanmadan bu sistemlerdeki kelime hata oranı oldukça yüksek çıkmaktadır. Bu tezde, HMM tabanlı sistemlerin yapısı incelenip bu modellerin getirdiği kısıtlamalar anlatılmıştır. Odaklanma mekanizması (Attention Mechanism) ile çalışan bir tekrarlanan sinir ağı (Recurrent Neural Network - RNN) direkt sesi yazıya çevirmek için eğitilip, yukarıdaki kısıtlamalar ve bağımsızlıklar olmadan Türkçe konuşma tanıma sisteminin yapısı verilmiştir. Kullanılan bu model, uçtan uca eğitilip konuşma tanıma sisteminin içerisinde bulunması gereken okunuş sözlüğü, dil modeli ve akustik model tek bir model kapsamında eğitilmiştir. Bu sayede, farklı modellerin birbirinden bağımsız olarak eğitilmesine gerek kalmayıp nihai sonucu iyileştirecek ve bütün bağımlılıkları göz önünde bulundurabilecek bir model tasarımı ve eğitimi yapılmıştır. Transfer öğrenme yöntemi kullanarak uçtan uca bir konuşma tanıma modeli daha az veriyle eğitilip yeterince iyi bir model elde edilmiştir.

Özet (Çeviri)

For decades, the main components of Automatic Speech Recognition (ASR) systems have been pronunciation dictionary and Hidden Markov Models (HMMs). HMMs assume conditional independence between its output and creating the pronunciation dictionary have a tedious and time consuming process. Additionally, training each of these models are independent with each other and there especially exists a disconnect between acoustic model accuracy and word error rate (Word Error Rate) of automatic speech recognition. Connectionist Temporal Classification (CTC) character models attempts to solve some of these issues by jointly learning the pronunciation and acoustic model as a single model. However, both HMM and CTC models suffer from conditional independence assumption and rely heavily on a large enough language model during decoding. In this thesis, we investigate the traditional paradigm of ASR and focus the limitations of HMM and CTC base speech recognition models. We propose an approach to ASR with neural attention mechanism models and we directly optimize speech transcriptions error rate in Turkish. The end-to-end recurrent neural network model jointly learns all the main components of a speech recognition system: the pronunciation dictionary, language model and acoustic model. We used transfer learning in our end-to-end architecture in order to training a good enough acoustic model using limited amount of transcribed speech data.

Benzer Tezler

Tez No
927368
Derin öğrenme tabanlı konuşma tanıma sistem tasarımı
Deep learning based speech recognition system design
BURAK KORCUKLU
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bursa Uludağ Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET EMİR DİRİK
Tez No
668199
Automatic speech recognition system adaptation for spoken lecture processing
Sözlü ders anlatımlarının işlenmesi için otomatik konuşma tanıma sisteminin uyarlanması
ENVER FAKHAN
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. MURAT SARAÇLAR
DR. ÖĞR. ÜYESİ EBRU ARISOY SARAÇLAR
Tez No
729816
Derin öğrenme mimarileri kullanılarak ayrık video görüntüleri üzerinden işaret dili tanıma
Isolated sign language recognition using deep learning architectures
CEMİL GÜNDÜZ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. HÜSEYİN POLAT
Tez No
856727
Derin konuşma ile Kur'an-ı Kerim'i hatalı okuma tespiti
Detecting incorrect reading of the Quran through deep talk
ABDULLAH TAHA GUMAR AL-DULAIMI
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kütahya Dumlupınar Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ PINAR ÖZEN KAVAS
Tez No
794117
Videodan derin öğrenme tabanlı duygu tanıma
Deep learning-based emotion recognition on video
ORHAN ATİLA
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Elektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı
PROF. DR. ABDULKADİR ŞENGÜR

Geri Dön