Uçtan-uca konuşma tanıma modeli: Türkçe'deki deneyler
End-to-end speech recognition model: Experiments in Turkish
- Tez No: 493886
- Danışmanlar: PROF. DR. HAYRİ SEVER, YRD. DOÇ. DR. ERHAN MENGÜŞOĞLU
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 126
Özet
Okunuş sözlüğü ve saklı markov modeli (Hidden Markov Model - HMM) yıllardır konuşma tanıma sistemlerinin en önemli iki parçası olarak bilinmekteler. HMM'ler çıktı olarak ürettikleri fonemler arasında bağımsızlık varsayımında bulunup, sözlükteki kelimelerin okunuşunu el yordamı ile oluşturmak da oldukça zaman alıcı bir süreçtir. Ayrıca bu modellerin eğitimi de birbirinden bağımsız yapılıp, bir modeldeki iyileşme her zaman konuşma tanıma sisteminin hata oranını düşürmemektedir. Son yıllarda, bağlantıcı zamansal sınıflandırma (Connectionist Temporal Classification - CTC) yöntemi bu sorunu kısmen çözmüş olup akustik model ile okunuş modelinin birlikte eğitilebilmesini sağlamıştır. Ancak hem HMM hem de CTC çözümleri, karakter/kelime çıktıları arasında bağımsızlık varsayımında bulunup, gerek akustik gerekse okunuş açısından uzun bağımlılıkları modelleyememekteler. Bu nedenden dolayı da, HMM ve CTC tabanlı sistemler her zaman güçlü bir dil modeline ihtiyaç duyup, dil modeli kullanmadan bu sistemlerdeki kelime hata oranı oldukça yüksek çıkmaktadır. Bu tezde, HMM tabanlı sistemlerin yapısı incelenip bu modellerin getirdiği kısıtlamalar anlatılmıştır. Odaklanma mekanizması (Attention Mechanism) ile çalışan bir tekrarlanan sinir ağı (Recurrent Neural Network - RNN) direkt sesi yazıya çevirmek için eğitilip, yukarıdaki kısıtlamalar ve bağımsızlıklar olmadan Türkçe konuşma tanıma sisteminin yapısı verilmiştir. Kullanılan bu model, uçtan uca eğitilip konuşma tanıma sisteminin içerisinde bulunması gereken okunuş sözlüğü, dil modeli ve akustik model tek bir model kapsamında eğitilmiştir. Bu sayede, farklı modellerin birbirinden bağımsız olarak eğitilmesine gerek kalmayıp nihai sonucu iyileştirecek ve bütün bağımlılıkları göz önünde bulundurabilecek bir model tasarımı ve eğitimi yapılmıştır. Transfer öğrenme yöntemi kullanarak uçtan uca bir konuşma tanıma modeli daha az veriyle eğitilip yeterince iyi bir model elde edilmiştir.
Özet (Çeviri)
For decades, the main components of Automatic Speech Recognition (ASR) systems have been pronunciation dictionary and Hidden Markov Models (HMMs). HMMs assume conditional independence between its output and creating the pronunciation dictionary have a tedious and time consuming process. Additionally, training each of these models are independent with each other and there especially exists a disconnect between acoustic model accuracy and word error rate (Word Error Rate) of automatic speech recognition. Connectionist Temporal Classification (CTC) character models attempts to solve some of these issues by jointly learning the pronunciation and acoustic model as a single model. However, both HMM and CTC models suffer from conditional independence assumption and rely heavily on a large enough language model during decoding. In this thesis, we investigate the traditional paradigm of ASR and focus the limitations of HMM and CTC base speech recognition models. We propose an approach to ASR with neural attention mechanism models and we directly optimize speech transcriptions error rate in Turkish. The end-to-end recurrent neural network model jointly learns all the main components of a speech recognition system: the pronunciation dictionary, language model and acoustic model. We used transfer learning in our end-to-end architecture in order to training a good enough acoustic model using limited amount of transcribed speech data.
Benzer Tezler
- Automatic speech recognition system adaptation for spoken lecture processing
Sözlü ders anlatımlarının işlenmesi için otomatik konuşma tanıma sisteminin uyarlanması
ENVER FAKHAN
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. MURAT SARAÇLAR
DR. ÖĞR. ÜYESİ EBRU ARISOY SARAÇLAR
- Derin öğrenme mimarileri kullanılarak ayrık video görüntüleri üzerinden işaret dili tanıma
Isolated sign language recognition using deep learning architectures
CEMİL GÜNDÜZ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. HÜSEYİN POLAT
- Derin konuşma ile Kur'an-ı Kerim'i hatalı okuma tespiti
Detecting incorrect reading of the Quran through deep talk
ABDULLAH TAHA GUMAR AL-DULAIMI
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKütahya Dumlupınar ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ PINAR ÖZEN KAVAS
- Videodan derin öğrenme tabanlı duygu tanıma
Deep learning-based emotion recognition on video
ORHAN ATİLA
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiElektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı
PROF. DR. ABDULKADİR ŞENGÜR
- Gerçek zamanlı Türkçe konuşma tanıma
Real-time Turkish speech recognition
EYÜP ENSAR KALAYCI
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ