Design and implementation of Turkish speech recognition engine

Türkçe konuşma tanıma sisteminin tasarımı ve gerçekleştirilimi

PDF İndir

Tez No: 244002
Yazar: RIFAT AŞLIYAN
Danışmanlar: PROF. DR. TATYANA YAKHNO
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2008
Dil: İngilizce
Üniversite: Dokuz Eylül Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Sayfa Sayısı: 181

Özet

Bu tezde, konuşmacıya bağımlı hece tabanlı Türkçe konuşma tanıma sistemi uygulamaları gerçekleştirilmiştir. Bu sistemlerde, konuşma tanıma yöntemlerinden Doğrusal Zaman Hizalama (DZH), Dinamik Zaman Bükmesi (DZB), yapay sinir ağlarından Çok Katmanlı Algılayıcı (ÇKA), Saklı Markov Modeli (SMM) ve Vektör Destek Makineleri (VDM) kullanılmıştır. Ayrık sözcük tanıma sistemi genel olarak önişleme, öznitelik çıkarılması, hecelerin eğitimi, tanıma ve önişleme süreçlerinden oluşmaktadır. Önişlemede, dijital sinyallerin düzleştirilmesi, pencereleme ve hece sınırların tespiti işlemleri yapılır. Hecelerin mfcc, lpc, parcor, cepstrum ve rasta öznitelikleri elde edildikten sonra ÇKA, VDM ve SMM kullanılarak eğitilir. Her yöntem için hece modelleri oluşturulur. Sözcük tanıma safhasında, tanınması istenen sözcüğün heceleri hece modelleri ile karşılaştırılır. En çok benzeyen heceler tespit edilip sıralandırılır. En çok benzeyen heceler birbirine eklenerek tanınan sözcük bulunur. Artişlemede ise bu tanınan sözcüğün Türkçe olup olmadığına bakılır. Eğer bu sözcük Türkçe ise tanıma işlemi biter. Fakat Türkçe değilse bir sonraki heceler eklenerek yeni sözcük oluşturulur. Bu işlemlere Türkçe sözcük bulunana kadar devam edilir. Bir sözcüğün Türkçe olup olmadığının tespiti için hece n-gram frekansları kullanılmıştır.Orta dağarcıklı konuşma tanıma sisteminin sözlüğünde 200 Türkçe sözcük bulunmaktadır. Her bir sözcük 10 defa kaydedilerek 2000 sözcüklü test veritabanı oluşturuldu ve test işlemi yapıldı. Sistemin başarımını ölçmek için sözcük hata oranı (word error rate) kullanıldı. Sözcük hata oranı, DZB için %5,8, ÇKA için %12, SMM için 17,4, DZH için %8,8 ve DVM için %9,2 olarak bulunmuştur. Artişleme, sistemin başarımını yaklaşık olarak %14 oranında artırmıştır.

Özet (Çeviri)

In this thesis, we have designed and implemented syllable based Turkish speech recognition systems based on Linear Time Alignment (LTA), Dynamic Time Warping (DTW), Artificial Neural Network (ANN), Hidden Markov Model (HMM) and Support Vector Machine (SVM). These speaker dependent and isolated word recognition systems consist of five main parts: Preprocessing, feature extraction, training, recognition and postprocessing. Preprocessing includes some operations such as speech signal smoothing, windowing and syllable end-point detection. In feature extraction, we have used speech features as mel frequency cepstral coefficients, linear predictive coefficients, parcor, cepstrum and rasta coefficients. In training stage for HMM, SVM and ANN, every syllable of the words in the dictionary is trained, and the syllable models are generated. In recognition stage, every syllable in the word utterence is compared with the syllable models. So, the recognized syllables are determined and ordered. Then, the recognized syllables are concatenated with each other. In postprocessing operation, we have developed the system which is based on Turkish syllable n-gram frequencies. The system decides whether the recognized word is Turkish or not. If the word is Turkish, then it is new recognized word.The system is middle scaled speech recognition because the system dictionary has 200 different Turkish words. After the system is tested on 2000 spoken words, we have seen that the word error rate of the system is about 5.8% for DTW, 12% for ANN, 8.8% for LTA, 17.4% for HMM and 9.2% for SVM with postprocessing. System recognition rate increased approximately 14% using postprocessing.

Benzer Tezler

Tez No
105575
Türkçe sesli ifade tanımada ses birim ve heceye dayalı çözümleme ve iyileştirmenin yapıldığı bir uzman sistemin tasarım ve gerçekleştirimi
Design and implementation of an expert system for analysis and optimization of Turkish speech recognition based on phoneme and syllable
SONER ERKAN YASAN
Yüksek Lisans
Türkçe
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HARUN ARTUNER
Tez No
84230
Bir Türkçe sesli ifade tanıma sisteminin kural tabanlı tasarımı ve gerçekleştirimi
Rule based design and implementation of a speech recognition system for Turkish language
ERHAN MENGÜŞOĞLU
Yüksek Lisans
Türkçe
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. HARUN ARTUNER
Tez No
34211
Bir türkçe fonem kümeleme sistemi tasarımı ve gerçekleştirimi
The Design and implementation of a Turkish speech phoneme clustering systems
HARUN ARTUNER
Doktora
Türkçe
1994
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ SAATÇİ
Tez No
105558
Sesbirim tabanlı Türkçe sesli ifade tanımada yazım hatası düzeltme sisteminin tasarımı ve gerçekleştirimi
Design and implementation of a spelling error correction system in phoneme based Turkish speech recognition
ALİ ÖZKAN ÖZEREN
Yüksek Lisans
Türkçe
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HARUN ARTUNER
Tez No
155334
Türkçe ses birimlerinin sınıflandırılması için bir bulanık sinir ağının tasarımı ve gerçekleştirimi
Design and implementation of a fuzzy neural network for Turkish phoneme classification
ETHEM ARKIN
Yüksek Lisans
Türkçe
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. HARUN ARTUNER

Geri Dön