Small vocabulary word and speaker recognition using artifical neural networks
Yapay sinir ağları kullanılarak sözcük ve konuşmacı tanıma
- Tez No: 65104
- Danışmanlar: DOÇ. DR. ETHEM ALPAYDIN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 1997
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Belirtilmemiş.
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 91
Özet
KISA ÖZET Bu çalışma bir konuşma ve konuşmacı tanıma sistemi oluşturulmasında iki değişik ses tanıma yöntemi kullanmaktadır. Birincisi k-Nearest Neighbor (kNN- k inci En Yakın Komşu) yöntemi, ikincisi de Artificial Neural Network (ANN - Yapay Sinir Ağı) yöntemidir. Bu iki yöntem, ses örneklerinin sınıflandırılmasında iki değişik yaklaşımı temsil eder. Sesin ayırdedici özelliklerini bulma işlemi sırasında ilk olarak Sessizlik Ayrıştırma Algoritmasından yararlanılmaktadır. Bu yöntemle örneklerin ses bilgisi taşımayan kısımları ayırdedilir ve dikkate alınmaz. Ses örnekleri Hamming penceresiyle parçalara bölünür ve her parça için Doğrusal Öngörü Katsayıları (LPC) hesaplanır. Bu katsayılar rakam ve konuşmacı tanıma aşamasında kNN ve ANN sınırlandırıcılarının girişinde kullanılmaktadır. Zaman eşleştirmesi için Dinamik Zaman Eşleştirmesi yöntemi kullanıldı. Böylece daha yüksek tanıma yüzdeleri elde edilmesi amaçlandı. Konuşmacı grubu 26 bayan ve 22 erkek konuşmacıdan oluşturuldu ve her konuşmacı her rakamı on kere tekrarladı. Toplam 4800 ses örneği toplandı. Bu örneker eğitim ve test kümelerine ayrıldı ve sistemlerin eğitim ve test aşamalarında kullanıldı. Konuşmacı-bağımlı ve konuşmacı-bağımsız test kümeleri için rakam ve konuşmacı tanıma testleri yapıldı. Sonuçlar çalışmanın Deneyler ve Sonuçlar bölümünde sunuldu.
Özet (Çeviri)
IV ABSTRACT This study comprises two different recognition methods in the building of a speech and speaker recognition system. The first is the k-Nearest Neighbor (kNN) method, and the second is the Artificial Neural Networks (ANN). These two methods represent two different approaches to the problem of classification of speech samples. The feature extraction phase consists of a pre-processing on samples which is based on the silence detection algorithm. Then the Linear Predictive Coefficients (LPC) are calculated and stored for each speech sample frame which are Hamming windowed. These coefficients are used in the distance measurements for the kNN recognizer and as inputs to the MLP classifier. The patterns are time-aligned using the dynamic time warping technique. The speaker corpus contains 26 female and 22 male speakers who have uttered each digit ten times, thus coming up with a total of 4800 utterances. This data set is divided into training, test and cross-validation sets. These sets were utilized in the training and testing of the kNN and ANN recognizers. Tests are performed with the speaker-dependent and speaker-independent test sets for digit and speaker recognition. The results are presented in the Experiments and Results section of the study.
Benzer Tezler
- Turkish dictation system for radiology and broadcast news applications
Radyoloji ve haber uygulamaları için Türkçe dikte sistemi
EBRU ARISOY
Yüksek Lisans
İngilizce
2004
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. LEVENT ARSLAN
- Türkçede ayrık konuşma tanımı
Başlık çevirisi yok
ERCAN ÖLÇER
Yüksek Lisans
Türkçe
1993
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiPROF. DR. EŞREF ADALI
- Computatinaly efficient voice dialling systems
İşlemsel olarak verimli sesle telefon çevirme sistemi
MUSTAFA HAKAN SOLMAZ
Yüksek Lisans
İngilizce
1998
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. A. ENİS ÇETİN
- Vocal control of an industrial robot manipulators
Endüstriyel robot manipulatörlerinin sesle kontrolü
HALİL SAİR DOĞAN
- Prefix suffix based statistical language models of Turkish
Türkçe'nin önek-sonek tabanlı istatistiksel modelleri
UMUT TOPKARA
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İLYAS ÇİÇEKLİ