Voice recognition system with score level fusion methods and embedded system design
Skor seviyesi füzyon metotları ile ses tanıma sistemi ve gömülü sistem tasarımı
- Tez No: 553703
- Danışmanlar: DOÇ. MÜRVET KIRCI
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Elektronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 81
Özet
İnsanların fiziksel özellikleri ve davranışsal özelliklerini kullanarak gerçeklenen otomatik tanıma sistemlerine biyometri tabanlı tanıma sistemi denir. Biyometrik sistemlerin tasarımı için kullanılan fiziksel ve davranışsal özellikler her insanda farklıdır. Biyometrik sistemlerde en çok kullanılan özellikler, ayırt edici olmasından dolayı ses, yüz, parmak izi, kulak, avuç içi, DNA, iris, imza ve yürüyüş gibi fiziksel ve davranışsal özelliklerdir. Teknolojinin gelişmesiyle birlikte insanların internet üzerinden gerçekleştirdiği işlemlerinin sayısı gün geçtikçe artmaktadır. Bu işlemleri online bankacılık işlemleri, elektronik posta alma-gönderme işlemleri, sosyal medya erişim işlemleri olarak sıralayabiliriz. Bu işlemlerin kullanımı arttıkça da güvenlik açıkları artmaya başlamıştır. Güvenlik açıklarını engellemek için sistemlerin daha üst düzey güvenlik seviyesine ulaşması gerekmektedir. Bunlar gibi online hizmetler için daha önceden şifreli giriş sistemleri kullanılıyorken güvenlik seviyelerini artırmak için ya da insanların şifrelerini ezberleme güçlüklerini ortadan kaldırmak için, günümüzde yüz tanıma, parmak izi tanıma, iris tanıma, ve ses tanıma gibi biyometrik tanıma sistemlerine geçiş başlamıştır. Biyometrik sistemlerin tarihçesine bakıldığında ilk olarak kullanılan sistemin parmak izi tanıma olduğu görülmektedir. 1880'li yıllarda parmak izinin her insan için farklı olduğu anlaşılmıştır ve 1892 yılında da Arjantin'de parmak izi ile bir cinayet çözülmüştür. Biyometrik sistemlerin kullanılmasıyla insanların şifrelerini unutması veya çaldırması gibi sorunlar ortadan kalkacaktır, gelişen ve ucuzlayan elektronik sistemler sayesinde mobil cihazlara uyumlu hale gelecektir ve kişiye özgü anahtarlar olduğu için de kopyalanmayacaktır ve bu yüzden güvenlik seviyesi yüksektir. Biyometri tabanlı tanıma sistemlerinden biri olan ses tanıma sistemi üzerine ilk çalışmalar 1952 yılında Bell Laboratuvarı'nda yapılmıştır. Audrey olarak adlandırılan bu sistem sadece bir kişinin sesinden kaydedilen 10 tane rakamı tanıma özelliğine sahiptir. Daha sonra Amerika Birleşik Devletleri Savunma Bakanlığı ve farklı kuruluşlar tarafından çalışmalar yapılmış ve yeni sistemler geliştirilmiştir. 2010 yılında Google tarafından geliştirilen Voice Search ile insanlar sesli komutlarla internetten istedikleri bilgiye ulaşabilmiştir. 2012 yılında ise Apple'ın geliştirdiği Siri ile insanlar mobil cihazlardaki bir çok özelliği sesli komutlarla kullanabilmiştir. Ses tanıma uygulamaları gün geçtikçe daha da kullanılır hale gelmekte ve uygulamaları artmaktadır. Bu tezde işitsel ve görsel olarak ayırt edilmesi güç olan ikizler üzerinde geliştirilen bir ses tanıma sistemi MATLAB ve Python programlarını kullanarak ses tanıma sisteminin gerçekleştirilmesi amaçlanmıştır. İlk bölümde farklı algoritmalarla elde edilen sonuçlar analiz edilmiştir. İkinci bölümde ilk bölümde kullanılan algoritmalardan en başarılı algoritmanın kullanılmasıyla bir gömülü sistem tasarımı gerçekleştirilmiştir. Veri seti olarak İşitsel-Görsel İkizler Veritabanı (Audio-Visual Twins Database (AVTD)) kullanılmıştır. Bu veri setinin seçilmesinin amacı ise birbirine benzer karakteristiğe sahip olan ikizler üzerinde ses tanıma algoritmalarının başarı oranlarını incelemektir. 39 ikiz çiftten oluşan veri setinde 78 kişi bulunmaktadır. AVTD veri tabanında kişilerin ses kayıtları ve yüz görüntüleri bulunmaktadır. Bu çalışma için veri setinden bulunan ve her kişinin 1'den 10'a kadar saydığı ses kayıtları kullanılmıştır. 34 ikiz çiftin ses kayıtları Çince iken 5 ikiz çiftin ses kayıtları da İngilizce'dir. Ses tanıma sistemi için gerekli olan özellik vektörleri Mel Frekansı Kepstral Katsayıları (Mel Frequency Cepstral Coefficients(MFCC)) algoritması ile elde edilmiştir. MFCC insan sesinin karakteristiğini en iyi analiz edebilecek bir yöntem olduğu için bu algoritma seçilmiştir. Sınıflandırma için Dinamik Zaman Bükmesi (Dynamic Time Warping(DTW)), k-En Yakın Komşuluk (k-Nearest Neighborhood (k-NN)) ve Uzun-Kısa Süreli Bellek (Long Short Term Memory (LSTM)) algoritmaları kullanılmıştır. Bu algoritmaların tanıma oranları karşılaştırılmıştır. MFCC-DTW yöntemi ile yapılan sınıflandırma için 13 tane mel frekansı kepstral katsayısı kullanılmıştır. Başarı oranını artırmak için ses kayıtlarındaki sessiz bölgeler çıkartılmıştır. DTW algoritması sesin zamandaki bağımlılığını ortadan kaldırarak iki ses arasındaki minimum öklid uzaklığı ile benzerlik bulan bir algoritmadır. Bir kişi aynı cümleyi farklı zamanlarda söylediğinde konuşma hızından dolayı ses sinyali zaman ekseninde kayabilir. Bunun gibi zamana bağlı dizilerde DTW algoritması iyi sonuçlar verebilmektedir. MFCC-kNN yönteminde MFCC-DTW yöntemindeki gibi zamandaki bağlılık ortadan kaldırılamaz. Bu yüzden bu yöntemde tüm ses kaydını kullanmak yerine cümle içindeki“2”rakamı kullanılmıştır. 13 tane mel frekansı kepstral katsayısı kullanılmıştır. Sınıflandırma işlemi için k değeri 2 olarak belirlenmiştir. MFCC-LSTM yönteminde de MFCC-kNN yönteminde kullanılan sadece“2”rakamının bulunduğu ses kayıtları kullanılmıştır. Eğitim setinde daha fazla ses kaydı olması başarı oranını artırmaktadır fakat eğitim setinde iki tane ses kaydı olduğu için diğer yöntemlere göre daha az başarılı bir yöntem olmuştur. Eğitim setinde bulunan iki adet ses kaydı filtreleme işlemleri ile on adet ses kaydı elde edilmiştir. Test için kullanılan ses kaydı da filtreleme işlemlerinden geçirildikten sonra üç adet ses kaydı elde edilmiştir. Bu şekilde başarı oranını artırmak amaçlanmıştır. Bu çalışmada üç tane sınıflandırma algoritması kullanılmıştır. Her bir yöntem için ayrı olarak başarı skorları ve tanıma oranları elde edilmiştir. Bu çalışmada kullanılan veri seti ikizlerden oluşmaktadır ve insanların ikizleriyle özellikleri birbirleriyle farklı olmasına rağmen çok benzerdir. Bu şekildeki veri setlerindeki tek yöntem başarılı bir tanıma sonucu için yeterli olmayabilir. Başarı oranını artırmak için de farklı füzyon yöntemleri ile başarı oranları artırılabilir. Bu tez çalışmasında elde edilen sonuçlara dört farklı füzyon yöntemi uygulanarak başarı oranlarını artırmak amaçlanmıştır. Füzyon yöntemleri olarak klasik füzyon, hiyerarşik füzyon, kaskat füzyon ve hibrit füzyon yöntemleri kullanılmıştır. Yapılan çalışmalar sonucunda farklı algoritmalar ile birlikte füzyon yöntemleri kullanarak ses tanımaya dayalı bir biyometrik tanıma sistemi ile başarılı sonuçlar alınabileceği görülmektedir. İlk bölümde biyometrik sistemlerden, ses tanıma çalışmalarının tarihçesinden ve tezde kullanılan veri setinden bahsedilmiştir. İkinci bölümde ses sinyalinin özellik vektörlerinden, kepstral katsayıları elde etmek için yapılacak işlemlerden bahsedilmiştir. Üçüncü bölümde sınıflandırma algoritmalarından bahsedilmiştir. Sınıflandırma algoritmaları olarak Dinamik Zaman Bükmesi, k-En Yakın Komşuluk, Destek Vektör Makineleri, Yapay Sinir Ağları ve Uzun-Kısa Süreli Bellek algoritmalarından bahsedilmiştir. Ayrıca bu sistemde kullanılan dört farklı füzyon metotlarından da bahsedilmiştir. Dördüncü bölümde, üç farklı algoritma ile eşleşme skorlarının, tanıma oranlarının ve eşleşme skorlarının uygulanan füzyon yöntemlerinden bahsedilmiştir. Beşinci bölümde en iyi sonucu veren algoritma seçilerek konuşmacı doğrulaması yapan bir gömülü sistem tasarımından bahsedilmiştir. Son olarak da altıncı bölümde çalışmaların sonucunun değerlendirmesi ve gelecekte yapılabilecek çalışmalardan ve iyileştirme yöntemlerinden bahsedilmiştir.
Özet (Çeviri)
Automatic recognition system which is based on the physical and behavioral characteristics of people is called as biometry. Voice, face, fingerprint, ear, palm, DNA, iris and signature are mostly used as physical and behavioral characteristics. With the development of technology, people makes much more operations via internet. We can list these operations as online banking operations, e-mail send/receive and social media access operations. As a result of the these operations' increment, security bugs are increasing. Biometric recognition systems can be used to prevent both security bugs and to eliminate the need to memorize people's passwords. With these advantages of biometry, these systems will be used more in the future. Based on the history of biometric systems, first biometric system which was used, is fingerprint recognition. The fingerprint was found to be different for each person in 1880s and in 1892 a murder was solved in Argentina by using fingerprint. With the use of biometric systems, problems such as forgetting or stealing people's passwords will be eliminated, they will become compatible with mobile devices with the developing and inexpensive electronic systems and will not be copied because they are personal keys and therefore the security level is high. The first studies on the voice recognition system were done in 1952 at the Bell Laboratory. This system, which was called Audrey, had the ability of recognizing 10 numbers recorded from only one person's voice. Then the United States of America Department of Defense and different organizations have worked on voice recognition systems and developed new systems. In 2010, Google developed Voice Search that people can access the information they need via voice commands. In 2012, Apple developed Siri that people can use many features on mobile devices via voice commands. Voice recognition applications are becoming more popular and the number of applications are increasing. In this thesis, it is aimed to realize voice recognition system using MATLAB and Python programs, which is a voice recognition system developed on twins which are difficult to distinguish visually and auditory. The first stage is to analyze the results of different algorithms. The second stage is to design an embedded system with the best algorithm which is analyzed in the first part. Audio-Visual Twins Database (AVTD) is used for voice records and it consists of 39 twin pairs of 78 people. The purpose of selecting this data set is to examine the recognition rates of voice recognition algorithms on twins with similar characteristics. In AVTD, there are voice records and face images of people. Each person says“1,2,3,4,5,6,7,8,9,10”in Chinese or English. 34 twins' voice records are in Chinese and 5 twins' voice records are in English. Feature matrices of voice signals are obtained by using Mel Frequency Cepstral Coefficients (MFCC) algorithm. Because MFCC is the best way to analyze the characteristics of human voice. Dynamic Time Warping (DTW), k-Nearest Neighbors (k-NN) and Long Short-Term Memory (LSTM) algorithms are used for classification and the results of these algorithms are compared. Success score and recognition rates are obtained for each classification algorithm and four different fusion methods are applied to classification results to increase recognition rate. Classical fusion, hierarchical fusion, cascade fusion and hybrid fusion methods are applied. As a result of the studies, it is seen that successful results can be obtained with a biometric recognition system based on voice recognition by using fusion methods with different algorithms. In the first chapter, the history of biometric systems and voice recognition studies are mentioned. In the second chapter, it is mentioned the removal of the feature vector of the sound signal and the procedures to obtain the Mel Frequency Cepstral Coefficients. In the third chapter classification algorithms and fusion methods are mentioned. Dynamic Time Warping, k-Nearest Neighborhood, Neural Networks and Long-Short Term Memory algorithms are mentioned. In the fourth chapter, matching scores and recognition rates of three different algorithms and also fusion methods which are applied to the matching scores are mentioned. In the fifth chapter a one algorithm voice verification embedded system design is mentioned. Finally, in the sixth chapter, the results of the studies are evaluated. Future studies and improvement methods are mentioned.
Benzer Tezler
- Akustik ve prosodik özniteliklere dayalı olarak konuşmacıların yaş ve cinsiyet grubuna göre sınıflandırılması
Classification of speakers based on acoustic and prosodic features according to age and gender groups
ERGÜN YÜCESOY
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. VASIF NABIYEV
- Türkçe hedef tabanlı duygu analizi için alt görevlerin incelenmesi–hedef terim, hedef kategori ve duygu sınıfı belirleme
Inspecting sub tasks of aspect based sentiment analysis in Turkish language–opinion target expression, aspect category and sentiment polarity detection
FATİH SAMET ÇETİN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLŞEN ERYİĞİT
- İntörn hekimlerinin solunum ve kalp sesleri becerisinin kazandırılmasında mobil aplikasyonlu (smartsteo) kablosuz ses iletim sisteminin etkinliğinin değerlendirilmesi
Evaluation of the efficiency of wireless voice transmission system with mobile application (smartsteo) in gaining respiratory and heart sound skills of interns
SEYFETTİN KAZANIR
Yüksek Lisans
Türkçe
2022
BiyomühendislikAkdeniz ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN ÖZGÜR KAZANCI
YRD. DOÇ. DR. OKAN ORAL
- Gerçek zamanlı yüksek kalitede ses tanıma
Real time high quality voice recognition
MERT YILMAZ ÇAKIR
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YAHYA ŞİRİN
- Gerçek zamanlı sayısal görüntü işleme ve örüntü tanıma tekniklerinin araştırılması ve uygulanması
Investigation and implementation of real-time digital image processing and pattern recognition techniques
GHULAM SAKHİ SHOKOUH
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. REFİK SAMET