Geri Dön

CNN-based text-independent automatic speaker identification

Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama

  1. Tez No: 676399
  2. Yazar: MANDANA FASOUNAKI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ GÖKHAN İNCE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 79

Özet

İnsan sesi, parmak izi gibi bir biyometrik olarak kabul edilir. Bu nedenle insan-makine etkileşimi alanlarında kullanılmak üzere otomatik konuşmacı tanılama sistemleri geliştirilmektedir. Ancak, konuşma sırasında sesteki büyük değişkenlik ve ayrıca kanallardaki, kayıt cihazlarındaki, arka plan gürültüsündeki vb. değişkenlikler, otomatik konuşmacı tanılama problemini, tanılamayı diğer biyometriklerle yapmaya göre daha zorlu bir çalışma alanı haline getirmiştir. Finansal sistemlerde kimlik doğrulama, kişisel asistan cihazları, akıllı telefonlar, aktif ve pasif gözetim gibi otomatik konuşmacı tanılama kullanan uygulama ve sistemlerin sayısının artmasıyla bu alanda çok sayıda araştırma yapılmaktadır. Bu tezde metinden bağımsız otomatik konuşmacı tanılama problemi, derin öğrenmeye dayalı bir yaklaşım kullanılarak ele alınmıştır. Konuşmacı tanılama problemi için farklı koşullardaki veri kümeleri kullanılmaktadır. Veri setlerindeki konuşmacı sayısına ve ses kayıtlarının kalitesine bağlı olarak farklı yöntemler kullanılır. Ayrıca otomatik konuşmacı tanılama farklı kategorilere ayrılır. Örneğin metne bağlı veya metinden bağımsız konuşmacı tanılama sistemleri mecvuttur. Metne bağlı tanılamada konuşmacıların söyleyecekleri cümleler önceden bilinir, ancak metinden bağımsız konuşmacı tanılamada söylenecek cümleler konuşmacının insiyatifine bağlıdır ve önceden belirlenmez. Başka bir kategorazisyon ise açık küme ve kapalı küme olarak yapılır. Eğer test örneklerinin, eğitilmiş modelin daha önceden gördüğü konuşmacılardan birine ait olduğunu biliyorsak bu yöntem kapalı küme tanılamadır. Açık küme tanılamada ise, ilk başta test sesinin kayıtlı konuşmacılardan birine ait olup olmadığı tespit edilmelidir. Bu çalışmada, metinden bağımsız kapalı küme tanılama yöntemi ele alınmıştır. 1960'lardan beri bu alanda çeşitli araştırmalar yapılmaktadır. İlk çalışmalarda, istatistiksel yaklaşımlar kullanılarak, küçük veri kümeleri üzerinde otomatik konuşmacı tanılama sistemleri tasarlanmıştır. İlerlyen zamanlarda, daha çok sayıda konuşmacıyı destekleyen sistemler tasarlandı. Otomatik konuşmacı tanılama için önerilmiş en popüler yöntemlerden biri Gauss Karışımı Modeli-Evrensel Arka Plan Modelidir. Gauss karışımı modeli bir makine öğrenmesi metodudur ve genelde veri kümeleme için kullanılır. Bu model ve gelişmiş versiyonları yıllarca otomatik ses tanılama için kullanıldı. Bu yöntemin başarısının ardından, daha fazla oturumlar arası değişkenliği olan ve daha düşük kaliteli veri kümelerinde daha iyi performans gösteren i-vector yaklaşımı sunuldu. Ancak, veri kümesindeki konuşmacı sayısının artmasıyla bu yöntemlerin performanslarının düştüğü gözlemlendi. Son on yılda donanım teknolojilerindeki gelişmeler ve etiketli depolanmış verilerin birikmesi ile Derin Öğrenme yöntemleri, çoğu büyük ölçeklte tanılama, sınıflandırma ve bölümleme görevlerinde yeni son teknoloji haline geldi. Derin öğrenme yöntemlerinden biri olan Derin Evrişimli Yapay Sinir Ağları, başlangıçta görsel sınıflandırma için tasarlandı ve görüntü tabanlı girdilere uygun olarak uyarlandı. Bu modeller aynı zamanda ses tanılama görevlerinde de kullanılmaya başlandı. Evrişimli sinir ağlarının yanı sıra, tekrarlayan yapay sinir ağları da bu alanda kullanılmıştır ama sonuçlar, bu yöntemlerin daha düşük performans sergilediğini göstermektedir. Bilinen evrişimsel yapay sinir ağı mimarilerinde konuşmanın zamana bağlı yapısı göz ardı edilmiştir. Ayrıca, konuşmacı tanılama sistemlerinde ses örneklerinin uzunluğu büyük önem arzetmektedir. Çoğu sistemlerde, iyi bir performans elde etmek için minimum 3 saniyelik ses örneklerine ihtiyaç duyulur. Bu araştırmadaki amacımız 1 saniyelik ses örnekleriyle yüksek performans gösteren bir model tasarlamaktır. Dolayısıyla, hızlı tanılama gerektiren durumlar için uygun bir model yaratılmıştır. Bu çalışmada, kısa ifadelerden metinden bağımsız otomatik konuşmacı tanılama görevi için özel olarak tasarlanmış bir evrişimlsel yapay sinir ağı mimarisi önerilmiştir. Ayrıca, çeşitli konuşmacı tanılama yöntemleri farklı koşullara sahip üç veri kümesi üzerinde incelenmiş ve performanslar karşılaştırılmıştır. Deneysel veri kümelerinden biri, LibriVox projesinden sesli kitaplardan toplanan, 251 konuşmacı barındıran bir LibriSpeech alt kümesidir. Bu veri kümesi, 16kHz'de örneklenmiş 100 saatlik konuşma kaydı içerir. Bu kümedeki kayıtlarda sessiz bölümler yoktur ve veriler önceden temizlenmiştir, dolayısıyla ön işlemeye gerek duyulmamıştır. Diğer deneysel veritabanı, bir çağrı merkezinde kaydedilen görüşmelerden tarafımızdan toplanan sınırlı bir veri tabanıdır. Bu veri kümesi, bir çağrı merkezi için, gerçek hayat senaryolarından oluşan durumlarda otomatik konuşmacı tanılama sistemi oluşturma amacıyla toplanmıştır. Bu veri kümesi, saatlerce çağrı merkezi kaydına sahip olunmasından kaynaklanan depolama sorunları nedeniyle, 8kHz'de örneklenmiştir. Çağrı Merkezi veri setinde telefonların, cep telefonlarının ve kayıt cihazlarının kalite değişikliklerinden dolayı sinyal-gürültü oranı düşüktür, ve konuşma sinyalleri değişime uğramıştır. Deneysel üçüncü veri kümesi ise 1,251 konuşmacıyla VoxCeleb1 veri setidir. Bu veri kümesi ünlülerin YouTube videolarından toplanmıştır. Veriler, müzik, sohbet, alkış gibi aşırı gürültü içeren videolardan ve kontrolsüz ortamlarda toplanmıştır. Ayrıca, bazı kayıtlarda birden fazla konuşmacı bulunmaktadır. Dolayısıyla, bu veri seti konuşmacı tanılama alananında zorlayıcı bir veri kümesi olarak bilinmektedir, ve son yıllarda, otomatik konuşmacı tanılama sistemlerinin performans ölçümlerinde kullanılmaktadır. Erkek ve kadın konuşmacı sayısı her üç veri setinde dengelenmiştir. Bu veri setini hazırlamak için ilk başta 750 konuşmacının ses kayıtları incelenip, çok kısa ses kaydına sahip konuşmacılar, birden fazla kişinin sesini barındıran ve aşırı gürültülü kayıtlar elenip, 25 saniye ve üstü ses kaydına sahip konuşmacılardan oluşan bir veri kümesi elde edilmiştir. Kayıtlardaki sessiz kısımlar çıkarılıp, sadece müşterinin konuştuğu kısımlar kullanılmıştır. Bu veri kümesi 411 konuşmacı için 4 saatlik konuşma kaydı içerir. Önerilen model ve karşılaştırılmış diğer yöntemler bu üç veri kümesi üzerinde değerlendirilmiştir. Deneylerde kullanılan veri öznitelikleri, insanın işitsel algılama modelini taklit eden Mel-Frekans Cepstral Katsayılarıdır. MFCK'ler, konuşma sinyalinin ön işlenmesinden sonra çıkarılır. Sinyallere ilk başta ön vurgulanma yapılır, daha sonra sinyaller 25 milisaniyelik çerçevelere ayrılır ve Hanning window uygulanır. Çerçevelere Fast Fourier Transform uygulandıktan sonra, Mel filtre bankası kullanılarak MFCK'ler çıkarılır. Bu akustik öznitelikler kullanılarak modeller eğitilir. Önerilen model 11 katmanlı bir evrişimlsel yapay sinir ağıdır. Bu mimari genelde kullanılan evrişimli ağların aksine, konuşma sinyallerinin zamansal boyutunu değerlendirmek için uygun olarak tasarlanmıştır. Bu modelin ilk katmanındaki evrişimli çekirdekler, konuşma örneklerinde ardışık çerçeveleri kapsayan dikdörtgen şeklinde ağırlık matrisleridir. Bu özellik sayesinde, konuşma sinyalinin zamansal özellikleri de model tarafından ele alınmış olur. İlk katmandaki çekirdek sayıları 1024 dır ve her aşamada bir çerçeve ilerleyerek uygulanır. Böylelikle konuşma sinyalinin zamanla değişimi her evrişim aşamasında ilk katmanda kaydedilir. Sonraki katmanlar, öznitelik haritalarını sabit boyutlu bir vektör çıkarılıncaya kadar daha düşük boyutlu alanlara dönüştüren 1 boyutlu evrişimli çekirdekler içerir. 1 boyutlu çekirdekli katmanların sayısı, girdilerin boyutuna göre değişiklik gösterebilir. Bu katmanlardan çıkarılan özellik vektörü, modelin tam bağlantılı katmanları tarafından sınıflandırılır. Sınıflandırıcı bölümündeki atlama bağlantıları, bilgileri tam bağlantılı katmanları boyunca korumak için kullanılır. Son katmandaki nöron sayısı, konuşmacı sınıflarının sayısına eşittir. Bu çalışmalarda, verileri önceden normalize etmek yerine, orta katmanlarda olduğu gibi, ilk katmanda da toplu normalleştirme uygulanır. Modelin genelleme kapasitesini arttırmak amaçlı, yüksek dropout oranı, son katman hariç, bütün katmanlarda kullanılmıştır. Mevcut yöntemlerin çoğu, tanılama için minimum üç saniyelik ses örneklerine ihtiyaç duyarken, önerilen modelde, konuşmacılar 1 saniyelik ses bölütleri kullanılarak tanınabilmektedir. Veri kümelerini kullanıma hazırlamak için, eğitim, test ve doğrulama setleri olmak üzere üç bölüme ayrılmıştır. Modeller eğitim verisi üzerinde eğitilip, doğrulama setiyle doğrulanmıştır. Modellerin performansı, görülmemiş test seti kullanılarak değerlendirilmiştir. Çağrı merkezi setindeki veri miktarının sınırlı oluşu göz önünde bulundurularak, test setini hazırlamak için, her konuşmacı için 3 adet ortalama 3 saniyelik ses dosyaları ayrıldı. LibriSpeech kümesinde ise, her konuşmacıya 10 adet ortalama 10-15 saniyelik ses dosyaları kullanılarak test seti oluşturuldu. VoxCeleb setinde, test ses sayısı 7,972 iken, geliştirme setinde 140,638 ses dosyası mecvuttur. Kıyaslama deneylerinde, farklı konuşmacı tanılama yöntemlerinin performanslarını belirlemek için, üç farklı veri seti kullanılmıştır. Geleneksel yaklaşım olarak Gauss Karışım Modeli-Evrensel Arka Plan Modeli kullanılmıştır. Bu araştırmada önerilen model ile karşılarştırmak için kullanılan derin öğrenmeye dayalı yöntemler, Üçlü Sinir Ağları, Faktörlü Zaman Gecikmeli Sinir Ağları ve geleneksel bir evrişimli sinir ağıdır. Üçlü sinir ağları, otomatik konuşmacı tanılama görevinde ümit verici performans gösteren derin metrik öğrenmeye yönelik bir yaklaşımdır. Faktörlü zaman gecikmeli sinir ağı yaklaşımı şu anda konuşmacı tanılamada en son teknoloji olarak kabul edilmektedir. Geleneksel evrişimli sinir ağı ise yaygın bir derin öğrenme mimarisidir. Deneyler sonucunda, Çağrı Merkezi veri setindeki sınırlı veri miktarı nedeniyle derin öğrenme yöntemlerinin etkili olamadığı görülmüştür. Bu veri kümesinde Gauss Karışım Modeli-Evrensel Arka Plan Modeli'nin, derin ağ mimarilerine göre daha iyi performans gösterdiği gözlemlenmiştir. Önerilen modelin LibriSpeech veri kümesinde, diğer yöntemlerden daha iyi performans gösterdiğini gözlemledik. Bu model, konuşmacıları 1 saniyelik ses örneklerini kullanarak %99.5 doğrulukta tahmin etmiştir. 3 saniyelik konuşma örnekleri sağlandığında ise başarı oranı %99.8'e yükselmiştir. Önerilen model ile VoxCeleb üzerinde elde edilen doğruluk oranı %90'a ulaşmıştır. Önerilen modeldeki parametre sayısı 4,2 milyondur ve bu sayı, diğer derin sinir ağlarına kıyasla önemli ölçüde azalmıştır.

Özet (Çeviri)

Human voice is considered as a biometric, like fingerprint, but because of the vast variability in the voice during speaking, and also the variabilities in channels, recording devices, background noise, etc., the problem of automatic speaker identification remains a challenging field of study compared to that with other biometrics. In this thesis, the problem of text-independent automatic speaker identification is addressed using a deep learning-based approach. With the increasing number of applications and devices that use automatic speaker identification, such as active and passive surveillance, authentication in financial systems, personal assistant devices, and smartphones, several kinds of research are conducted in this field. In the preliminary studies, using statistical approaches, automatic speaker identification systems were designed for small datasets. One of the most popular methods for speaker identification was Gaussian Mixture Model-Universal Background Model. Following the success of this method, i-vector approach was presented, which outperformed GMM-UBM in datasets with more inter-session variability and lower quality. With increasing the number of speakers, the performance of these methods is declined. With the developments in hardware technologies during the last ten years and the accumulation of labeled stored data, Deep Learning methods had become the new state-of-the-art in most large-scale identification, classification, and segmentation tasks. Deep Convolutional Neural Networks were initially designed for image classification and are adapted to image-based inputs. These models are also used in voice identification tasks, but in the common convolutional architectures, the time-related or temporal nature of speech is disregarded. In this study, a convolutional neural network architecture is proposed that is specifically designed for the task of automatic speaker identification from short utterances. Also, various speaker identification methods are studied and the performances are compared on three datasets with different conditions. One of the experimental datasets is a subset of LibriSpeech with 251 speakers, gathered from read audiobooks from the LibriVox project. This dataset contains 100 hours of speech, sampled at 16kHz. The other experimental database is a limited dataset, gathered by us from the recorded conversations from a call center. In the beginning, 750 speakers' conversations were inspected in order to remove the voice recordings with less than 25 seconds, and the recordings with more than one speaker were eliminated. Also, the silent parts of the data were removed. The final dataset contains 4 hours of speech for 411 speakers, sampled at 8kHz. Low sampling rate is because of the storage concerns, due to having countless hours of call center recordings. In Call Center dataset, the signal-to-noise ratio is low and the speech signals are deteriorated due to the quality of the telephones, cellphones, and recording devices. The final dataset is VoxCeleb1, with 1,251 speakers. The data are gathered in uncontrolled conditions from YouTube videos, that contain excessive noise, such as music, chatter, clapping, multiple speakers, etc. The number of male and female speakers is balanced in all datasets. The acoustic features used in the experiments are Mel-frequency Cepstral Coefficients, which are known to imitate human auditory perception pattern. MFCCs are extracted after pre-processing the speech signals. The signals are pre-emphasized, then the signal is framed into 25 ms partitions with 15 ms overlap. Hanning window is applied to the frames, and after applying Fast Fourier Transform to the frames, MFCCs are extracted. The proposed architecture is an 11-layer CNN, where the convolutional kernels in the first layer are rectangular weight matrices that cover consecutive frames in the speech instance. The following layers contain 1-dimensional kernels that transform the feature maps to lower-dimensional spaces, until a fixed-size vector is extracted by the convolutional layers. The extracted embedding is classified by the fully connected layers of the network. Skip connections are used in the classifier part to preserve the information throughout the dense neural layers. The number of neurons in the final layer is equal to the number of speakers classes. Most of the existing methods use voice instances with a minimum duration of three seconds for identification. In the proposed model, the speakers are able to be identified using 1-second voice segments. The datasets were divided into three partitions; training, test, and validation. The models were trained on training data and validated on the validation set. The performances of the models were evaluated using the unseen test set. In the benchmarking tests, we employed different methods for automatic speaker identification to determine the performances on two contrasting datasets. GMM-UBM was used as the traditional approach. The deep learning-based methods utilized in this research are Triplet Neural Network, Factorized Time Delay Neural Network, and a conventional convolutional neural network. Triplet neural network is an approach to deep metric learning, which shows promising performance in the speaker recognition task. Factorized Time-Delay Neural Network approach is currently considered state-of-the-art in speaker recognition. The conventional convolutional neural network is a common deep learning architecture. Due to the limited amount of data in Call Center dataset, deep learning methods were not effective. On this dataset, GMM-UBM outperforms deep network architectures. We observed that the proposed CNN outperforms other methods on LibriSpeech and VoxCeleb datasets. This model predicted the speakers using 1-second voice segments with 99.5% accuracy on LibriSpeech. When 3-second speech instances were provided, the accuracy increased to 99.8%. The achieved top-1 accuracy by the proposed model on VoxCeleb1 is 90.0%, and top-5 accuracy is 97.1%. The number of parameters in the proposed model is 4.2 million, which is significantly reduced compared to other deep neural networks.

Benzer Tezler

  1. Fingertip electrocardiogram and speech signal based biometric recognition system

    Parmak ucu elektrokardiyogram ve ses sinyali tabanlı biyometrik tanıma sistemi

    GÖKHAN GÜVEN

    Doktora

    İngilizce

    İngilizce

    2021

    BiyomühendislikIşık Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ÜMİT GÜZ

    PROF. DR. HAKAN GÜRKAN

  2. Sentiment classification of arabic tweets using a novel learning sentiment-specific word embedding technique

    Yeni bir duygu-odaklı kelime gömme tekniği kullanarak arapça tvitlerin duygu sınıflandırması

    HALA MULKI

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İSMAİL BABAOĞLU

  3. A novel approach to improve cyber security of consumer used connected vehicles

    Başlık çevirisi yok

    NAMEER FADHIL NEAMAH AL ZEYADI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ OĞUZ KARAN

  4. Deep learning based Turkish video indexing and retrieval system

    Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi

    JAWAD RASHEED

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AKHTAR JAMIL

  5. Makine öğrenmesi kullanarak doküman sınıflandırma

    Document classification using machine learning

    GÜLER ALPARSLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. MAHİR DURSUN