Design of speaker diarization with speaker embeddings
Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı
- Tez No: 639621
- Danışmanlar: DOÇ. DR. AHMET SERBES, DOÇ. DR. GÖKHAN BİLGİN
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Telekomünikasyon Bilim Dalı
- Sayfa Sayısı: 78
Özet
Son yıllarda konuşma verilerinin aşırı büyümesi sonucu ses işleme alanında bu verilerin analiz edilmesi için çözüm yolları aranmaya başlamıştır. Kontrollü belgelemeler dışında, bir konuşma dosyasında yalnızca bir konuşmacı olmasını ayarlamak zordur. Bu durumlarda, aynı konuşmacıya ait konuşma bölütlerini etiketliyen konuşmacı günlükleme işlemi yapılır. Bu işlem konuşmacıların kimliği ve kaç konuşmacı olduğu hakkında bilgi sahibi olmadan gerçekleştirilebilir. Konuşmacı günlükleme problemi üç ana modülden oluşmaktadır: i) konuşma bölütleme, ii) konuşmacı temsili ve iii) kümeleme. Bu çalışmada günlükleme modülleri için makine öğrenmesi ve derin öğrenme algoritmaları ile çözüm önerileri sunacağız. Konuşmacı kimliklendirme için ise vektör katıştırma metodları incelenecek. Son olarak ise kümeleme algoritması uygulanacak ve aynı konuşmacıya ait bölütler bir küme olarak tanımlanacaktır. Konuşma bölütleme işlemi sırasında, konuşma dosyası için günlükleme işlemi yapılırken öncelikle konuşmanın geçtiği zaman dilimleri tespit edilir. Sessizlik alanları görmezden gelinir. Konuşma bölütlerini bulmak için konuşma etkinlik tespit sistemi tasarlanır. Bu sistem ses çerçeveleri için konuşma/konuşma değil olmak üzere ikili sistemde bir sınıflandırma yapar ve konuşma sinyali içeren çerçeveler tespit edilir. Konuşmacı kimliklendirme modülü her bölüt için kişiye özel bilgiler içeren vektörler çıkarır. Konuşmacı tanıma alanında makine öğrenmesi tabanlı i-vektörler önemli bir kilometre taşıdır. Bu alanda daha sonra derin öğrenme tabanlı metodlarla daha iyi başarımlar sağlanmıştır. Konuşmacı tanıma alanında kullanılan bu algoritmalar aynı şekilde konuşmacı günlükleme problemine de uygulanmıştır. Bu gelişmeler problem için daha başarılı sonuçlar elde edilmesini sağlamıştır. Bu çalışma kapsamında LSTM tabanlı d-vektörler ve zaman-gecikmeli derin sinir ağı tabanlı x-vektörler incelenmiştir. Daha sonrasında bu iki vektörün birleşiminden oluşan xd-vektörleri ile sistem test edilmiştir. Kümeleme aşamasında her bölüt için çıkarılan ve bölütün konuşmacısına ait bilgiler içeren temsil vektörleri giriş olarak kullanılır. Bölütlerin birbirine benzerliğini ölçmek için her bölüt arasında benzerlik skoru üretilir. Daha sonra her bölüt için çıkarılan bu benzerlik skoru vektörleri kümelenir. Bu çalışmada konuşmacı sayısının bilindiği ve bilinmediği durumar incelenecektir. Kümeleme için parametre olarak konuşmacı sayısı veya eşik değeri tanımlanmalıdır. Kümeleme için yığınsal hiyerarşik kümeleme metodu kullanılmıştır. Daha sonrasında kümeleme çıktıları üzerinde iyileştirme yapmak için yeniden bölütleme işlemi yapılır. Bu işlem için değişimsel bayes yöntemi kullanılmıştır. Bu tez kapsamında, günlükleme modülleri için kullanılan farklı yöntemlerin performans karşılaştırması yapılmıştır. Bu problem için kullanılan hata metriğinin adı günlükleme hata oranı'dır ve üç değerden oluşmaktadır; yanlış alarm, bölüt kaybı ve konuşmacı hatasıdır.
Özet (Çeviri)
In recent years, the amount of speech data has increased greatly with the development and spread of technology. Other than controlled filing, it is hard to make sure there is one speaker in an audio file. In these situation, the speaker diarization, is needed for labeling the identity of the speaker of the speech segments. This process does not need any information about the identity of the speakers. It can also be accomplished without knowing the number of speakers in the recorded speech. The speaker diarization system consists of three main modules: i) speech segmentation, ii) speaker representations, and iii) clustering. In this study, different solution techniques for diarization modules through machine learning and deep learning algorithms are examined and implemented. The speaker representations are investigated via vector embedding methods. Finally, the clustering algorithm is applied to collect segments of the same speaker. The time boundaries of the speech segments are determined, and the silent gaps are ignored during the segmentation process. Voice activity detection system gets designed to find speech segments. This system makes binary classification for speech frames as speech/nonspeech, and frames containing the speech signal are detected. The speaker representation module produces vectors containing speaker-specific information for each speech segment. Machine-learning based i-vectors are an important milestone in the speaker recognition field. Subsequently, better achievements are obtained with the advancement of deep learning-based methods. These algorithms used in speaker recognition are applied to the speaker diarization problem in the same way. These developments also ensured having successful results for diarization problem. This study examines deep learning-based d-vectors and x-vectors and tests the system with xd-vectors consisting of a fusion of these two vectors. In the clustering stage, the representation vectors which have been generated for each speech segment and contain information about the segment's speaker are used as an input. In order to measure the similarity of the segments, a similarity score is generated between each segment. Then the similarity score vectors generated for each segment are clustered. In this study, the situations with the known and the unknown number of speakers will be examined. As a parameter for clustering the number of speakers or the threshold value should be defined. The agglomerative hierarchical clustering method was used for clustering. Then, re-segmentation was performed to improve cluster outputs. The variational bayes method was used for this process. In this thesis, performance comparisons of different diarization techniques are realized. The error metric used for this problem is diarization error rate (DER) and it consists of three values; false alarm, missed segment, and speaker error.
Benzer Tezler
- Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması
Implementation of a D-vector based speaker diarization system using hybrid voice activity detection
YUNUS KORKMAZ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYTUĞ BOYACI
- Design of robust speaker idintification with built-in noise immunity
Gürültü ayırıma özellikli hoparlör tasarımı
ALI NAJDET NASRET CORAN
Doktora
İngilizce
2021
Elektrik ve Elektronik MühendisliğiÇankaya ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. HAYRİ SEVER
DR. ÖĞR. ÜYESİ MURAD MOHAMMED AMIN
- Konser salonlarının akustik ve elektroakustik performans değerlendirmesinde parametrelerin karşılaştırılması
Comparison of the parameters in acoustic and electroacoustic performance evaluation of the concert halls
OZAN KUTLUK
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimDokuz Eylül ÜniversitesiMüzik Bilimleri ve Teknolojisi Bilim Dalı
PROF. DR. FERİDUN ÖZİŞ
- Text dependent speaker verification system design on TMS320C54X fixed point digital signal processor
TMS320C54X sabit noktalı sayısal işlemci üzerinde metin bağımlı konuşmacı onaylama sistemi
TANER KOLÇAK
Yüksek Lisans
İngilizce
2001
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MÜBECCEL DEMİREKLER
- Computer aided design of an adaptive digital filter and its application to signal processing
Bilgisayar destekli uyarlamalı sayısal süzgeç tasarımı ve onun işaret işlemeye uygulanması
ERGUN ERÇELEBİ
Doktora
İngilizce
1999
Elektrik ve Elektronik MühendisliğiGaziantep ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ARİF NACAROĞLU