Geri Dön

Design of speaker diarization with speaker embeddings

Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı

  1. Tez No: 639621
  2. Yazar: MUHAMMET MESUT TORUK
  3. Danışmanlar: DOÇ. DR. AHMET SERBES, DOÇ. DR. GÖKHAN BİLGİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilim ve Teknoloji, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Telekomünikasyon Bilim Dalı
  13. Sayfa Sayısı: 78

Özet

Son yıllarda konuşma verilerinin aşırı büyümesi sonucu ses işleme alanında bu verilerin analiz edilmesi için çözüm yolları aranmaya başlamıştır. Kontrollü belgelemeler dışında, bir konuşma dosyasında yalnızca bir konuşmacı olmasını ayarlamak zordur. Bu durumlarda, aynı konuşmacıya ait konuşma bölütlerini etiketliyen konuşmacı günlükleme işlemi yapılır. Bu işlem konuşmacıların kimliği ve kaç konuşmacı olduğu hakkında bilgi sahibi olmadan gerçekleştirilebilir. Konuşmacı günlükleme problemi üç ana modülden oluşmaktadır: i) konuşma bölütleme, ii) konuşmacı temsili ve iii) kümeleme. Bu çalışmada günlükleme modülleri için makine öğrenmesi ve derin öğrenme algoritmaları ile çözüm önerileri sunacağız. Konuşmacı kimliklendirme için ise vektör katıştırma metodları incelenecek. Son olarak ise kümeleme algoritması uygulanacak ve aynı konuşmacıya ait bölütler bir küme olarak tanımlanacaktır. Konuşma bölütleme işlemi sırasında, konuşma dosyası için günlükleme işlemi yapılırken öncelikle konuşmanın geçtiği zaman dilimleri tespit edilir. Sessizlik alanları görmezden gelinir. Konuşma bölütlerini bulmak için konuşma etkinlik tespit sistemi tasarlanır. Bu sistem ses çerçeveleri için konuşma/konuşma değil olmak üzere ikili sistemde bir sınıflandırma yapar ve konuşma sinyali içeren çerçeveler tespit edilir. Konuşmacı kimliklendirme modülü her bölüt için kişiye özel bilgiler içeren vektörler çıkarır. Konuşmacı tanıma alanında makine öğrenmesi tabanlı i-vektörler önemli bir kilometre taşıdır. Bu alanda daha sonra derin öğrenme tabanlı metodlarla daha iyi başarımlar sağlanmıştır. Konuşmacı tanıma alanında kullanılan bu algoritmalar aynı şekilde konuşmacı günlükleme problemine de uygulanmıştır. Bu gelişmeler problem için daha başarılı sonuçlar elde edilmesini sağlamıştır. Bu çalışma kapsamında LSTM tabanlı d-vektörler ve zaman-gecikmeli derin sinir ağı tabanlı x-vektörler incelenmiştir. Daha sonrasında bu iki vektörün birleşiminden oluşan xd-vektörleri ile sistem test edilmiştir. Kümeleme aşamasında her bölüt için çıkarılan ve bölütün konuşmacısına ait bilgiler içeren temsil vektörleri giriş olarak kullanılır. Bölütlerin birbirine benzerliğini ölçmek için her bölüt arasında benzerlik skoru üretilir. Daha sonra her bölüt için çıkarılan bu benzerlik skoru vektörleri kümelenir. Bu çalışmada konuşmacı sayısının bilindiği ve bilinmediği durumar incelenecektir. Kümeleme için parametre olarak konuşmacı sayısı veya eşik değeri tanımlanmalıdır. Kümeleme için yığınsal hiyerarşik kümeleme metodu kullanılmıştır. Daha sonrasında kümeleme çıktıları üzerinde iyileştirme yapmak için yeniden bölütleme işlemi yapılır. Bu işlem için değişimsel bayes yöntemi kullanılmıştır. Bu tez kapsamında, günlükleme modülleri için kullanılan farklı yöntemlerin performans karşılaştırması yapılmıştır. Bu problem için kullanılan hata metriğinin adı günlükleme hata oranı'dır ve üç değerden oluşmaktadır; yanlış alarm, bölüt kaybı ve konuşmacı hatasıdır.

Özet (Çeviri)

In recent years, the amount of speech data has increased greatly with the development and spread of technology. Other than controlled filing, it is hard to make sure there is one speaker in an audio file. In these situation, the speaker diarization, is needed for labeling the identity of the speaker of the speech segments. This process does not need any information about the identity of the speakers. It can also be accomplished without knowing the number of speakers in the recorded speech. The speaker diarization system consists of three main modules: i) speech segmentation, ii) speaker representations, and iii) clustering. In this study, different solution techniques for diarization modules through machine learning and deep learning algorithms are examined and implemented. The speaker representations are investigated via vector embedding methods. Finally, the clustering algorithm is applied to collect segments of the same speaker. The time boundaries of the speech segments are determined, and the silent gaps are ignored during the segmentation process. Voice activity detection system gets designed to find speech segments. This system makes binary classification for speech frames as speech/nonspeech, and frames containing the speech signal are detected. The speaker representation module produces vectors containing speaker-specific information for each speech segment. Machine-learning based i-vectors are an important milestone in the speaker recognition field. Subsequently, better achievements are obtained with the advancement of deep learning-based methods. These algorithms used in speaker recognition are applied to the speaker diarization problem in the same way. These developments also ensured having successful results for diarization problem. This study examines deep learning-based d-vectors and x-vectors and tests the system with xd-vectors consisting of a fusion of these two vectors. In the clustering stage, the representation vectors which have been generated for each speech segment and contain information about the segment's speaker are used as an input. In order to measure the similarity of the segments, a similarity score is generated between each segment. Then the similarity score vectors generated for each segment are clustered. In this study, the situations with the known and the unknown number of speakers will be examined. As a parameter for clustering the number of speakers or the threshold value should be defined. The agglomerative hierarchical clustering method was used for clustering. Then, re-segmentation was performed to improve cluster outputs. The variational bayes method was used for this process. In this thesis, performance comparisons of different diarization techniques are realized. The error metric used for this problem is diarization error rate (DER) and it consists of three values; false alarm, missed segment, and speaker error.

Benzer Tezler

  1. Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması

    Implementation of a D-vector based speaker diarization system using hybrid voice activity detection

    YUNUS KORKMAZ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYTUĞ BOYACI

  2. Design of robust speaker idintification with built-in noise immunity

    Gürültü ayırıma özellikli hoparlör tasarımı

    ALI NAJDET NASRET CORAN

    Doktora

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiÇankaya Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. HAYRİ SEVER

    DR. ÖĞR. ÜYESİ MURAD MOHAMMED AMIN

  3. Konser salonlarının akustik ve elektroakustik performans değerlendirmesinde parametrelerin karşılaştırılması

    Comparison of the parameters in acoustic and electroacoustic performance evaluation of the concert halls

    OZAN KUTLUK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimDokuz Eylül Üniversitesi

    Müzik Bilimleri ve Teknolojisi Bilim Dalı

    PROF. DR. FERİDUN ÖZİŞ

  4. Text dependent speaker verification system design on TMS320C54X fixed point digital signal processor

    TMS320C54X sabit noktalı sayısal işlemci üzerinde metin bağımlı konuşmacı onaylama sistemi

    TANER KOLÇAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2001

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MÜBECCEL DEMİREKLER

  5. Computer aided design of an adaptive digital filter and its application to signal processing

    Bilgisayar destekli uyarlamalı sayısal süzgeç tasarımı ve onun işaret işlemeye uygulanması

    ERGUN ERÇELEBİ

    Doktora

    İngilizce

    İngilizce

    1999

    Elektrik ve Elektronik MühendisliğiGaziantep Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ARİF NACAROĞLU