Design of speaker diarization with speaker embeddings
Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı
- Tez No: 639621
- Danışmanlar: DOÇ. DR. AHMET SERBES, DOÇ. DR. GÖKHAN BİLGİN
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Telekomünikasyon Bilim Dalı
- Sayfa Sayısı: 78
Özet
Son yıllarda konuşma verilerinin aşırı büyümesi sonucu ses işleme alanında bu verilerin analiz edilmesi için çözüm yolları aranmaya başlamıştır. Kontrollü belgelemeler dışında, bir konuşma dosyasında yalnızca bir konuşmacı olmasını ayarlamak zordur. Bu durumlarda, aynı konuşmacıya ait konuşma bölütlerini etiketliyen konuşmacı günlükleme işlemi yapılır. Bu işlem konuşmacıların kimliği ve kaç konuşmacı olduğu hakkında bilgi sahibi olmadan gerçekleştirilebilir. Konuşmacı günlükleme problemi üç ana modülden oluşmaktadır: i) konuşma bölütleme, ii) konuşmacı temsili ve iii) kümeleme. Bu çalışmada günlükleme modülleri için makine öğrenmesi ve derin öğrenme algoritmaları ile çözüm önerileri sunacağız. Konuşmacı kimliklendirme için ise vektör katıştırma metodları incelenecek. Son olarak ise kümeleme algoritması uygulanacak ve aynı konuşmacıya ait bölütler bir küme olarak tanımlanacaktır. Konuşma bölütleme işlemi sırasında, konuşma dosyası için günlükleme işlemi yapılırken öncelikle konuşmanın geçtiği zaman dilimleri tespit edilir. Sessizlik alanları görmezden gelinir. Konuşma bölütlerini bulmak için konuşma etkinlik tespit sistemi tasarlanır. Bu sistem ses çerçeveleri için konuşma/konuşma değil olmak üzere ikili sistemde bir sınıflandırma yapar ve konuşma sinyali içeren çerçeveler tespit edilir. Konuşmacı kimliklendirme modülü her bölüt için kişiye özel bilgiler içeren vektörler çıkarır. Konuşmacı tanıma alanında makine öğrenmesi tabanlı i-vektörler önemli bir kilometre taşıdır. Bu alanda daha sonra derin öğrenme tabanlı metodlarla daha iyi başarımlar sağlanmıştır. Konuşmacı tanıma alanında kullanılan bu algoritmalar aynı şekilde konuşmacı günlükleme problemine de uygulanmıştır. Bu gelişmeler problem için daha başarılı sonuçlar elde edilmesini sağlamıştır. Bu çalışma kapsamında LSTM tabanlı d-vektörler ve zaman-gecikmeli derin sinir ağı tabanlı x-vektörler incelenmiştir. Daha sonrasında bu iki vektörün birleşiminden oluşan xd-vektörleri ile sistem test edilmiştir. Kümeleme aşamasında her bölüt için çıkarılan ve bölütün konuşmacısına ait bilgiler içeren temsil vektörleri giriş olarak kullanılır. Bölütlerin birbirine benzerliğini ölçmek için her bölüt arasında benzerlik skoru üretilir. Daha sonra her bölüt için çıkarılan bu benzerlik skoru vektörleri kümelenir. Bu çalışmada konuşmacı sayısının bilindiği ve bilinmediği durumar incelenecektir. Kümeleme için parametre olarak konuşmacı sayısı veya eşik değeri tanımlanmalıdır. Kümeleme için yığınsal hiyerarşik kümeleme metodu kullanılmıştır. Daha sonrasında kümeleme çıktıları üzerinde iyileştirme yapmak için yeniden bölütleme işlemi yapılır. Bu işlem için değişimsel bayes yöntemi kullanılmıştır. Bu tez kapsamında, günlükleme modülleri için kullanılan farklı yöntemlerin performans karşılaştırması yapılmıştır. Bu problem için kullanılan hata metriğinin adı günlükleme hata oranı'dır ve üç değerden oluşmaktadır; yanlış alarm, bölüt kaybı ve konuşmacı hatasıdır.
Özet (Çeviri)
In recent years, the amount of speech data has increased greatly with the development and spread of technology. Other than controlled filing, it is hard to make sure there is one speaker in an audio file. In these situation, the speaker diarization, is needed for labeling the identity of the speaker of the speech segments. This process does not need any information about the identity of the speakers. It can also be accomplished without knowing the number of speakers in the recorded speech. The speaker diarization system consists of three main modules: i) speech segmentation, ii) speaker representations, and iii) clustering. In this study, different solution techniques for diarization modules through machine learning and deep learning algorithms are examined and implemented. The speaker representations are investigated via vector embedding methods. Finally, the clustering algorithm is applied to collect segments of the same speaker. The time boundaries of the speech segments are determined, and the silent gaps are ignored during the segmentation process. Voice activity detection system gets designed to find speech segments. This system makes binary classification for speech frames as speech/nonspeech, and frames containing the speech signal are detected. The speaker representation module produces vectors containing speaker-specific information for each speech segment. Machine-learning based i-vectors are an important milestone in the speaker recognition field. Subsequently, better achievements are obtained with the advancement of deep learning-based methods. These algorithms used in speaker recognition are applied to the speaker diarization problem in the same way. These developments also ensured having successful results for diarization problem. This study examines deep learning-based d-vectors and x-vectors and tests the system with xd-vectors consisting of a fusion of these two vectors. In the clustering stage, the representation vectors which have been generated for each speech segment and contain information about the segment's speaker are used as an input. In order to measure the similarity of the segments, a similarity score is generated between each segment. Then the similarity score vectors generated for each segment are clustered. In this study, the situations with the known and the unknown number of speakers will be examined. As a parameter for clustering the number of speakers or the threshold value should be defined. The agglomerative hierarchical clustering method was used for clustering. Then, re-segmentation was performed to improve cluster outputs. The variational bayes method was used for this process. In this thesis, performance comparisons of different diarization techniques are realized. The error metric used for this problem is diarization error rate (DER) and it consists of three values; false alarm, missed segment, and speaker error.
Benzer Tezler
- Ordu ekolojik koşullarında bazı kuru fasulye (Phaseolus vulgaris L.) çeşit ve genotiplerinin verim, verim öğeleri ile tohum ve teknolojik özelliklerinin belirlenmesi
Determination of yield and components with seed and technological characteristics of some dry beans (Phaseolus vulgaris L.) varieties and genotypes on in ecological conditions of Ordu
YAŞAR ÖZBEKMEZ
- Dokulu ve dokusuz yüzeylerde baskı sistemlerini devreye sokarak yeni teknolojilerle üretilen kumaşların test ve sonuçları
The tests and results of the fabrics that are put in production by printing process through new technologies on wowen and non-wowen surfaces
MÜGE YÜKSEL
Yüksek Lisans
Türkçe
2012
Tekstil ve Tekstil MühendisliğiHaliç ÜniversitesiTekstil ve Moda Tasarımı Ana Sanat Dalı
YRD. DOÇ. H. ALTAN ORAN
- Orta doğu'da yeni stratejik çevreleme girişimlerinin Türk dış politikasına etkisi: Suriye örneği
The effects of strategic containment attempts in the middle east on turkish foreign policy: The example of Syria
OĞUZHAN ERGÜN
Doktora
Türkçe
2013
Kamu YönetimiDokuz Eylül ÜniversitesiKamu Yönetimi Ana Bilim Dalı
YRD. DOÇ. DR. AHMET NAZMİ ÜSTE
- Resimlendirmelerin fen derslerinde okuma anlamaya etkisi
Başlık çevirisi yok
BERRAK KOCAMAN
Yüksek Lisans
Türkçe
2012
Eğitim ve ÖğretimUşak Üniversitesiİlköğretim Ana Bilim Dalı
YRD. DOÇ. DR. METİN DEMİR
- Using dijkstra algorithm in calculating alternative shortest paths for public transportation with transfers and walking case study: Ankara
Yürüme dahil aktarmalı toplu taşımada alternatif kısayol hesaplaması için dijkstra algoritması kullanımı çalışma konusu: Ankara
HAİTHAM LATİF HASSAN AL-TAMEEMİ
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgi Teknolojileri Ana Bilim Dalı
YRD. DOÇ. DR. ÖZGÜR TOLGA PUSATLI