Diarization of telephone conversations using probabilistic linear discriminant analysis
Telefon konuşmalarının olasılıksal doğrusal ayırtaç analizi kullanılarak bölütlenmesi
- Tez No: 392247
- Danışmanlar: DOÇ. DR. HAKAN ERDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 65
Özet
Konuşmacı bölütleme, ses verisinin konuşmacı kimliğine göre homojen bölütlere ayrlması süreci olarak özetlenebilir. Bu tezde olasılıksal doğrusal ayırtaç analizi (ODAA) metodunun telefon konuşmaları üzerinde konuşmacı bölütleme alanına uygulanması incelenmiştir. Konuşmacı bölütlemede kullanılan bölütsel i-vektörlerin ODAA modeli altında değişkenli Bayes (DB) yöntemi ile çıkarsaması ilk olarak bu çalışmada denenmiştir. Değişkenli Bayes iterasyonlarında yerel en uygun sonuçlardan kaçınmak için belirleyici tavlama (BT) algoritması kullanılmıştır. Önerilen sistem, bu alanda bilinen bir sistem olan, bölütsel i-vektörlerin temel bileşenler analizi katsayıları üzerinde k-ortalama topaklama yöntemininin uygulandığı sistem ile karşılaştırılmıştır. Performans değerlendirmesi Ulusal Standartlar ve Teknoloji Enstitüsü tarafından 2008 Konuşmacı Tanıma Değerlendirmesi için belirlenen test veri kümesi üzerinde yapılmıştır. Önerilen sistem, baz alınan sistemin Bölütleme Hata Oranı'na göre %20 daha iyi performans göstermiştir.
Özet (Çeviri)
Speaker diarization can be summarized as the process of partitioning an audio data into homogeneous segments according to speaker identity. This thesis investigates the application of the probabilistic linear discriminant analysis (PLDA) to speaker diarization of telephone conversations. We introduce a variational Bayes (VB) approach for inference under a PLDA model for modeling segmental i-vectors in speaker diarization. Deterministic annealing (DA) algorithm is employed in order to avoid locally optimal solutions in VB iterations. We compare our proposed system with a well-known system that applies k-means clustering on principal component analysis coefficients of segmental i-vectors. We used summed channel telephone data from the National Institute of Standards and Technology 2008 Speaker Recognition Evaluation as the test set in order to evaluate the performance of the proposed system. We achieve about 20% relative improvement in diarization error rate as compared to the baseline system.
Benzer Tezler
- Speaker verification for microphone suitable data and audio diarization for Turkish broadcast news
Mikrofon verisine uygun konuşmacı doğrulama ve Türkçe haber programları için işitsel bölütleme
OĞUZ YILMAZ
Yüksek Lisans
İngilizce
2011
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
- Speaker segmentation and diarization
Başlık çevirisi yok
OYTUN GÜNEŞ
Yüksek Lisans
İngilizce
2015
Elektrik ve Elektronik MühendisliğiImperial College LondonElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. PATRICK NAYLOR
- Design of speaker diarization with speaker embeddings
Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı
MUHAMMET MESUT TORUK
Yüksek Lisans
İngilizce
2020
Bilim ve TeknolojiYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET SERBES
DOÇ. DR. GÖKHAN BİLGİN
- Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması
Implementation of a D-vector based speaker diarization system using hybrid voice activity detection
YUNUS KORKMAZ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYTUĞ BOYACI
- Konuşmacı tanıma metinsel kayıt ve analiz sisteminin oluşturulması
Creating a model for text-dependent speaker diarization
AMMAR AHMED ABDO SAEED
Yüksek Lisans
Türkçe
2022
Bilgi ve Belge YönetimiMuğla Sıtkı Koçman ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN GÜRÜLER