Geri Dön

Diarization of telephone conversations using probabilistic linear discriminant analysis

Telefon konuşmalarının olasılıksal doğrusal ayırtaç analizi kullanılarak bölütlenmesi

  1. Tez No: 392247
  2. Yazar: AHMET EMİN BULUT
  3. Danışmanlar: DOÇ. DR. HAKAN ERDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 65

Özet

Konuşmacı bölütleme, ses verisinin konuşmacı kimliğine göre homojen bölütlere ayrlması süreci olarak özetlenebilir. Bu tezde olasılıksal doğrusal ayırtaç analizi (ODAA) metodunun telefon konuşmaları üzerinde konuşmacı bölütleme alanına uygulanması incelenmiştir. Konuşmacı bölütlemede kullanılan bölütsel i-vektörlerin ODAA modeli altında değişkenli Bayes (DB) yöntemi ile çıkarsaması ilk olarak bu çalışmada denenmiştir. Değişkenli Bayes iterasyonlarında yerel en uygun sonuçlardan kaçınmak için belirleyici tavlama (BT) algoritması kullanılmıştır. Önerilen sistem, bu alanda bilinen bir sistem olan, bölütsel i-vektörlerin temel bileşenler analizi katsayıları üzerinde k-ortalama topaklama yöntemininin uygulandığı sistem ile karşılaştırılmıştır. Performans değerlendirmesi Ulusal Standartlar ve Teknoloji Enstitüsü tarafından 2008 Konuşmacı Tanıma Değerlendirmesi için belirlenen test veri kümesi üzerinde yapılmıştır. Önerilen sistem, baz alınan sistemin Bölütleme Hata Oranı'na göre %20 daha iyi performans göstermiştir.

Özet (Çeviri)

Speaker diarization can be summarized as the process of partitioning an audio data into homogeneous segments according to speaker identity. This thesis investigates the application of the probabilistic linear discriminant analysis (PLDA) to speaker diarization of telephone conversations. We introduce a variational Bayes (VB) approach for inference under a PLDA model for modeling segmental i-vectors in speaker diarization. Deterministic annealing (DA) algorithm is employed in order to avoid locally optimal solutions in VB iterations. We compare our proposed system with a well-known system that applies k-means clustering on principal component analysis coefficients of segmental i-vectors. We used summed channel telephone data from the National Institute of Standards and Technology 2008 Speaker Recognition Evaluation as the test set in order to evaluate the performance of the proposed system. We achieve about 20% relative improvement in diarization error rate as compared to the baseline system.

Benzer Tezler

  1. Speaker verification for microphone suitable data and audio diarization for Turkish broadcast news

    Mikrofon verisine uygun konuşmacı doğrulama ve Türkçe haber programları için işitsel bölütleme

    OĞUZ YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

  2. Speaker segmentation and diarization

    Başlık çevirisi yok

    OYTUN GÜNEŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Elektrik ve Elektronik MühendisliğiImperial College London

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. PATRICK NAYLOR

  3. Design of speaker diarization with speaker embeddings

    Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı

    MUHAMMET MESUT TORUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilim ve TeknolojiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET SERBES

    DOÇ. DR. GÖKHAN BİLGİN

  4. Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması

    Implementation of a D-vector based speaker diarization system using hybrid voice activity detection

    YUNUS KORKMAZ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYTUĞ BOYACI

  5. Konuşmacı tanıma metinsel kayıt ve analiz sisteminin oluşturulması

    Creating a model for text-dependent speaker diarization

    AMMAR AHMED ABDO SAEED

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgi ve Belge YönetimiMuğla Sıtkı Koçman Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN GÜRÜLER