Geri Dön

Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması

Implementation of a D-vector based speaker diarization system using hybrid voice activity detection

  1. Tez No: 783537
  2. Yazar: YUNUS KORKMAZ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AYTUĞ BOYACI
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yazılım Bilim Dalı
  13. Sayfa Sayısı: 79

Özet

Teknolojik gelişmelerin hızla yaşandığı günümüzde insan yerine makinelerden ve yazılımlardan faydalanan sistemler gittikçe çoğalmaktadır. Bu sistemler, birçok alanda olduğu gibi Dijital Konuşma İşleme (DSP) alanında da geliştirilmeye ihtiyaç duymaktadır. DSP alanlarından biri olan Konuşmacı Diyarizasyonu, konuşma içeren bir ses kaydından, kimin ne zaman konuştuğu bilgisinin otomatik olarak çıkarılmasını gerektirmektedir. Yüksek performans ile çalışan bir konuşmacı diyarizasyon sistemi geliştirme günümüzde hala bu alanda çalışan arastırmacılar için güncel sorunların başında gelmektedir. Daha düşük hata oranına sahip konuşmacı diyarizasyon sistemlerini geliştirebilmek için, bu sistemleri oluşturan ses ön işleme, konuşma aktivite tespiti/detektörü, konuşmacı bölütleme ve konuşmacı kümeleme gibi alt sistemlerin iyileştirilmesi gerekmektedir. Bu tez çalışmasında, konuşmacı diyarizasyon sistemlerinin aşamalarından biri olan Konuşma Aktivite Tespit sistemi için daha önce önerilmemiş hibrit bir model geliştirilerek düşük hata oranına sahip bir konuşmacı diyarizasyon sisteminin tasarlanması hedeflenmiştir. Denetimli ve denetimsiz öğrenmenin mantıksal operatörlerle birleştirildiği hibrit konuşma aktivite tespit sisteminde, denetimsiz öğrenme için özellik eşikleme, denetimli öğrenme için bir derin öğrenme mimarisi olan uzun-kısa süreli bellek (LSTM) kullanılmıştır. Konuşmacı diyarizasyon sisteminin devamında, önceden eğitilmiş bir yapay sinir ağından d-vektör'ler çıkarılmış, bu vektörler üzerinde Spektral Kümeleme uygulandıktan sonra ses kaydında kimin ne zaman konuştuğu tespit edilmiştir. Geliştirilen konuşmacı diyarizasyon sisteminin değerlendirilmesinde, konuşmacı diyarizasyon sistemleri hata metriklerinden konuşma aktivite dedektörlerinden kaynaklanan Miss ve False Alarm (FA) hata metrikleri incelenmiş, literatüre göre nispeten düşük hata oranları elde edildiği görülmüştür.

Özet (Çeviri)

In today's world with rapid technological developments, systems that use machines and software instead of humans are increasing day after day. These systems need to be developed in the area of Digital Speech Processing (DSP), as in many other fields. Speaker Diarization, one of the DSP applications, requires automatic extraction of“who spoke when”from an audio recording containing speech. Developing a speaker diarization system working with high performance is still one of the challenging issues for researchers studying in this area. In order to develop speaker diarization systems with lower error rates, sub-systems such as Speech Pre-processing, Voice Activity Detection, Speaker Segmentation and Speaker Clustering, which constitute a speaker diarization system, need to be improved. In this thesis, it is aimed to design a speaker diarization system with low error rate by developing a hybrid model that has not been proposed before for the voice activity detection system which is one of the stages of speaker dialization systems. In hybrid voice activity detection system where supervised and unsupervised learning is combined with logical operators, feature thresholding was used for unsupervised learning while long-short term memory (LSTM), a deep learning architecture, was utilized for supervised learning. In the continuation of the speaker dialization system, d-vectors were extracted from a pre-trained artificial neural network, and after Spectral Clustering was applied on these vectors,“who spoke when”was detected in the audio recording. At the evalution phase of the proposed speaker diarization system, Miss and False Alarm (FA) metrics, which can be occurred due to used Voice Activity Detectors in Speaker Diarization Systems, were interpreted in detail. It was observed that using an Hybrid VAD in diarization systems has achieved low Miss and False Alarm (FA) error rate.

Benzer Tezler

  1. Prefabrike betonarme yapı elemanı üretiminde derin öğrenme yöntemleriyle iş gücü performans analizi

    Workforce performance analysis in the production of prefabricated reinforced concrete structural elements by using deep learning methods

    İREM BAYRAM ZÜMRÜT

    Doktora

    Türkçe

    Türkçe

    2024

    İnşaat MühendisliğiEge Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELİM BARADAN

  2. Drug repurposing effort for the novel acetylcholinesterase and butyrylcholinesterase targets: A combined in silico and in vitro study

    Yeni asetilkolinesteraz ve butirilkolinesteraz hedefleri için ilaç yeniden konumlandırma çabası: Bir birleşik in siliko ve in vitro çalışma

    HIND AL-JANABI

    Doktora

    İngilizce

    İngilizce

    2022

    BiyokimyaYıldız Teknik Üniversitesi

    Kimya Eğitimi Ana Bilim Dalı

    PROF. DR. BARBAROS NALBANTOĞLU

    PROF. DR. SERDAR DURDAĞI

  3. Hybrid reciprocal recommendation with advanced feature representations

    Gelişmiş özellik gösterimleri ile hibrit çift taraflı öneri sistemleri

    EZGİ YILDIRIM

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  4. Hybrid translation system from Turkish spoken language to Turkish sign language

    Türkçe konuşma dilinden Türkçe işaret diline hibrit çeviri sistemi

    DİLEK KAYAHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  5. Ses sinyallerinden parkinson hastalığının teşhisi için hibrit makine öğrenmesi temelli cinsiyete bağlı yeni bir yaklaşım

    A new approach due to gender based on hybrid machine learning for diagnosis of parkinson's disease from sound signals

    KILIÇARSLAN YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Elektrik ve Elektronik MühendisliğiSakarya Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET RECEP BOZKURT