Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması
Implementation of a D-vector based speaker diarization system using hybrid voice activity detection
- Tez No: 783537
- Danışmanlar: DR. ÖĞR. ÜYESİ AYTUĞ BOYACI
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yazılım Bilim Dalı
- Sayfa Sayısı: 79
Özet
Teknolojik gelişmelerin hızla yaşandığı günümüzde insan yerine makinelerden ve yazılımlardan faydalanan sistemler gittikçe çoğalmaktadır. Bu sistemler, birçok alanda olduğu gibi Dijital Konuşma İşleme (DSP) alanında da geliştirilmeye ihtiyaç duymaktadır. DSP alanlarından biri olan Konuşmacı Diyarizasyonu, konuşma içeren bir ses kaydından, kimin ne zaman konuştuğu bilgisinin otomatik olarak çıkarılmasını gerektirmektedir. Yüksek performans ile çalışan bir konuşmacı diyarizasyon sistemi geliştirme günümüzde hala bu alanda çalışan arastırmacılar için güncel sorunların başında gelmektedir. Daha düşük hata oranına sahip konuşmacı diyarizasyon sistemlerini geliştirebilmek için, bu sistemleri oluşturan ses ön işleme, konuşma aktivite tespiti/detektörü, konuşmacı bölütleme ve konuşmacı kümeleme gibi alt sistemlerin iyileştirilmesi gerekmektedir. Bu tez çalışmasında, konuşmacı diyarizasyon sistemlerinin aşamalarından biri olan Konuşma Aktivite Tespit sistemi için daha önce önerilmemiş hibrit bir model geliştirilerek düşük hata oranına sahip bir konuşmacı diyarizasyon sisteminin tasarlanması hedeflenmiştir. Denetimli ve denetimsiz öğrenmenin mantıksal operatörlerle birleştirildiği hibrit konuşma aktivite tespit sisteminde, denetimsiz öğrenme için özellik eşikleme, denetimli öğrenme için bir derin öğrenme mimarisi olan uzun-kısa süreli bellek (LSTM) kullanılmıştır. Konuşmacı diyarizasyon sisteminin devamında, önceden eğitilmiş bir yapay sinir ağından d-vektör'ler çıkarılmış, bu vektörler üzerinde Spektral Kümeleme uygulandıktan sonra ses kaydında kimin ne zaman konuştuğu tespit edilmiştir. Geliştirilen konuşmacı diyarizasyon sisteminin değerlendirilmesinde, konuşmacı diyarizasyon sistemleri hata metriklerinden konuşma aktivite dedektörlerinden kaynaklanan Miss ve False Alarm (FA) hata metrikleri incelenmiş, literatüre göre nispeten düşük hata oranları elde edildiği görülmüştür.
Özet (Çeviri)
In today's world with rapid technological developments, systems that use machines and software instead of humans are increasing day after day. These systems need to be developed in the area of Digital Speech Processing (DSP), as in many other fields. Speaker Diarization, one of the DSP applications, requires automatic extraction of“who spoke when”from an audio recording containing speech. Developing a speaker diarization system working with high performance is still one of the challenging issues for researchers studying in this area. In order to develop speaker diarization systems with lower error rates, sub-systems such as Speech Pre-processing, Voice Activity Detection, Speaker Segmentation and Speaker Clustering, which constitute a speaker diarization system, need to be improved. In this thesis, it is aimed to design a speaker diarization system with low error rate by developing a hybrid model that has not been proposed before for the voice activity detection system which is one of the stages of speaker dialization systems. In hybrid voice activity detection system where supervised and unsupervised learning is combined with logical operators, feature thresholding was used for unsupervised learning while long-short term memory (LSTM), a deep learning architecture, was utilized for supervised learning. In the continuation of the speaker dialization system, d-vectors were extracted from a pre-trained artificial neural network, and after Spectral Clustering was applied on these vectors,“who spoke when”was detected in the audio recording. At the evalution phase of the proposed speaker diarization system, Miss and False Alarm (FA) metrics, which can be occurred due to used Voice Activity Detectors in Speaker Diarization Systems, were interpreted in detail. It was observed that using an Hybrid VAD in diarization systems has achieved low Miss and False Alarm (FA) error rate.
Benzer Tezler
- Prefabrike betonarme yapı elemanı üretiminde derin öğrenme yöntemleriyle iş gücü performans analizi
Workforce performance analysis in the production of prefabricated reinforced concrete structural elements by using deep learning methods
İREM BAYRAM ZÜMRÜT
Doktora
Türkçe
2024
İnşaat MühendisliğiEge Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELİM BARADAN
- Drug repurposing effort for the novel acetylcholinesterase and butyrylcholinesterase targets: A combined in silico and in vitro study
Yeni asetilkolinesteraz ve butirilkolinesteraz hedefleri için ilaç yeniden konumlandırma çabası: Bir birleşik in siliko ve in vitro çalışma
HIND AL-JANABI
Doktora
İngilizce
2022
BiyokimyaYıldız Teknik ÜniversitesiKimya Eğitimi Ana Bilim Dalı
PROF. DR. BARBAROS NALBANTOĞLU
PROF. DR. SERDAR DURDAĞI
- Hybrid reciprocal recommendation with advanced feature representations
Gelişmiş özellik gösterimleri ile hibrit çift taraflı öneri sistemleri
EZGİ YILDIRIM
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ
- Hybrid translation system from Turkish spoken language to Turkish sign language
Türkçe konuşma dilinden Türkçe işaret diline hibrit çeviri sistemi
DİLEK KAYAHAN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Ses sinyallerinden parkinson hastalığının teşhisi için hibrit makine öğrenmesi temelli cinsiyete bağlı yeni bir yaklaşım
A new approach due to gender based on hybrid machine learning for diagnosis of parkinson's disease from sound signals
KILIÇARSLAN YILDIRIM
Yüksek Lisans
Türkçe
2020
Elektrik ve Elektronik MühendisliğiSakarya ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET RECEP BOZKURT