Deep learning approaches for vocal tract boundary segmentation in rtMRI
MRI videolarında ses yolu kontur bölütlemesi için derin öğrenme yaklaşımları
- Tez No: 667693
- Danışmanlar: Prof. Dr. ENGİN ERZİN
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 107
Özet
Gerçek zamanlı Manyetik Rezonans Görüntüleme (rtMRI) teknolojisindeki son gelişmeler, konuşma artikülasyonunu incelemek için paha biçilmez bir araç sağlar. Ses yolu (VT) konturunu tanımlayan sınır noktalarını otomatik tespit yöntemleri geliştirilmesi konuşma modelleme ve sentezlemeden klinik çalışmalara kadar geniş bir araştırma yelpazesi için çok önemlidir. Bu tez çalışmasında, rtMRI karelerinde ses yolu konturunun gözetimli tespiti ve takibi için iki etkili derin öğrenme yaklaşımı öneriyoruz: (1) Isı haritası bağlanımı ile VT konturunu kestiren bir evrişimsel ağ, ve (2) rtMRI karelerinin zamansal örtüşen sabit uzunluklu dizisinden karşılık gelen artikülasyonu doğrusal olmayan bir eşleştirme ile öğrenen derin bir zamansal bağlanım ağı. Ayrıca, VT kontur tespit kalitesini iyileştirmek için derin kestirim modelinin arkasına iki art işleme yöntemi sunuyoruz: (i) Yüksek ölçüde deforme olabilen artikülatörlerin takibinde veri güdümlü yaklaşımların potansiyel hatalarının azaltılması için yeni bir görünüm modeli tabanlı kontur iyileştirme yöntemi, ve (ii) uzamsal aykırılıkları ve zamansal titreşimi ortadan kaldırarak kontur kestirimleri için bir uzamsal-zamansal stabilizasyon yöntemi. Önerilen VT kontur takip mo\-del\-leri görsel-işitsel rtMRI verisi içeren USC-TIMIT veri seti üzerinde eğitildi ve değerlendirildi. Başarım değerlendirmesi, yakın zamanlı literatürde yer alan birkaç temel yaklaşımla karşılaştırmalı olarak kontur noktalarının uzamsal ve zamansal hataları için çeşitli nesnel değerlendirme ölçütleri kullanılarak gerçekleştirildi. Önerilen yöntemler literatürde bulunan yöntemlerle karşılaştırıldığında, sonuçlarda belirgin iyileştirmeler gözlendi. Ayrıca, rtMRI verilerinin analizi için önerilen kontur tespit yöntemlerini kullanarak, VT konturunun otomatik bölütlenmesi ve ses yolu değişkenleri ile kesitsel alanlarının hesaplanması dahil olmak üzere çeşitli fonksiyonlara sahip bir grafik kullanıcı arayüzü (GUI) geliştirilmiştir.
Özet (Çeviri)
Recent advances in real-time Magnetic Resonance Imaging (rtMRI) provide an invaluable tool to study speech articulation. Development of automatic algorithms to detect the landmarks defining the boundaries of the vocal tract (VT) is crucial for a wide range of research, from speech modeling and synthesis to clinical research. In this thesis, we present two effective deep learning approaches for supervised detection and tracking of vocal tract contours in a sequence of rtMRI frames: (1) we propose a fully convolutional network to estimate the VT contour in heatmap regression fashion and (2) we introduce a deep temporal regression network which learns the non-linear mapping from a temporal overlapping fixed-length sequence of rtMRI frames to the corresponding articulatory movements. We as well introduce two post-processing algorithms succeeding the deep models, to further improve the quality of VT contour detection: (i) a novel appearance model based contour refinement to overcome the potential failures of data-driven approaches for highly deformable articulators and (ii) a spatiotemporal stabilization scheme to stabilize the estimated contours in space and time by removing the spatial outliers and temporal jitter. The proposed VT contour tracking models are trained and evaluated over the large audiovisual USC-TIMIT dataset. Performance evaluation is carried out using various objective assessment metrics for the spatial error and temporal stability of the contour landmarks in comparison with several baseline approaches from the recent literature. Results indicate significant improvements with the proposed methods over the state-of-the-art baselines. In addition, we develop a graphical user interface (GUI) for the analysis of the rtMRI data, integrated with various attributes including automatic segmentation of the VT boundaries using the proposed contour estimation methods and calculation of tract variables and cross-sectional distance.
Benzer Tezler
- Emotion aware artificial intelligence for cognitive systems
Bilişsel sistemler için duygu farkındalıklı yapay zeka
DEĞER AYATA
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
PROF. DR. MUSTAFA ERSEL KAMAŞAK
- Social behavior learning for an assistive companion robot
Yardımcı robotlar için sosyal davranış öğrenimi
PINAR ULUER
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Comparative study on music source separation methods
Müzik kaynağı ayırma yöntemleri üzerine karşılaştırmalı çalışma
BURAK BAYSAL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET ÖNDER EFE
- Emotion and gender identification on speech signals using deep learning methods
Konuşma sinyalleri üzerinde derin öğrenme yöntemleri kullanarak duygu ve cinsiyet tespiti
ÖZGÜR ÖZDEMİR
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN BİLGİN
- Sulkus tanılı hastaların videostroboskopik görüntülerinin yapay zeka temelli tanısal değerlendirilmesi
An ai-powered diagnostic assessment of videostroboscopic images in patients diagnosed with sulcus
ÖMER TARIK KAVAK
Tıpta Uzmanlık
Türkçe
2024
Kulak Burun ve BoğazMarmara ÜniversitesiKulak Burun Boğaz Ana Bilim Dalı
DOÇ. DR. NECATİ ENVER