Geri Dön

Multimodal learning for speech analysis with mmwave radar, ultrasound, and audio

Konuşma analizinde mmwave radar, ultrason ve ses verileriyle öğrenme

  1. Tez No: 958732
  2. Yazar: İLHAN AYTUTULDU
  3. Danışmanlar: PROF. DR. YUSUF SİNAN AKGÜL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Gebze Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 118

Özet

Fonetik segment sınıflandırması, ses ya da artikülasyon verilerinden konuşma seslerini(fonemleri) tanıma ve kategorize etme sürecidir. Bu görev, konuşma tanıma, dil öğren-imi ve klinik konuşma terapisi gibi pek çok konuşma ve dil işleme uygulamasının temelini oluşturur. Bu tez, sağlam, pratik ve gizliliğe duyarlı bir fonetik segment sınıflandırması elde etmek amacıyla mmWave radarı, ultrason dil görüntüleme (UTI) ve ses modalitelerini birleştiren, derin öğrenmeye dayalı yeni çok modlu yaklaşımları araştırmaktadır. Geleneksel ses tabanlı yöntemler, gürültülü ortamlarda güvenilirliğini yitirir ve spek-tral olarak benzer fonemleri ayırt etmekte yetersiz kalabilir. UTI tabanlı sistemler ise ayrıntılı artikülasyon bilgisi sunmalarına rağmen, yüksek donanım maliyetleri ve kul-lanıcı konforu açısından çeşitli sınırlamalar taşır. Bu noktada mmWave radar, temassız biçimde ayrıntılı artikülasyon dinamiklerini yakalayabilen, umut verici bir alternatif olarak öne çıkmaktadır. Bu doğrultuda tezde ilk olarak, MMNet adlı çok modlu bir sinir ağı mimarisi sunulmak-tadır. Bu mimari, ses ve UTI modalitelerinin tamamlayıcı özelliklerinden yararlanarak ortak bir yerleştirme (embedding) alanı oluşturmak üzere tasarlanmıştır. Deneysel bul-gular, bu entegrasyonun sınıflandırma doğruluğunu önemli ölçüde artırdığını ve tekil modalitelere özgü belirsizlikleri etkili biçimde ortadan kaldırdığını göstermektedir. Ayrıca, M1 adlı mimari yalnızca ses verilerini kullanarak çıkarım yapabilmekte; böylece UTI kullanımına olan ihtiyacı ortadan kaldırmakta ve konuşma terapisi gibi uygula-malarda pratikliği artırmaktadır. Deneysel sonuçlar, bu yaklaşımın hem ses hem de UTI kullanan sistemlerle karşılaştırılabilir düzeyde performans sunduğunu göstermek-tedir. Tezin sonraki aşamasında ise, eğitim sürecinde UTI ve ses verilerini mmWave radar ile birleştiren; ancak çıkarım aşamasında yalnızca radar verisine dayanan USRadioAI adlı alternatif bir çok modlu çerçeve tanıtılmaktadır. Çapraz-modal bilgi damıtma ve gömme alanı hizalaması gibi teknikleri kullanan bu model, yalnızca radar verisiyle çalışmasına rağmen çok modlu sistemlerle benzer doğruluk seviyelerini sürdürebilmek-tedir. USRadioAI çerçevesi, radarın eklemsel bilgileri temassız şekilde yakalama yeteneğin-den faydalanarak, çıkarım sırasında donanım karmaşıklığını ve sistem yükünü azaltırken yüksek performans sergilemektedir. Yeni oluşturulan GTUConsonants ve GTUSAudioRadioConsonants veri kümeleri üz-erinde gerçekleştirilen kapsamlı deneyler, geliştirilen çok modlu yöntemlerin etkin-liğini ortaya koymaktadır. Sonuçlar, MMNet'in mevcut tüm modaliteleri verimli biçimde kullanarak en yüksek genel sınıflandırma doğruluğunu sağladığını; USRadioAI'nin ise sadeleştirilmiş çıkarım yapısına rağmen, belirli optimizasyon teknikleriyle çok modlu yaklaşımlara oldukça yakın performans elde ettiğini göstermektedir. Bu bulgular, konuşma ve dil işleme alanında çok modlu öğrenmenin önemini vurgu-larken, mmWave radarın klinik konuşma terapisi ve etkileşimli uygulamalarda gizliliği koruyan, erişilebilir ve kullanıcı dostu bir modalite olarak önemli bir potansiyele sahip olduğunu ortaya koymaktadır.

Özet (Çeviri)

Phonetic segment classification is the process of recognizing and categorizing speech sounds (phonemes) from audio or articulation data. This task forms the basis of many speech and language processing applications such as speech recognition, language learning, and clinical speech therapy. This thesis explores novel multimodal approaches based on deep learning that combine mmWave radar, ultrasound tongue imaging (UTI), and voice modalities to achieve robust, practical, and privacy-sensitive phonetic seg-ment classification. Traditional audio-based methods, such as Gaussian Mixture Model–Hidden Markov Model (GMM-HMM), Deep Neural Network–Hidden Markov Model (DNN-HMM), often yield unreliability in noisy environments and may be insufficient to distinguish phonemes with similar spectral properties. On the other hand, UTI-based approaches provide detailed articulatory information but have limitations in terms of hardware costs and practicality. On the other hand, mmWave radar stands out as a promising alternative that can capture detailed articulatory dynamics in a contactless manner. In this context, the thesis first introduces a multimodal neural network architecture called MMNet. This architecture is designed to create a common embedding space by taking advantage of the complementary features of audio and UTI modalities. Experi-mental findings show that this combination leads to significant improvements in classi-fication accuracy and effectively removes ambiguities specific to individual modalities. Additionally, the architecture named M1 can perform inference using only audio data, thus eliminating the need for UTI, making it easy to use in applications such as speech therapy. Experimental data shows that this approach performs at a level comparable to systems that use both voice and UTI. In the next phase of the thesis, another multimodal framework named USRadioAI is presented, which combines UTI and voice data with mmWave radar in the training process, but relies only on radar data in inference. This model is able to maintain similar performance to multimodal systems despite working with only radar data, by using techniques such as cross-modal information distillation and embedding space alignment. USRadioAI uses radar's ability to capture articulatory information without contact, reducing both hardware complexity and system load during the inference phase, while maintaining high accuracy rates. Comprehensive experiments conducted on newly compiled datasets named GTUCon-sonants and GTUSAudioRadioConsonants demonstrate the effectiveness of the devel-oped multimodal methods. The results show that MMNet provides the highest overall classification performance by effectively using all available modalities, while USRa-dioAI, despite its simplified inference structure, performs very close to multimodal approaches thanks to optimization techniques. The findings highlight the potential of multimodal learning in speech and language processing, and suggest that mmWave radar can play an important role as a privacy-preserving, accessible, and user-friendly modality in areas such as clinical speech ther-apy and interactive applications.

Benzer Tezler

  1. Comicverse: Expanding the frontiers of ai in comic books with holistic understanding

    Comicverse: Bütünsel anlayışla çizgi romanlarda yapay zekanın sınırlarını genişletmek

    GÜRKAN SOYKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. DENİZ YURET

    PROF. DR. TEVFİK METİN SEZGİN

  2. Multilingual, multimodal and explainable approaches for automated fact-checking problem

    Otomatik doğrulama problemi için çok dilli, çok modlu ve açıklanabilir yaklaşımlar

    RECEP FIRAT ÇEKİNEL

    Doktora

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. PINAR KARAGÖZ

  3. Land cover and land use classification of multi-modal high-resolution satellite images using multi-task deep learning approach

    Çok görevli derin öğrenme tekniği ile çok kipli yüksek çözünürlüklü uydu görüntülerinin arazi örtüsü ve arazi kullanımı sınıflandırılması

    BURAK EKİM

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. ELİF SERTEL

  4. Automatic deceit detection through multimodal analysis of speech videos

    Konuşma videolarının çok-kipli analiziyle otomatik aldatma tespiti

    BERAT BİÇER

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAMDİ DİBEKLİOĞLU

  5. Speech driven upper body gesture analysis and synthesis

    Konuşma ile sürülen üst beden hareketlerinin analizi ve sentezi

    SERKAN ÖZKUL

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YÜCEL YEMEZ