Yapay zeka ile sesin işitsel-algısal değerlendirmesi: CAPE-V ölçeği uygulamaları
Title of the thesis: auditory perceptual evaluation of sound with artificial intelligence: CAPE-v scale applications
- Tez No: 869496
- Danışmanlar: DOÇ. DR. NECATİ ENVER
- Tez Türü: Tıpta Uzmanlık
- Konular: Kulak Burun ve Boğaz, Otorhinolaryngology (Ear-Nose-Throat)
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Marmara Üniversitesi
- Enstitü: Tıp Fakültesi
- Ana Bilim Dalı: Kulak Burun Boğaz Hastalıkları Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
Amaç: Çalışmamızın amacı ses bozukluklarının işitsel-algısal değerlendirmesinde CAPE-V (Consensus Auditory-Perceptual Evaluation of Voice) ölçeğini temel alan bir yapay zekâ modeli geliştirmek ve bu modelin klinik uygulanabilirliğini araştırmaktır. Gereç ve Yöntem: Araştırma kapsamında PVQD (The Perceptual Voice Qualities Database) veri seti kullanarak her biri 0-100 ölçekli bir görsel analog ölçek üzerinde üç uzman tarafından değerlendirilen 286 ses dosyası kullanıldı. Ses dosyaları /a/ sesleri ve cümle taskları olarak ayrılarak OpenSMILE isimli açık kaynaklı yazılım aracılığı ile her biri için ayrı ayrı 88 farklı akustik parametre elde edildi. Derin öğrenme teknikleri kullanılarak üç farklı yapay zekâ modeli (MLP, CNN, MLP-CNN) elde edilen akustik parametreler üzerinden uzman değerlendiricilerin ortalamaları doğru kabul edilerek eğitildi ve CAPE-V ölçeğindeki altı parametre için test edildi. Bulgular: Uzman değerlendiriciler ile en yüksek uzlaşım kombine model (MLP-CNN) ile sağlandı. Nefeslilik (ICC değeri=0,77), şiddet (ICC değeri=0,80), perde(ICC değeri=0,75), genel ses bozukluğu (ICC değeri=0,87) ve gerginlik (ICC değeri=0,88) alt ölçekleri için iyi düzeyde uzlaşım bulunduğu saptandı.Ayrıca, Bland Altman grafiği ve t testi ile yapılan değerlendirmede, nefeslilik (p=0,443), şiddet (p=0,140), perde (p=0,515), genel ses bozukluğu (p=0,442) ve gerginlik (p=0,245) alt ölçekleri için kombine model (MLP-CNN) ile yapılan puanlamaların uzman değerlendiriciler tarafından yapılan puanlamalardan istatistiksel olarak farklı olmadığı belirlendi. Buna karşın, pürüzlülük alt ölçeği puanlamalarının istatistiksel olarak farklı olduğu görüldü (p
Özet (Çeviri)
Objective: The aim of our study is to develop an artificial intelligence model based on the CAPE-V (Consensus Auditory-Perceptual Evaluation of Voice) scale for the perceptual evaluation of voice disorders and to investigate the clinical applicability of this model. Materials and Methods: In the research, a dataset of PVQD (The Perceptual Voice Qualities Database) was used, consisting of 286 sound files evaluated by three experts on a 0-100 visual analog scale. After organizing the sound files into /a/ vowels and sentence tasks, 88 different acoustic parameters were obtained separately for each using an open-source software tool called OpenSMILE. Deep learning techniques were employed to develop three different artificial intelligence models (MLP, CNN, MLP-CNN), which were trained using the acoustic parameters, with the averages of the assessments by three expert evaluators considered as the ground truthand tested for the six parameters of the CAPE-V scale. Results: The highest correlation with expert evaluators was achieved with the combined model (MLP-CNN). Good correlation was found for the sub-categories of breathiness (ICC value = 0.77), loudness (ICC value = 0.80), roughness (ICC value = 0.75), overall severity (ICC value = 0.87), and strain (ICC value = 0.88). Furthermore, through Bland-Altman analysis and t-tests, it was determined that the scores obtained with the combined model (MLP-CNN) for breathiness (p=0.443), loudness (p=0.140), roughness (p=0.515), overall severity (p=0.442), and strain (p=0.245) sub-categories did not differ significantly from those made by expert evaluators. However, it was found that the scores for the roughness sub-category were statistically different (p
Benzer Tezler
- Gerçek hayat ortam sesleriyle eğitilmiş derin sinir ağlarının dikotik işitsel işlemlemeye etkisi
Effect of deep neural networks trained with real-li̇fe ambient sounds on dichotic auditory processing
ERDEM KAPLAN
Yüksek Lisans
Türkçe
2022
Kulak Burun ve Boğazİstanbul Aydın ÜniversitesiOdyoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ŞENGÜL TERLEMEZ
- Context aware audio-visual environment awareness using convolutional neural network
Konvolüsyonel sinir ağı kullarak ses ve görüntü aracılığıyla ortam farkındalığı
GİRAY YILLIKÇI
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. İBRAHİM AKDUMAN
- Multimodal machine comprehension of how-to instructions with images and text
Görüntü ve metin içeren çok kipli nasıl yapılır talimatlarının makine ile kavranması
SEMİH YAĞCIOĞLU
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERKUT ERDEM
DOÇ. DR. İBRAHİM AYKUT ERDEM
- Ortodontik tedavi öncesi hasta kooperasyonunun yapay zeka ile tahmini
Prediction of patient cooperation with artificial intelligence before orthodontic treatment
FARHAD SALMANPOUR
Diş Hekimliği Uzmanlık
Türkçe
2022
Diş HekimliğiAfyonkarahisar Sağlık Bilimleri ÜniversitesiOrtodonti Ana Bilim Dalı
DOÇ. DR. HASAN CAMCI
- Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks
Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz
AHMET KEMAL YETKİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE