An ensemble deep learning framework for multimodal Parkinson's disease detection using voice, drawing and sensor data
Ses, çizim ve sensör verilerine dayalı multimodal bir ensemble derin öğrenme yaklaşımı ile Parkinson hastalığının tespiti
- Tez No: 966079
- Danışmanlar: PROF. DR. REDA ALHAJJ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Medipol Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 169
Özet
Parkinson Hastalığı (PH), motor ve motor olmayan belirtilerle kendini gösteren ilerleyici bir nörodejeneratif hastalıktır. Erken tanı, Parkinson hastalığının seyrini yavaşlatma ve hastaların yaşam kalitesini iyileştirme açısından büyük önem taşımaktadır. Bu doğrultuda, otomatik ve çok yönlü sistemlerin geliştirilmesi, erken tanıyı destekleyici alternatif yaklaşımlar sunma potansiyeline sahiptir. Tekil veri türlerine dayalı tanı yaklaşımlarının sınırlılıkları göz önünde bulundurulduğunda, daha sağlam ve uyarlanabilir çoklu veri (multimodal) işleyen sistemlere ihtiyaç duyulmaktadır. Özellikle farklı biyobelirteçleri bir araya getiren çok modlu yaklaşımların, bu alanda etkili çözümler sunması beklenmektedir. Bu nedenle Parkinson hastalığının erken tespitine katkı sunmak amacıyla, ses kayıtları, el çizimleri ve hareket sensörü verilerini birleştiren çok modlu ve çok dallı bir derin öğrenme tabanlı sistem geliştirilmiştir. Sistem, her modaliteye özel olarak optimize edilmiş model kollarından oluşmaktadır ve böylece her veri türünden en anlamlı temsillerin öğrenilmesi hedeflenmiştir. Ses modalitesinde, akustik özellikler tam bağlantılı katmanlardan (fully connected network) oluşan bir yapı ile analiz edilirken, sesin spectrogram görüntüleri ise MobileNetV2 tabanlı bir evrişimli sinir ağı ile işlenmiştir. Bu iki bileşen özellik seviyesinde birleştirilmiştir. El çizimi modalitesinde ise, çizim görüntüleri EfficientNetB0 tabanlı bir model ile, çizim sırasında kayıt edilen zaman serisi verileri ise 1D CNN yapısı ile işlenmiş ve yine özellik seviyesinde birleştirilmiştir. Hareket sensörü verileri için ise Conv1D tabanlı bir model kullanılmıştır. Her bir modalitenin tahmin çıktıları, soft, hard ve weighted voting temelli geç seviye (late fusion) ensemble yöntemleri ile birleştirilmiş ve böylece modaliteler arası denge sağlanmıştır. Veriler özgün olarak bu çalışma kapsamında toplanmış olup, toplamda 31 Parkinson hastalığına sahip ve 23 sağlıklı bireyden ses kayıtları, el çizim görevleri (spiral ve çizgi) ve her iki el bileği için sensor verileri (ivmeölçer ve jiroskop) elde edilmiştir. Bireysel modalite bazlı yapılan modellemelerde en yüksek başarıyı ses verilerine dayalı model mimarisi göstermiştir (Accuracy: 0.9091, Recall: 1.0, AUC: 0.9583). Özellikle soft voting ve ağırlıklı (weighted) voting yöntemleri ile oluşturulan ensemble model mimarileri, tüm bireyleri (PH ve sağlıklı birey) doğru sınıflandırmayı başarmıştır. Geliştirilen sistem, bazı modalitelerin eksik olduğu klinik senaryolarda da tahmin üretebilecek bir yapıdadır. Bu yönüyle çalışmanın yaklaşımı, literatüre yöntemsel olarak önemli bir katkı da sağlamaktadır.
Özet (Çeviri)
Parkinson's Disease (PD) is a progressive neurodegenerative disease characterized by motor and non-motor symptoms. Early diagnosis is crucial for managing the progression of Parkinson's disease and improving patients' quality of life. In this regard, the development of automated and multimodal systems has the potential to offer alternative approaches to support early diagnosis. Considering the limitations of single-modality diagnostic approaches, there is a growing need for more robust and adaptable systems capable of processing multimodal data. In particular, multimodal approaches that combine different biomarkers are expected to offer effective solutions in this field. Therefore, to support the early diagnosis of Parkinson's disease, a deep learning-based system was developed. This system integrates voice recordings, hand-drawn images, and motion sensor data in a multimodal and multi-branch architecture. The system consists of model branches specifically optimized for each modality, aiming to learn the most meaningful representations from each data type. In the voice modality, acoustic features are analyzed with a fully connected network structure, while sound spectrogram images are processed with a MobileNetV2-based convolutional neural network. These two components are combined through feature-level fusion. For the hand-drawing modality, the drawing images were processed using an EfficientNetB0-based model, while time-series data recorded during the drawing process were analyzed with a 1D CNN structure. The extracted features from both were fused at the feature level. A Conv1D-based model was used for motion sensor data. Prediction outputs from each modality were combined using soft, hard, and weighted ensemble voting methods, enabling a balanced contribution from all modalities. The data collected for this study included audio recordings, hand-drawing tasks (spiral and line), and sensor data (accelerometer and gyroscope) from both wrists of 31 individuals diagnosed with Parkinson's disease and 23 healthy controls. Among models based on individual modalities, the voice data-based model demonstrated the highest performance (Accuracy: 0.9091, Recall: 1.0, AUC: 0.9583). In particular, ensemble model architectures created using soft voting and weighted voting methods successfully and accurately classified all individuals (PD and healthy individuals). The developed system is also capable of producing predictions even when certain modalities are unavailable in clinical settings. In this context, the approach of the study makes a valuable methodological contribution to the literature.
Benzer Tezler
- Derin öğrenme teknikleri kullanılarak cilt lezyonları için çok sınıflı sınıflandırma
Multi-class classification for skin lesions using deep learning techniques
ÜMMÜHAN KOPAL
Yüksek Lisans
Türkçe
2025
Biyomühendislikİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MÜRVET KIRCI
- Deep learning ensembles for image understanding
Başlık çevirisi yok
SARA ATITO ALI AHMED
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
- Diabetic retinopathy classification with using deep learning
Derin öğrenme ile diyabetik retinopati sınıflandırılması
MEHMET ALPER ŞAHİN
Yüksek Lisans
İngilizce
2024
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiVeri Mühendisliği ve İş Analitiği Ana Bilim Dalı
DOÇ. DR. ÖMER FARUK BEYCA
- Skin cancer classificatıon using deep learning and transfer learning
Derin öğrenme ve transferöğrenme kullanılarak ciltkanserinin sınıflandırılması
MUHAMMAD FARZAM UDDIN
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik MühendisliğiAntalya Bilim ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SHAHRAM TAHERİ
- Deep learning-based cyclone detection, localization, and classification
Derin öğrenme tabanlı kiklon saptaması, konumlandırması ve sınıflandırması
ALİ İBRAHİM ÖZKAN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAKAN YILDIZ