Geri Dön

Multi-label classification of 12-lead ECG signal using a mixture-of-experts transformer model

Uzmanların karışımı bazlı dönüştürücü modeli ile 12 kanallı EKG sinyalinin çok etiketli sınıflandırılması

  1. Tez No: 958875
  2. Yazar: ATALAY ÇELİK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 91

Özet

Elektrodiyagram (EKG) kalbin elektriksel aktivitesini ölçer ve kalp hastalıklarının tespitinde önemli bir araçtır. EKG verileri hastalardan 10 farklı elektrot ile toplanmaktadır, bu veriler sonrasında yapılan hesaplamalar ile 12 farklı kanal için veri oluşturulmaktadır. Bu kanallar kalbin farklı açılardan elektriksel aktivitesini belirtmektedir. EKG verileri kalp hastalıklarının teşhisinde yoğun olarak kullanılmaktadır. EKG sinyalleri kalp atışına bağlı olarak karakteristikleri bilinen elektriksel sinyallerden oluşmaktadır. Bu sinyaller farklı kanallarda farklı davranışlara yol açmaktadır. P, Q, R, S, T gibi dalga tipleri, sinyallerin karakteristik bölümlerini tanımlamak için kullanılan terimlerdir. Bu dalgaların konumları, sinyal değerleri, birbirlerine göre konumları teşhis için önemli bilgiler içermektedir. Ancak 12 farklı kanaldan gelen veriler için doğru tanıyı koyabilmek için değerlendirici farklı uzmanlıkları ve yöntemleri kullanmak zorundadır. Tanıların doğru bir şekilde konulabilmesi için yüksek derecede literatür bilgisine ve deneyime sahip olunması gerekmektedir. Doğru teşhisler ancak alanda uzman doktorlar tarafından bu verilerin detaylı incelenmesi sonucunda koyulabilmektedir. EKG verilerinden kalp hastalıkları için tanı konulma sürecinin otomatik bir hale getirilmesi araştırmacılar tarafından ilgi ile araştırılan bir konudur. Konu hakkındaki öncül çalışmalar EKG verileri üzerinden tepe noktaların tespiti ve atımların sınıflandırması gibi amaçlarla yapılmıştır. Ancak bu konular makine öğrenmesi ve derin öğrenme gibi yöntemlerdeki gelişmeler ile literatürde sıkça çalışılmış ve yüksek doğruluk oranları ile yeterli olgunluk seviyesine ulaşmıştır. Daha kompleks bir problem türü olan otomatik tanı koyma problemi ise hala çalışılan ve yüksek başarım ile tamamlanmamış bir alandır. Bu alandaki çalışmalar makine öğrenmesi gibi klasik yöntemler dışında daha gelişmiş model tiplerini de kullanarak problemi çözmeye çalışmaktadır. PhysioNet platformu tarafından düzenlenen CinC gibi yarışmalar ile birkaç senedir bu alanda araştırmacıları motive etmektedir. Bu çalışmalar kapsamında EKG sinyallerinin sınıflandırma problemi konusunda ilerlemeler katedilmiştir. Bu alandaki çalışmaları motive eden bir diğer sebep ise açık kaynak olarak paylaşılan veri setlerinin fazlalığıdır. Dünyanın farklı bölgelerinden araştırma amacıyla paylaşılan bu veri setleri araştırmaları hızlandırmaktadır. Büyük dil modelleri alanında dönüşüme sebep olan dönüştürücü tabanlı modellerin bu alanda da uygulanması sonucunda yeni yaklaşımlar uygulanmaktadır. Birçok farklı çalışma dönüştürücü tabanlı modellerin içerisinde yer alan öz-dikkat ve yüksek hesaplama niteliklerini kullanarak EKG sınıflandırma problemini çözmeye çalışmaktadır. Zaman serisi temelli veri setleri için dönüştürücü tabanlı modellerin kullanımı kısıtlıdır ve uzun kısa süreli bellek gibi modeller daha yoğun bir şekilde kullanılmaktadır. Dönüştürücü tabanlı modeller zaman serisi anlamında genellikle tahminleme amacıyla finans, hava durumu tahmini gibi alanlarda kullanılmaktadır. Uzmanların karışımı (mixture-of-experts) modelleri büyük dil modelleri alanında farklı implementasyon örnekleri ile başarılı bir şekilde uygulanmış bir metottur. Bu metot için modeldeki hesaplama katmanları birden fazla uzmana bölünerek bir yönlendirme katmanı aracılığıyla gelen girdiler karakteristiğine göre uzmanlara yönlendirilmektedir. Yönlendirme fonksiyonu da modelin öğrendiği bir katman olarak belirlenmektedir. Uzmanlar arasında eşit bir şekilde girdilerin dağıtılması, uzmanların eşit kullanım oranlarına sahip olması amacıyla farklı kayıp fonksiyonları modelin genel kayıp fonksiyonuna dahil edilmektedir. Bu çalışmanın yapıldığı süre içerisinde EKG sınıflandırma alanında bu model çeşidi kullanılarak yapılan çalışmalar çok nadir bulunmaktadır. Bu çalışmada uzmanların karışımı bazlı bir dönüştürücü model kullanılarak bir veya daha fazla tanı etiketine sahip EKG verilerinin birden çok olabilecek şekilde sınıflarının tahminlenmesini amaçlamaktadır. Bu tahminler 10 saniyelik 500 Hz frekansına sahip 12 kanallı EKG verileri ve bu verilerin toplandığı hastanın yaş ve cinsiyet gibi demografik bilgileri kullanılarak yapılacaktır. Toplamda 26 farklı tanı bulunmaktadır ve her EKG kaydı en az bir tanı bulundurmaktadır. Tahminlenmesi amaçlanan etiketler bu tanılardır. Çalışmada toplamda altı farklı veri tabanından toplanan 81926 farklı etiketli veri kullanılacaktır. Verilerin ön işleme adımları için dijital sinyal işleme yöntemleri kullanılmıştır. Öncelikle verilerin standart bir uzunluğa sahip olabilmesi için her bir veri kaydı 10 saniyelik ve 500 Hz frekansına sahip olacak şekilde kırpılmış ve yeniden örneklenmiştir. Sonrasında bu kayıtlarda yer alan elektrik nedenli gürültülerin önlenmesi için farklı filtreleme yöntemleri denenmiştir. Butterworth, sonlu dürtü yanıtı (finite impulse filter) ve sonsuz dürtü yanıtı (infinite impulse filter) filtre yöntemleri ve farklı frekans değerleri sinyal-gürültü oranlarına göre karşılaştırmalı olarak bir alt grup üzerinde denenmiştir. Daha kaliteli sonuç verdiğinden dolayı sonlu dürtü yanıtı ve 500 Hz üzerinde karar kılınmıştır. Bunun dışında uç örneklerin tespit edilmesi amacıyla üç farklı metod ile bir oylama sistemi kurgulanmıştır. Z-skor, temel bileşen analizi ve izolasyon ormanı yöntemleri kullanılarak her bir kaydın öznitelikleri incelenerek bazı sınır değerleri aşan veriler işaretlenmiştir. Her bir veri için oylama sonucunda 3 oydan 2'sini alan veriler veri setinden çıkarılmıştır. Bu sayede daha kaliteli bir veri içeriği elde edilmiştir. Literatürde de sıkça başvurulan bir farklı yöntem ise modele sinyal değerleri haricinde ek dış verilerin de beslenmesidir. Bu aşamada da bilinen yöntemler kullanılarak EKG kayıtlarının her bir kanalı için farklı dalga tiplerinin tepe, başlangıç ve bitiş noktaları gibi tespit edilmiş ve ek öznitelikler olarak kaydedilmiştir. Model mimarisi kompleks bir şekilde tasarlanarak zaman bazlı olan bu verinin detaylıca öğrenilebilmesini amaçlanmıştır. Öncelikle modele girdi olarak beslenebilmesi ve zaman bağlamındaki özniteliklerinin öğrenilebilmesi için 12 farklı kanaldan gelen EKG sinyal verileri ve çıkarılan öznitelikler bir boyutlu bir konvolüsyon ağından geçirilerek boyutu artırılmış bir veri temsili elde edilmiştir. Elde edilen bu veri temsili sonrasında projeksiyon katmanları ile birleştirilmiş ve modelin ana katmanı olan dönüştürücüya girdi olarak beslenmiştir. Bu iki veri kanalı haricinde demografik veriler de benzer bir şekilde projeksiyon yöntemi ile modele bu veriler ile birlikte beslenmektedir. Dönüştürücü bloğunda temel özniteliklerin öğrenilebilmesi için kodlayıcı katmanların yarısı normal ileri beslemeli sinir ağı ile, diğer yarısı ise uzmanların karışımı modülü içeren sinir ağları kullanılarak oluşturulmuştur. Dönüştürücü tabanlı model verinin kendi içerisinde bir dikkat mekanizması kullanarak ilişki ağı kurmayı ve veriyi daha iyi bir şekilde anlamayı amaçlamaktadır. Uzman yapısı ise farklı karakteristikteki parçaların farklı uzmanlara yönlendirilmesi ile modelin öğrenme katmanlarını düzenlemesini amaçlamaktadır. Bu şekilde model seyrek (sparse) davranış gösterebilmektedir. Eğitim aşamasında kullanılacak olan metrikler ve konfigürasyonların takibi, yapılan deneylerin incelenmesi ve kayıtlarının tutulması için genel hatları ile bir sistem kurulmuştur. Bu sistem içerisinde optimal ayarlamaların yapılabilmesi için verinin homojen dağılmış bir alt kümesi alınarak deneyler yapılmıştır. Bu deneyler kapsamında öğrenme oranı, model gömme büyüklükleri, uzman sayısı gibi bazı temel parametreler belirlenmiştir. Model iç katman gömme oranı 96 olarak, tüm sinir ağlarının gizli katmanının büyüklüğü ise 384 olarak belirlenmiştir. Dönüştürücü modelinde 6 farklı kodlayıcı bloğu, her bir blokta 6 farklı baş, uzman sisteminde ise toplamda 4 uzman ve anlık olarak tek uzman kullanılmıştır. Belirlenen optimal bazı parametre konfigürasyonları kullanılarak altı farklı veri setinden toplanan tüm veri üzerinde 3e-3 öğrenme oranı ile 20 döngü eğitim gerçekleştirilmiştir. Öğrenme oranı Cosine Annealing yöntemi ile eğitim aşaması boyunca azaltılmıştır. Eğitim yığın büyüklüğü 16 ve gradyan birikimi 16 olarak belirlenmiştir. Efektif anlamdaki yığın büyüklüğü böylece 256 olmaktadır. Eğitim başlangıcında ısınma adımları ile öğrenme oranı doğrusal bir şekilde baz öğrenme oranına kadar artmaktadır. Modelin veriyi ezberlememesi amacıyla erken durdurma uygulanmaktadır. Eğitim sırasında sınıflandırma görevi için belirlenen özel metrikler kullanılarak değerlendirmeler incelenmiştir. Eğitilmiş model, toplam verinin %10'u kullanılarak oluşturulan test setinde test edilmiştir. Testler sonucunda % 59.98 F1 skoru, % 54.17 tam eşleşme, % 55.33 top-1, % 75.22 top-2, % 84.80 top-3 doğruluk and % 95.74 AUC-ROC değeri elde edilmiştir. Modelin anlam analizinin yapılabilmesi için örnek veriler üzerinde GradCAM ve dikkat katmanları kullanılarak analiz edilmiştir. Çalışma sonucunda model EKG tanı sınıflandırması gibi zor bir görev için iyi bir başarım göstermiştir. Bu verilerin yorumlanması ve değerlendirilmesinin bazı durumlarda uzmanlar arasında da objektif olarak hala değerlendirilemediği göz önünde bulundurulduğunda modelin başarım seviyesinin bu gibi uygulamalardaki başarım oranlarına göre daha düşük olmasının nedeni anlaşılabilmektedir. Bunun dışında 6 farklı veri setinin kullanılması, veri setlerinin etiketlenme standartlarının farklılığı, etiketleyen uzmanların deneyim seviyelerindeki farklılıklar ve yanlış etiketlemeler veri kalitesini etkileyen bazı etmenlerdir.

Özet (Çeviri)

Electrocardiogram (ECG) measures the electrical activity of the heart and is an important indicator for the detection of cardiac abnormalities. In general, ECG signals are measured from 10 different nodes, and 12 different leads are derived from these measurements. This is done to capture activity from different angles of the heart, therefore each lead captures different information about cardiac rhythm. Some diagnosis types can be detected with detailly analyzing these ECG records by looking at the specific characteristics of the signal such as peaks, transitions between peaks. Abnormal patterns in these signals can only be detected by the experts in the domain, although there are still challenges in the implementation phase. Automation of this process has been in the interest of researchers for a long time. Most early work focuses on the peak detection and beat classification tasks. The advancements in machine learning and deep learning have saturated and introduced successful implementation cases which have high accuracy and effectiveness for these tasks. As a more complex and sophisticated problem, automatic detection of the diagnosis is a common task which is being studied. Competitions such as PhysioNet CinC competition targeted this domain for several years and achieved great interest and results. The availability of datasets for ECG records accelerated these research interests. Several great datasets are open-source and available for research purposes. With the advancements in the large language model domain with the new model architecture called transformers becoming more prevalent, new approaches to the problem have emerged. Several studies implement transformer-based models for the ECG classification task. The embedded attention module in the model and high compute capability creates a great potential for signal computation. The usage of these models are still scarce and in development for time-series based data. Deep learning based methods such as long short term memory or gated recurrent units dominate and are commonly used. Even though there are great studies being done with transformer architecture, they mostly focus on forecasting based solutions for fields such as finance and weather forecasting. Another branch of transformer-based models is the mixture-of-expert approach where multiple experts are introduced within the model where the activation of these experts are controlled based on the incoming data. As in the making of this study, literature lacks implementation use cases with this model characteristics. This study aims to implement a mixture-of-experts based transformer model for the classification of ECG records into multiple diagnoses in a multi-label manner. Each record has 10 seconds of ECG record in 500 Hz frequency with demographic features available. There are a total of 26 different diagnosis labels and each record have one or more labels attached to it. These labels are the target which is being predicted. For this study 81926 different labeled ECG records are used from six different datasets. For the preprocessing and outlier analysis of the datasets, a digital signal filtering approach is used with finite impulse filtering and each record is normalized. For the preprocessing steps, different configurations are tested and the most optimal parameter set is chosen according to signal-to-noise ratio. For the outlier analysis, a triple voting system is used with three different methods; Z-score, principal component analysis and isolation forest. The records which receive 2 out of 3 votes are removed from the dataset. Another important step is to extract external features from the ECG records to feed into the model. In this study, several methods are used to extract features such as peaks and offset values. The model is constructed by feeding the signal values from 12 different channels of ECG and the extracted signal features. These features then are concatenated with demographic features. Signals and the features are fed into the model with 1D convolutional layers to enhance the time-dependent features. All of these features are projected into the model. The main model block includes normal encoder blocks with self-attention layers, pre-layer normalizations and skip connections. After three usual encoder blocks, three special encoders with mixture-of-experts blocks are used. This main transformer model attends to important information between time tokens. Mixture-of-experts modules have special gating networks which route the time tokens to different experts depending on their characteristics. The training setup is carefully designed to experiment with different configurations. Each parameter is optimized with a uniform subset of all data. The main model is trained with all data with optimized configuration for 20 epochs with learning rate of 3e-3 with cosine annealing. Batch size of 16 is used with gradient accumulation steps of 16, making the effective batch size as 256. The training runs use dropout, warm up steps and early stopping for effective training. The model inner dimension is set as 96 and the feed-forward network as 384, there are 6 encoders and 6 heads for each attention head. The mixture-of-experts are composed of 4 experts with top-1 routing. For testing and evaluating special metrics for the task is constructed. The trained model on 80 % of the data as a training set is optimized on a 10 % validation set and tested on the 10 % test set. The tests resulted in 59.98 % macro F1 score, 54.17 % exact match score, 55.33 % top-1, 75.22 % top-2, 84,80 % top-3 accuracies and 95.74 % macro AUC-ROC value are achieved on 6 different dataset and 26 diagnosis with multi-label. The model achieves a great result for a difficult scenario of ECG classification task. The task requires a high level of expertise and is a complex problem with different facets.

Benzer Tezler

  1. Automatic arrhythmia classification from electrocardiogram measurements with deep learning

    Derin öğrenme ile elektrokardiyogram ölçümlerinden otomatik aritmi sınıflandırma

    BERKCAN YURTSEVER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EBRU AKÇAPINAR SEZER

  2. Graf dönüşümlü derin öğrenme ile EKG sinyallerinin sınıflandırılması

    Classification of ECG signals with graph transformed deep learning

    GÖKHAN KUTLUANA

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İLKER TÜRKER

  3. Efficient classification of multi-label data streams with label prioritization

    Çok-etiketli veri akışlarının etiket önceliklendirmesi ile verimli sınıflandırılması

    ONUR YILDIRIM

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  4. Implicit concept drift detection for multi-label data streams

    Çok etiketli veri akışları için denetimsiz kavram kayma tespiti

    EGE BERKAY GÜLCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  5. Örneklem tabanlı gürbüz konuşma tanıma

    Exemplar based noise robust speech recognition

    FATİH AKTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ENDER METE EKŞİOĞLU