Contributions to machine learning in biomedical informatics

Biyomedikal enformatikte makine öğrenmesine katkılar

PDF İndir

Tez No: 953177
Yazar: İNCİ MELİHA BAYTAŞ
Danışmanlar: PROF. DR. ANIL KUMAR JAIN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: Michigan State University
Enstitü: Yurtdışı Enstitü
Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
Sayfa Sayısı: 172

Özet

Dijital veri toplama cihazlarının ve hafıza kapasitelerinin artmasıyla neredeyse bütün ticari ve bilimsel alanlar üstel bir veri büyümesine tanıklık etmektedir. Örneğin, sağlık alanı, hastanelerde elektronik sağlık kayıtları sistemlerinin kullanılmaya başlamasıyle, olağanüstü bir dijital hasta verisi artışı yaşamaktadır. Bu veri bolluğu, veride öne çıkan bilgiler ortaya çıkarıldığı sürece, bir çok dayanıklı ve çok yönlü sistemin geliştirilebilmesine olanak sağlar. Diğer taraftan, çoğu zaman big data olarak adlandırılan günümüzdeki veriyi, büyük ölçekli ve karmaşıklığı sebebiyle analiz etmek zorluklar teşkil etmektedir. Bu nedenle, verideki değerli bilgilerin ortaya çıkarılması ve kullanılabilmesi için etkili veriye dayalı tekniklerin geliştirilmesi gerekmektedir. Makine öğrenmesi alanı bahsedilen tekniklerin geliştirilebilmesi için gerekli yöntemleri geliştirir. Makine öğrenmesi modelleri karmaşık gerçek hayat problemlerinin çözümü için kullanılmaktadır. Ancak büyük veri konsepti algoritma geliştirme aşamasında bir çok engel çıkarmaktadır. Bunlar makine öğrenmesi modellerinin dikkate alması gereken yüksek boyut, sınıf dengesizliği, lineer olmama, dağıtık veri, heterojen veri ve verinin zamana bağlı doğasının olması gibi durumlardır. Biyomedikal enformatik, Elektronik Sağlık Kayıtlarının (ESK) makine öğrenmesi ile analiz edildiği, disiplinlerarası bir alandır. ESK büyük veriye bir örnek teşkil eden farklı biçimleri olan dijital hasta verisini içermektedir. Bu nedenle, klinik araştırmalar açısından zengin bilgi içermesine rağmen hasta verisinin analiz edilmesi zordur. Diğer alanlarla karşılaştırıldığında ESK verisinin ölçeği o kadar yüksek olmasa da yine de bir doktorun binlerce hastanın verisini analiz etmesi ve yorumlaması mümkün değildir. Bu nedenle, hesaplamalı yaklaşımlar ve görsel araçlar doktorlara ESK verisinin önemli özniteliklerini ve istatistiklerini inceleyebilmesi için gereklidir. Biyomedikal enformatik alanı makine öğrenmesi ve veri madenciliği kullanarak, doktorlara karmaşık hasta verisinin analiz edilmesi ve yorumlanması için destek olmak için gerekli hesaplamalı modelleri geliştirir. Bu tezde, öne çıkan biyomedikal enformatik problemlerinden yola çıkarak, ESK verisinin analiz edilmesi için, makine öğrenmesi modelleri önerilmiş ve geliştirilmiştir. Özellikle şu katkılar sağlanmıştır: (i) Bir konveks temel bileşenler analizi yöntemi varyansı azaltılmış proximal stochastic gradient descent yaklaşımı çözülecek şekilde önerilmiş ve önerilen bu yöntem hasta fenotipleme yani benzer hastalıklara sahip hasta gruplarının bulunması probleminin çözümüne uygulanmıştır. (ii) Dağıtık ESK verisiyle tahmin modellerinin geliştirilebilmesini sağlayan bir asenkron dağıtık multi-task öğrenme modeli geliştirilmiştir. (iii) Benzer hastalık ilerleme özellikleri bulunan hasta gruplarının ortaya çıkarılması yani hasta alttipleme probleminin çözümü için özel geliştirilmiş bir Long-short Term Memory (LSTM) yapay sinir ağı önerilmiştir. Önerilen T-LSTM olarak adlandırılan bu yeni model, hücre hafızası üzerinde altuzay ayrıştırma yaparak bir önceki zaman adımının kısa vadeli etkilerinin eğer bir önceki zaman adımı çok uzun zaman önce gerçekleştiyse azaltımasını amaçlamaktadır. (iv) T-LSTM modeline alternatif olarak kısa ve uzun vadeli hafızanın ayrıştırıldığı DM-GRN modeli önerilmiştir. Bu modelde, iki çeşit hafızanın zaman serisinin farklı bileşenlerine odaklanması sağlanmıştır. Bu çalışmada, sağlık uygulamaları dışında, modelin davranışı trafik hızı kestirimi modeli için de kullanılmıştır. Özet olarak, yukarıda bahsedilen makine öğrenmesi modelleri, ESK verisinin karmaşık karakteristiğini göz önüne alarak hasta fenotipleme ve alttipleme gibi biyomedikal enformatik problemlerinin çözümüne desktek olmak için geliştirilmiştir. Önerilen modeller, verisinin karakteristik özellikleri ESK verisine benzeyen diğer alanlara da uygulanabilir.

Özet (Çeviri)

With innovations in digital data acquisition devices and increased memory capacity, virtually all commercial and scientific domains have been witnessing an exponential growth in the amount of data they can collect. For instance, healthcare is experiencing a tremendous growth in digital patient information due to the high adaptation rate of electronic health record systems in hospitals. The abundance of data offers many opportunities to develop robust and versatile systems, as long as the underlying salient information in data can be captured. On the other hand, today's data, often named big data, is challenging to analyze due to its large scale and high complexity. For this reason, efficient data-driven techniques are necessary to extract and utilize the valuable information in the data. The field of machine learning essentially develops such techniques to learn effective models directly from the data. Machine learning models have been successfully employed to solve complicated real world problems. However, the big data concept has numerous properties that pose additional challenges in algorithm development. Namely, high dimensionality, class membership imbalance, non-linearity, distributed data, heterogeneity, and temporal nature are some of the big data characteristics that machine learning must address. Biomedical informatics is an interdisciplinary domain where machine learning techniques are used to analyze electronic health records (EHRs). EHR comprises digital patient data with various modalities and depicts an instance of big data. For this reason, analysis of digital patient data is quite challenging although it provides a rich source for clinical research. While the scale of EHR data used in clinical research might not be huge compared to the other domains, such as social media, it is still not feasible for physicians to analyze and interpret longitudinal and heterogeneous data of thousands of patients. Therefore, computational approaches and graphical tools to assist physicians in summarizing the underlying clinical patterns of the EHRs are necessary. The field of biomedical informatics employs machine learning and data mining approaches to provide the essential computational techniques to analyze and interpret complex healthcare data to assist physicians in patient diagnosis and treatment. In this thesis, we propose and develop machine learning algorithms, motivated by prevalent biomedical informatics tasks, to analyze the EHRs. Specifically, we make the following contributions: (i) A convex sparse principal component analysis approach along with variance reduced stochastic proximal gradient descent is proposed for the patient phenotyping task, which is defined as finding clinical representations for patient groups sharing the same set of diseases. (ii) An asynchronous distributed multi-task learning method is introduced to learn predictive models for distributed EHRs. (iii) A modified long-short term memory (LSTM) architecture is designed for the patient subtyping task, where the goal is to cluster patients based on similar progression pathways. The proposed LSTM architecture, T-LSTM, performs a subspace decomposition on the cell memory such that the short term effect in the previous memory is discounted based on the length of the time gap. (iv) An alternative approach to T-LSTM model is proposed with a decoupled memory to capture the short and long term changes. The proposed model, decoupled memory gated recurrent network (DM-GRN), is designed to learn two types of memories focusing on different components of the time series data. In this study, in addition to the healthcare applications, behavior of the proposed model is investigated for traffic speed prediction problem to illustrate its generalization ability. In summary, the aforementioned machine learning approaches have been developed to address complex characteristics of electronic health records in routine biomedical informatics tasks such as computational patient phenotyping and patient subtyping. Proposed models are also applicable to different domains with similar data characteristics as EHRs.

Benzer Tezler

Tez No
795749
A deep learning based protein representation model forlow-data protein function prediction
Az veri ile protein fonksiyon tahmini için derin öğrenmebazlı bir protein temsil modeli
SERBÜLENT ÜNSAL
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Sağlık Bilişimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYBAR CAN ACAR
DOÇ. DR. TUNCA DOĞAN
Tez No
846535
Antenna design for breast cancer detection and machine learning approach for birth weight prediction
Meme kanseri tespiti için anten tasarımı ve doğum ağırlığı tahmini için makine öğrenmesi yaklaşımı
HALUK KIRKGÖZ
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ONUR KURT
Tez No
898091
Mathematical model-based clinical decision support system algorithm design study that can support the diagnosis of celiac disease
Çölyak hastalığının teşhisine destek verebilecek matematik model tabanlı kds algoritması tasarımı
ELİF KESKİN BİLGİÇ
Doktora
İngilizce
2024
Mühendislik Bilimleri İstanbul Üniversitesi-Cerrahpaşa
Biyomedikal Mühendisliği Ana Bilim Dalı
DR. İNCİ ZAİM GÖKBAY
DOÇ. DR. YUSUF KAYAR
Tez No
848408
Developing a novel artificial intelligence based method for diagnosing chronic obstructive pulmonary disease
Kronik obstrüktif akciğer hastalığı teşhisi için yapay zeka tabanlı yeni bir yöntem geliştirilmesi
İNANÇ MORAN
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ TURGAY ALTILAR
Tez No
843497
Obtain anterior/posterior position of the tumor through machine learning
Makine öğrenme yoluyla tümörün anterior/posterior pozisyonunu elde edin
GOLSHAN GHOLAMPOUR
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik-Haberleşme Eğitimi Ana Bilim Dalı
PROF. DR. İBRAHİM AKDUMAN

Geri Dön