Adapting a robust model into hybrid implementations of machine learning algorithms and statistical methods for longitudinal data

Sağlam bir modelin makina öğrenmesi algoritmalarının ve istatistiksel metotların hibrit uygulamalarına boylamsal veriler için uyarlanması

PDF İndir

Tez No: 689484
Yazar: İBRAHİM HAKKI ERDURAN
Danışmanlar: DR. ÖĞR. ÜYESİ FULYA GÖKALP YAVUZ, PROF. DR. MERAL EBEGİL
Tez Türü: Yüksek Lisans
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 84

Özet

Aynı özelliklerin farklı zaman noktalarında tekrarlı olarak ölçüldüğü veri yapıları boylamsal veri türleri arasında sayılmaktadır. Bu veri kümeleri her bir tekrar arasındaki bağımlılık yapısı nedeniyle, ileri modelleme tekniklerinin kullanılmasını gerektirmektedir. Lineer karma modeller (LMM) bu tip veri setlerinin analizinde kullanılan, ileri bir regresyon yöntemidir. LMM yöntemi sağladığı bir çok esneklik ve avantajla birlikte, model kurulumu gerçek veri setlerinde sağlanması zor olan bir takım varsayımlara dayanmaktadır. Boylamsal veri analizi için başka bir seçenek ise makine öğrenmesi (ML) algoritmaları olabilmektedir. Ancak bir çok algoritma verilerin bağımsız ve aynı dağılımlı dağılmasını zorunlu kılar ve bu varsayım boylamsal veriler için uygun değildir. Bu sınırlamalar nedeniyle, rastgele etkileri ve sabit etkileri barındıran modellerde, boylamsal veriler için hassas tahminler yapan LMM ve ML'yi birlikte içeren hibrit yöntemler geliştirilmiştir. Ancak bu yöntemlerde hataların normal dağılımı varsayımına dayalı, kalın kuyruklu dağılımlar veya aykırı gözlemlerin bulunduğu durumlara karşı sağlam olmayan, model kurulumları mevcuttur. Bu çalışma, LMM ve ML'yi içeren hibrit bir modeli kalın kuyruklu bir dağılım ile genişletmeyi ve sağlamlaştırmayı hedeflemektedir. Önerilen model ile LMM rassal etkiye ilişkin parametre tahminlerini sağlam bir yöntem ile gerçekleştirirken; ML algoritması sabit etki parametrelerinin tahminini gerçekleştirecektir. İki ayrı gerçek veri seti ve farklı durumları içeren simülasyon çalışmaları üzerinde denenen model, gerçek veri setlerinde ve özellikle kalın kuyruklu dağılımları ve aykırı durumları içeren simülasyon denemelerinde ümit verici sonuçlar vermiştir. RMSE, AIC ve BIC gibi karşılaştırma kriterlerine dayalı sonuçların neredeyse tamamı önerilen metodun lehinedir. Bu çalışma, istatistiğin modern konularından birini sağlam bir yaklaşım ve makine öğrenmesi metodu ile genişletirken; sağlanan açık kaynak ve kodlar ile bu alanda uygulama yapan araştırmacılara yol gösterici olacaktır.

Özet (Çeviri)

Data structures in which the same characteristics are measured repeatedly at different time points are counted among the longitudinal data types. These datasets require the use of advanced modeling techniques because of the dependency structure amongst replicates. Linear mixed models (LMM) is an advanced regression method used in the analysis of such data sets. Although the LMM method provides many flexibility and advantages, the model setup is based on a number of assumptions that are challenging to provide in real data sets. Another method for analyzing the longitudinal data could be machine learning (ML) algorithms. However, many of them desire data to be independent and identically distributed (iid) which is not applicable for longitudinal data. Because of these limitations, hybrid methods including both LMM and ML have been developed to make precise estimations for longitudinal data in models with both random and fixed effects. However, these methods have model setups based on the assumption of a normal distribution of errors, which are not robust to the presence of heavy-tailed distributed data and outlier observations. This study aims to extend and robustfy hybrid methods including LMM and ML by introducing a heavy-tailed distribution into the model setting. While LMM performs parameter estimations related to the random effect with a robust approach; the ML algorithm performs the estimation of the fixed effect parameters with the proposed model. The model is tested on two real data sets and simulation studies with several conditions and it gives promising results in real datasets and especially in simulation trials involving heavy-tailed situations and outliers. Almost all of the results based on comparison criteria such as RMSE, AIC and BIC favor the proposed method. While this study expands one of the modern topics of statistics with a robust approach and a machine learning method; it will guide researchers who practice in this field with the open source and codes provided.

Benzer Tezler

Tez No
962042
Contributions to the determination of optimized driving strategies for electric vehicles using artificial intelligence based methods
Elektrikli araçlar için yapay zeka tabanlı yöntemlerle en uygunlaştırılmış sürüş stratejilerinin belirlenmesine katkılar
UFUK BOLAT
Yüksek Lisans
İngilizce
2025
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektrik Mühendisliği Ana Bilim Dalı
DOÇ. DR. DERYA AHMET KOCABAŞ
DOÇ. DR. GÜLCİHAN ÖZDEMİR
Tez No
931418
Yapay zeka ile meme kanseri teşhisi
Breast cancer diagnosis with artificial intelligence
İLKER ÇAKAR
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliği Sakarya Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED KÜRŞAD UÇAR
Tez No
964941
Bazı tekstil boyalarının penicillium funiculosum küfü ile biyosorpsiyon ve biyoakümülasyon özelliklerinin incelenmesi
Investigation of biosorption and bioaccumulation properties of some textile dyes with penicillium funiculosum
NURSENA DEMİR
Yüksek Lisans
Türkçe
2025
Biyokimya Sakarya Üniversitesi
Kimya Ana Bilim Dalı
DOÇ. DR. SEMRA YILMAZER KESKİN
Tez No
856275
Design and deployment of deep learning based fuzzy logicsystems
Derin öğrenme tabanlı bulanık sistemlerin geliştirilmesi ve uygulanması
AYKUT BEKE
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR
Tez No
421066
Natural ventilation of high-rise buildings a methodology for planning with different analysis tools and case-study integration
Çok katlı binalarda doğal havalandırma farklı analiz araçları ve örnek alan entegrasyonu ile planlama için bir yöntem
TOBIAS SCHULZE
Doktora
İngilizce
2015
Enerji İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
Prof. Dr. AYŞE ZERRİN YILMAZ
PROF. DR. MARCO PERINO

Geri Dön