Geri Dön

Uzun süreli verilerin analizinde kullanılan makine öğrenmesi algoritmaları

Machine learning algorithms for longitudinal data analysis

  1. Tez No: 868167
  2. Yazar: CAN DEMİRCİGİL
  3. Danışmanlar: DOÇ. DR. MELİKE BAHÇECİTAPAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 91

Özet

Aynı birimlerin zaman boyunca takip edilerek ölçümlerin tekrarlı olarak alınması ile elde edilen veriler“uzun süreli veriler”(boylamsal veriler) olarak adlandırılmaktadır. Tıp, psikoloji, sosyoloji, çevre bilimi vb. alanlarda toplanan uzun süreli veriler, zaman serileri ve klasik regresyon analizlerinden ziyade karma etkiler modelleri gibi özel istatistiksel yöntemlerle analiz edilmektedir. Son yıllarda popülerliği giderek artan makine öğrenmesi algoritmaları uzun süreli veri kümeleri için de kullanılabilir hale gelmiştir. Bu noktada bilgi teknolojilerinin de etkisiyle R ve Python gibi yazılımlar kullanılarak bu algoritmalar paketler halinde kullanılabilmektedir. Uzun süreli verilerin analizinde başvurulan makine öğrenmesi algoritmaları karma etkiler modellerinin sabit etki parametrelerinin tahmin edilmesi için yararlanılmakta olup bu yöntemler nitel veya nicel sonuçlar ve hayatta kalma süreleri gibi farklı cevapları ele alabilmektedir. Ayrıca, bu yöntemler herhangi bir varsayım gereksinimini çeşitli ölçeklerdeki veya dağılımlardaki değişkenlerle çalışabilmekte ve açıklayıcı değişken sayısının gözlem sayısından daha fazla olduğu çok boyutlu veri kümeleri için de uygundur. Bu tez çalışmasında, Türkiye'de trafiğe kayıtlı olan motorlu taşıtlara ilişkin araç muayene istasyonlarında derlenen idari kayıt verileri kullanılarak 2013-2023 yılları arasında her iki yılda bir düzenli olarak muayeneye gelen 1569 adet araca ilişkin 5 farklı zaman noktasında ölçümler içeren dengeli bir uzun süreli veri kümesi istatistiksel model olarak karma etkiler modelleri ve yapay zekâ dallarından biri olan makine öğrenmesi algoritmaları ile incelenmiştir. Sağa çarpık bir dağılım gösteren ölçümlere sahip olan araçların yıllara göre katettikleri mesafeler üzerinde yıl, araç cinsi, araçların yakıt türü ve kullanım amacı açıklayıcı değişkenlerinin etkileri istatistiksel ve makine öğrenmesi yöntemleri ile karma etkili modeller oluşturularak incelenmiştir. İstatistiksel yöntemlerden Genelleştirilmiş Doğrusal Karma Etki Modelleri (GDKEM) ile makine öğrenmesi yöntemlerinden Karma Etkili Rastgele Ağaç/Orman, Rastgele Etki Beklenti Maksimizasyonu Ağacı/Ormanı, GDKEM Ağacı ve Gauss Süreci Güçlendirmesi yöntemleri uzun süreli veri kümesi üzerinde farklı bağ fonksiyonları ve kovaryans yapıları düşünülerek uygulanmış ve modeller performans değerlendirme ölçütlerine göre karşılaştırılmıştır. Çalışma sonucunda, AR(1) varyans-kovaryans yapısına sahip Karma Etkili Rastgele Orman algoritmasının tüm istatistiksel ve makine öğrenmesi modelleri içerisinde HKO, HKOK ve OMH model performans değerlendirme ölçütlerine göre en iyi sonuç veren model olduğu sonucuna ulaşılmıştır.

Özet (Çeviri)

Data obtained by tracking the same units over time and taking measurements repeatedly are called“longitudinal data”. Longitudinal data collected in fields such as medicine, psychology, sociology, environmental science, etc. are analysed with special statistical methods such as Mixed Effects Models rather than time series and classical regression analyses. Machine learning algorithms, which have become increasingly popular in recent years, have become available for longitudinal datasets. At this point, with the effect of information technologies, these algorithms can be used as packages using software such as R and Python. Machine learning algorithms utilized in the analysis of longitudinal data are used to estimate the fixed effect parameters of Mixed Effects Models, and these methods can handle different responses such as categorical or quantitative results and survival times. Furthermore, these methods can work with variables of various scales or distributions without any assumption requirements and are also suitable for multidimensional datasets where the number of explanatory variables is greater than the number of observations. In this thesis, a balanced longitudinal dataset containing measurements at 5 different time points for 1569 vehicles that regularly come for inspection every two years between 2013 and 2023 using administrative records compiled at vehicle inspection stations for motor vehicles registered to traffic in Türkiye is analysed with Mixed Effects Models as statistical models and machine learning algorithms, one of the branches of artificial intelligence. The effects of the explanatory variables of year, vehicle type, fuel type and purpose of use on the distances travelled by the vehicles according to years, which have measurements showing a right-skewed distribution, are examined by creating Mixed Effects Models with statistical and machine learning methods. Generalized Linear Mixed Effects Models (GLMM) from statistical methods and Mixed Effects Random Tree/Forest, Random Effects Expectation Maximisation Tree/Forest, GLMM Tree and Gaussian Process Boosting methods from machine learning methods were applied on the longitudinal dataset considering different link functions and covariance structures and the models were compared according to performance evaluation criteria. As a result of this study, it is concluded that the Mixed Effect Random Forest algorithm with AR(1) variance-covariance structure is the best model among all statistical and machine learning models according to the MSE, RMSE and MAE model performance evaluation criteria.

Benzer Tezler

  1. Lifelong learning for auditory scene analysis

    İşitsel sahne analizi için hayat boyu öğrenme

    BARIŞ BAYRAM

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN İNCE

  2. Cryptocurrency price prediction by using social media data

    Makine öğrenmesi teknikleri kullanılarak sosyal medya verileri ile kripto para fiyat tahmini

    ÖZLEM GÜL PAMUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DOÇ. DR. SEFER BADAY

  3. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  4. Makine öğrenmesi yöntemleri kullanılarak kısa dönem rüzgar gücü tahmini

    Short-term wind forecast using machine learning methods

    KÜBRA YAZICI

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. SEMRA BORAN

  5. Machine learning based selection of candidate wells for extended shut-in due to fluctuating oil prices

    Değişken petrol fiyatları nedeniyle uzun süreli kapatılması gereken kuyuların makine öğrenmesi ile belirlenmesi

    BEYZA LOBUT

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik Üniversitesi

    Petrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İHSAN BURAK KULGA

    DOÇ. DR. FAZIL EMRE ARTUN