Uzun süreli verilerin analizinde kullanılan makine öğrenmesi algoritmaları
Machine learning algorithms for longitudinal data analysis
- Tez No: 868167
- Danışmanlar: DOÇ. DR. MELİKE BAHÇECİTAPAR
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 91
Özet
Aynı birimlerin zaman boyunca takip edilerek ölçümlerin tekrarlı olarak alınması ile elde edilen veriler“uzun süreli veriler”(boylamsal veriler) olarak adlandırılmaktadır. Tıp, psikoloji, sosyoloji, çevre bilimi vb. alanlarda toplanan uzun süreli veriler, zaman serileri ve klasik regresyon analizlerinden ziyade karma etkiler modelleri gibi özel istatistiksel yöntemlerle analiz edilmektedir. Son yıllarda popülerliği giderek artan makine öğrenmesi algoritmaları uzun süreli veri kümeleri için de kullanılabilir hale gelmiştir. Bu noktada bilgi teknolojilerinin de etkisiyle R ve Python gibi yazılımlar kullanılarak bu algoritmalar paketler halinde kullanılabilmektedir. Uzun süreli verilerin analizinde başvurulan makine öğrenmesi algoritmaları karma etkiler modellerinin sabit etki parametrelerinin tahmin edilmesi için yararlanılmakta olup bu yöntemler nitel veya nicel sonuçlar ve hayatta kalma süreleri gibi farklı cevapları ele alabilmektedir. Ayrıca, bu yöntemler herhangi bir varsayım gereksinimini çeşitli ölçeklerdeki veya dağılımlardaki değişkenlerle çalışabilmekte ve açıklayıcı değişken sayısının gözlem sayısından daha fazla olduğu çok boyutlu veri kümeleri için de uygundur. Bu tez çalışmasında, Türkiye'de trafiğe kayıtlı olan motorlu taşıtlara ilişkin araç muayene istasyonlarında derlenen idari kayıt verileri kullanılarak 2013-2023 yılları arasında her iki yılda bir düzenli olarak muayeneye gelen 1569 adet araca ilişkin 5 farklı zaman noktasında ölçümler içeren dengeli bir uzun süreli veri kümesi istatistiksel model olarak karma etkiler modelleri ve yapay zekâ dallarından biri olan makine öğrenmesi algoritmaları ile incelenmiştir. Sağa çarpık bir dağılım gösteren ölçümlere sahip olan araçların yıllara göre katettikleri mesafeler üzerinde yıl, araç cinsi, araçların yakıt türü ve kullanım amacı açıklayıcı değişkenlerinin etkileri istatistiksel ve makine öğrenmesi yöntemleri ile karma etkili modeller oluşturularak incelenmiştir. İstatistiksel yöntemlerden Genelleştirilmiş Doğrusal Karma Etki Modelleri (GDKEM) ile makine öğrenmesi yöntemlerinden Karma Etkili Rastgele Ağaç/Orman, Rastgele Etki Beklenti Maksimizasyonu Ağacı/Ormanı, GDKEM Ağacı ve Gauss Süreci Güçlendirmesi yöntemleri uzun süreli veri kümesi üzerinde farklı bağ fonksiyonları ve kovaryans yapıları düşünülerek uygulanmış ve modeller performans değerlendirme ölçütlerine göre karşılaştırılmıştır. Çalışma sonucunda, AR(1) varyans-kovaryans yapısına sahip Karma Etkili Rastgele Orman algoritmasının tüm istatistiksel ve makine öğrenmesi modelleri içerisinde HKO, HKOK ve OMH model performans değerlendirme ölçütlerine göre en iyi sonuç veren model olduğu sonucuna ulaşılmıştır.
Özet (Çeviri)
Data obtained by tracking the same units over time and taking measurements repeatedly are called“longitudinal data”. Longitudinal data collected in fields such as medicine, psychology, sociology, environmental science, etc. are analysed with special statistical methods such as Mixed Effects Models rather than time series and classical regression analyses. Machine learning algorithms, which have become increasingly popular in recent years, have become available for longitudinal datasets. At this point, with the effect of information technologies, these algorithms can be used as packages using software such as R and Python. Machine learning algorithms utilized in the analysis of longitudinal data are used to estimate the fixed effect parameters of Mixed Effects Models, and these methods can handle different responses such as categorical or quantitative results and survival times. Furthermore, these methods can work with variables of various scales or distributions without any assumption requirements and are also suitable for multidimensional datasets where the number of explanatory variables is greater than the number of observations. In this thesis, a balanced longitudinal dataset containing measurements at 5 different time points for 1569 vehicles that regularly come for inspection every two years between 2013 and 2023 using administrative records compiled at vehicle inspection stations for motor vehicles registered to traffic in Türkiye is analysed with Mixed Effects Models as statistical models and machine learning algorithms, one of the branches of artificial intelligence. The effects of the explanatory variables of year, vehicle type, fuel type and purpose of use on the distances travelled by the vehicles according to years, which have measurements showing a right-skewed distribution, are examined by creating Mixed Effects Models with statistical and machine learning methods. Generalized Linear Mixed Effects Models (GLMM) from statistical methods and Mixed Effects Random Tree/Forest, Random Effects Expectation Maximisation Tree/Forest, GLMM Tree and Gaussian Process Boosting methods from machine learning methods were applied on the longitudinal dataset considering different link functions and covariance structures and the models were compared according to performance evaluation criteria. As a result of this study, it is concluded that the Mixed Effect Random Forest algorithm with AR(1) variance-covariance structure is the best model among all statistical and machine learning models according to the MSE, RMSE and MAE model performance evaluation criteria.
Benzer Tezler
- Lifelong learning for auditory scene analysis
İşitsel sahne analizi için hayat boyu öğrenme
BARIŞ BAYRAM
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN İNCE
- Cryptocurrency price prediction by using social media data
Makine öğrenmesi teknikleri kullanılarak sosyal medya verileri ile kripto para fiyat tahmini
ÖZLEM GÜL PAMUK
Yüksek Lisans
İngilizce
2019
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. SEFER BADAY
- Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK
- Makine öğrenmesi yöntemleri kullanılarak kısa dönem rüzgar gücü tahmini
Short-term wind forecast using machine learning methods
KÜBRA YAZICI
Yüksek Lisans
Türkçe
2021
Endüstri ve Endüstri MühendisliğiSakarya ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. SEMRA BORAN
- Machine learning based selection of candidate wells for extended shut-in due to fluctuating oil prices
Değişken petrol fiyatları nedeniyle uzun süreli kapatılması gereken kuyuların makine öğrenmesi ile belirlenmesi
BEYZA LOBUT
Yüksek Lisans
İngilizce
2024
Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik ÜniversitesiPetrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İHSAN BURAK KULGA
DOÇ. DR. FAZIL EMRE ARTUN