Eğilim skoru eşleştirme yöntemlerinin performanslarının değerlendirilmesi ve web tabanlı bir arayüzün geliştirilmesi
Evaluating the performance of propensity score matching methods and developing a web based interface
- Tez No: 817637
- Danışmanlar: DOÇ. DR. TİMUR KÖSE, PROF. DR. CEMİL ÇOLAK
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
- Bilim Dalı: Biyoistatistik Bilim Dalı
- Sayfa Sayısı: 123
Özet
EĞİLİM SKORU EŞLEŞTİRME YÖNTEMLERİNİN PERFORMANSLARININ DEĞERLENDİRİLMESİ VE WEB TABANLI BİR ARAYÜZÜN GELİŞTİRİLMESİ Randomizasyonun sağlanmadığı gözlemsel çalışmalarda, tedavi ve kontrol grupları arasında ortak değişkenler bakımından büyük farklılıklar olabilir. Bu farklılıklar nedeniyle nedensel çıkarım yapmak zordur. Gruplar arasında böyle farklılıklar olduğunda grupları doğrudan karşılaştırmak yanlılık oluşturacaktır. Bu yanlılığı ortadan kaldırmak için tedavi ve kontrol grupları arasındaki gözlemlenen özelliklerin dağılımlarındaki farklılıkları dengelemek gerekir. Bireylerin ortak değişkenleri göz önüne alındığında bir birey için, koşullu tedavi olasılığı olarak tanımlanan eğilim skoru, iki gruptaki ortak değişkenleri dengelemek ve böylece yanlılığı azaltmak için kullanılabilir. Böyle dengesizlikleri gidermek adına literatürde çeşitli çalışmalar mevcuttur fakat bu çalışmalarda ilgili yöntemler kapsamlı bir şekilde değerlendirilmemiştir. Diğer taraftan makine öğrenmesi yöntemlerini ve eşleştirme yöntemlerini birlikte değerlendiren çalışma sayısı çok azdır. Ayrıca bu yöntemleri bir arada değerlendiren ve kullanıcı dostu bir program bulunmamaktadır. Bu tezde eğilim skoru eşleştirme yöntemleri ile tedavi ve kontrol gruplarının gözlenen ortak değişkenler bakımından dengelenmesi amaçlanmıştır. Bu bakımdan büyük veri setlerinde, ortak değişken sayısı fazla olduğu durumda lojistik regresyon ve makine öğrenmesi yöntemleri kullanılarak eğilim skorları tahminlenmiştir ve gruplar arasındaki dengesizlik giderilmiştir. Ayrıca eşleştirme yöntemlerinin performansları karşılaştırılmıştır ve bu yöntemleri içeren açık erişimli bir arayüz yazılımı geliştirilmiştir. Bu amaçla üç adet simüle veri seti türetilmiştir. Bağımlı değişken (y) tedavi ve kontrol grupları oranlarına göre (0.2-0.8, 0.4-0.6) 5 kategorik 5 sayısal, 10 kategorik 10 sayısal ve 15 kategorik 15 sayısal olmak üzere 3'er adet veri seti örneklem büyüklüğü 1000 olacak şekilde türetilmiştir. Açık erişim veri seti olarak da diyabet veri seti kullanılmıştır. Çalışmada ilk olarak; ortak değişkenlerin denge kontrolü yapılmıştır. Sonrasında lojistik regresyon, rastgele orman (random forest) ve genelleştirilmiş artan model (gam), esnek (flexible) diskriminant analizi, yapay sinir ağları ve CART algoritmaları kullanılarak eğilim skorları tahmin edilmiştir. Bu tahminlerden elde edilen skorlara göre mahalanobis, kaliper, en yakın komşu eşleştirmesi (nearest neighbor), kaliper içinde en yakın komşu, optimal ve genetik yöntemlere dayalı eşleştirmeler yapılmıştır. Tüm istatistiksel analizlerde R 3.6.3 programı ve geliştirilen yazılım kullanılmıştır. Eşleştirme sonuçları standartlaştırılmış ortalama farklar, varyans oranı ve Kolmogorov-Smirnov istatistiği ile değerlendirilmiştir. Bu denge metriklerine göre ortak değişkenler bakımından gruplarda denge sağlanmıştır. Eşleştirme sonuçlarına göre tüm algoritmaların sonuçları benzer çıkmıştır. Sadece sınıflandırma ve regresyon ağaçları (CART) ile elde edilen optimal ve tam(full) eşleştirme, daha düşük denge metriklerine sahiptir. Sonuç olarak; makine öğrenmesi yöntemleri, lojistik regresyon yöntemine alternatif olarak kullanılabilir. Büyük veri setlerinde bu yöntemlerin karşılaştırılmasının daha uygun sonuçlar vereceği düşünülmektedir. Ayrıca eğilim skoru eşleştirmesi için geliştirilen kullanıcı dostu yazılım ücretsiz olarak kullanılabilir. Anahtar Kelimeler; eğilim skoru; eşleştirme; tedavi-kontrol; ortak değişken
Özet (Çeviri)
EVALUATING THE PERFORMANCE OF PROPENSITY SCORE MATCHING METHODS AND DEVELOPING A WEB BASED INTERFACE In observational studies where randomization is not implemented, there can be significant differences in common variables between treatment and control groups. Due to these differences, making causal inferences becomes challenging. Comparing the groups directly in the presence of such differences will introduce bias. To eliminate this bias, it is necessary to balance the distributions of observed characteristics between treatment and control groups. When considering the covariates of individuals, the propensity score, defined as the conditional probability of treatment, can be used to balance the covariates between the two groups and thus reduce bias. Various studies have been conducted to address such imbalances; however, these studies have not thoroughly evaluated the relevant methods. Additionally, there are very few studies that evaluate machine learning methods and matching methods together. Furthermore, there is currently no user-friendly program that evaluates and combines these methods. This thesis aims to balance the treatment and control groups in terms of observed covariates using propensity score matching methods. In this regard, propensity scores were estimated using logistic regression and machine learning methods when dealing with large datasets with a high number of common variables. The imbalances between the groups were addressed, and the performances of matching methods were compared. An open-access interface software that incorporates these methods was also developed. To achieve this, three simulated datasets were generated. The dependent variable (y) had two treatment and control group ratios (0.2-0.8, 0.4-0.6), and three datasets were derived with 5 categorical and 5 numerical variables, 10 categorical and 10 numerical variables, and 15 categorical and 15 numerical variables, respectively. The sample size for each dataset was set at 1000. The diabetes dataset was used as an open-access dataset. Firstly, the balance control of common variables was conducted. Then, propensity scores were estimated using logistic regression, random forest, generalized additive model (GAM), flexible discriminant analysis, artificial neural networks, and CART algorithms. Based on these estimated scores, matching was performed using Mahalanobis distance, caliper, nearest neighbor matching, caliper within nearest neighbor, optimal, and genetic matching based on genetic algorithms. R 3.6.3 program and the developed software were used for all statistical analyses. The matching results were evaluated using standardized mean differences, variance ratios, and Kolmogorov-Smirnov statistics. According to these balance metrics, the balance was achieved regarding common variables between the groups. The matching results showed similar outcomes for all algorithms, except for optimal and full matching obtained with classification and regression trees (CART), which had lower balance metrics. In conclusion, machine learning methods can be used as an alternative to logistic regression. It is believed that comparing these methods in large datasets will yield more appropriate results. Additionally, the user-friendly software developed for propensity score matching is available for free use. Keywords;propensity score; matching; case-control; covariate
Benzer Tezler
- Eğilim skoru kullanılarak eşleştirme yöntemlerinin performanslarının karşılaştırılması
Comparison of performances of matching methods using propensity score
ESRA BEŞPINAR
- Three essays in applied macroeconomics: A quasi-experimental approach
Uygulamalı makroekonomi üzerine makaleler: Yarı deneysel bir yaklaşım
AYMAR BERENGER ISMAEL NANA
- Böbrek taşı tedavisinde prone ve supin mini perkütan nefrolitotomi yöntemlerinin etkinlik, güvenilirliğinin karşılaştırılması: 1:1 eşleştirmeli analiz
Comparison of the efficacy and safety of mini percutaneous nephrolithotomy in renal stone treatment under the prone and supine position: a matched-pair analysis
HARUN ÖZDEMİR
Tıpta Uzmanlık
Türkçe
2018
ÜrolojiSağlık Bilimleri ÜniversitesiÜroloji Ana Bilim Dalı
DOÇ. DR. MEHMET FATİH AKBULUT
UZMAN AKİF ERBİN
- Effectiveness of digital didactic games on the dynamic assessment of young EFL learners' reading comprehension skill
Dı̇jı̇tal eğitsel oyunların İngı̇lı̇zce öğrenen gençlerı̇n okuma becerilerı̇nı̇n devimsel (dinamik) değerlendı̇rı̇lmesı̇ne etkisi
FATMA NUR KAYA
Yüksek Lisans
İngilizce
2024
Eğitim ve ÖğretimOndokuz Mayıs ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. NALAN KIZILTAN
- 6. sınıf matematik dersi ondalık sayılar konusunun aktif öğrenme teknikleri ile öğretiminin öğrenci başarısına ve kalıcılığa etkisi
The effect of the teaching of the subject of decimal numbers in 6th grade maths lesson with active learning style to the student success and the retention
FATMA KARAKUŞ
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimErciyes Üniversitesiİlköğretim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATMA BERNA BENLİ