Geri Dön

Modeling count data using some distributions from generalized additive models with applications in R-program

Sayma verilerinin genelleştirilmiş toplamsal modellerden bazı dağılımlar kullanılarak modellenmesi ve R-programlama uygulamaları

  1. Tez No: 850054
  2. Yazar: MOHAMAD ALNAKAWA
  3. Danışmanlar: DOÇ. DR. NESLİHAN İYİT
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Selçuk Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 123

Özet

Kesikli veya sayılabilir veriler, belirli ayrık değerleri alan ve birçok bilim dalında, özellikle klinik ve epidemiyolojik bilimlerde yaygın olarak kullanılan verilerdir. Sayım verilerinin sağdan kesilmiş, soldan kesilmiş, çift kesilmiş, ve bir veya daha fazla değerde şişirilmiş veriler olmak üzere birçok türü vardır. Negatif binom modeli ve Poisson modeli sayım verilerini modellemek için yaygın olarak kullanılır. Ancak negatif binom modeli ve Poisson modeli uzun kuyruklu veya şişirilmiş değerler içeren sayım veri setlerini modellemek için uygun değildir. Bu nedenle negatif binom ve Poisson modelleri yerine kullanılabilecek alternatif modeller Sichel modeli, Poisson ters Gaussian modeli, ve şişirilmiş modeller vb. şeklinde sıralanabilir. Negatif binom tip I modeli, Sichel modeli ve Poisson ters Gaussian modeli; Poisson ve negatif binom modellerine göre daha az ilgi görmüştür. Bu tezde, GAMLSS ailesine ait bazı kesikli istatistiksel dağılımları modellemek için dört farklı sayım verisi türü kullanılmıştır. Tez çalışmasında altı değerindeki şişirilmiş sayım verileri problemini çözmek için yeni“altı şişirilmiş Poisson”regresyon modeli dağılım özellikleri ve emprik bir uygulaması ile beraber verilmiştir. Tez çalışmasında ele alınan dört farklı sayım verisini modellemek için kullanılan modeller aşağıdaki gibidir; İlk Uygulamada: Data International Limited, Bangladeş'teki kayıt dışı sektörün boyutlarını değerlendirmek için gerekli verileri elde etmek amacıyla özel bir anket kullanarak Mart ve Mayıs 2010 tarihleri arasında 1724 işletmeyi kapsayan bir çalışma gerçekleştirdi. Veriler, R-programında GAMLSS paketi aracılığıyla Poisson, Geometric, NB-I, NB-II, PIG ve Sichel sayım regresyon modelleri kullanılarak modellenmiş olup, tüm istatistiksel analizler R-studio Versiyon 4.0.3 programı kullanılarak yapılmıştır. Bangladeş'teki 1724 işletme için GAMLSS ailesindeki Sichel regresyon modelinin rastgele niceliksel artıklarının ortalamasının sıfıra yakın olduğu, önerilen modeller arasında en iyi model olduğunu göstermiştir. Sichel regresyon modelinin randomize kantil artıklarının varyansı bire yakın bulunmuştur. Sichel regresyon modelinin çarpıklık ve basıklık katsayıları sırasıyla 0 ve 3'e yakın bulunmuştur. İkinci Uygulamada: Avrupa Birliği (AB) COVID-19 Pandemi Verilerinin Modellenmesi AB üyesi ülkelerdeki (Kıbrıs, Lüksemburg, Malta, Estonya, Slovenya, Danimarka, Letonya, İsviçre, Hollanda, Slovenya, Avusturya, Litvanya, Belçika, Çek Cumhuriyeti, Portekiz, Hırvatistan, Macaristan, Bulgaristan, Romanya, İsveç, Yunanistan, Almanya, Polonya, Fransa, İspanya ve İtalya) toplam COVID-19 ölümlerini etkileyen ortak değişkenlerin belirlenmesidir. Sıfır kesikli Poisson kullanarak (ZTP) regresyon modeli ve sıfır kesik negatif Binom Tip I (ZTNB-1) regresyon modeli ve Sonuçlar ZTNB-I'in ZTP'den daha iyi olduğunu göstermektedir. Ayrıca ZTNB-1 regresyon modelinin uyumlaştırılmış konum parametresinin beklenen değeri sigara içen erkeklerde %1'lik değişimle 1.03 kat artar, 1 birimlik log(kişi başına GSYH) değişimle 0,005 kat azalır, hastane yatak başına bin yatak başına 1.68 kat, diyabet prevalansındaki %1 değişimle 1.20 kat, doğumda beklenen yaşam süresine göre 1.39 kat artmaktadır. Öte yandan, ZTNB-I regresyon modelinin uygun ölçek parametresinin beklenen değeri, doğumda beklenen yaşam süresine göre 2,55 kat artmakta ve log (kişi başına düşen GSYİH) göre 1 birim değişimle 0,008 kat azalmaktadır. Üçüncü Uygulamada: Sıfır şişirilmiş Poisson, sıfır şişirilmiş geometrik, sıfır şişirilmiş negatif binom tip I ve sıfır şişirilmiş Sichel modellerinin performansları, iki Portekiz ortaokulunun öğrenci performans verileri kullanılarak karşılaştırılmıştır. Veriler, iki Portekiz ortaokulunun“okul devamsızlığının sayısı”ile ilişkili on farklı açıklayıcı değişkeni içermektedir. ZIP, ZIG, ZINBI ve ZISichel modeller için AIC, BIC, GAIC Bilgi Kriteri ölçümleri:lerinin en küçük değerleri ZISichel modelinin en uygun model olduğunu göstermektedir. Dördüncü uygulamada: Yeni altı şişirilmiş Poisson modeli; Poisson, bir şişirilmiş Poisson, iki şişirilmiş Poisson modeli, üç şişirilmiş Poisson modeli, geometrik model ve sıfır şişirilmiş geometrik modele alternatif olarak ele alınmaktadır. Pakistan Çoklu Gösterge Kümeleme Araştırması (MICS6) verileri, yeni altı şişirilmiş Poisson modelinin kullanışlılığı ve etkililiğine bir örnek olarak kullanıldı, çünkü yanıt değişkeni (hayatta kalan çocuk sayısı) altıya eşit noktada şişirilmiş değere sahiptir. Altı şişirilmiş Poisson modelinin konum parametresinin log-link fonksiyonu, açıklayıcı değişkenlerin (kadınların eğitim düzeyleri, son aydaki tütün ürünleri kullanımı, ankete katılan kadınların refah dilimleri, bölgeleri ve yaşları) doğrusal terimleri olarak yazılmıştır. RS yöntemi şu şekildedir: altı şişirilmiş Poisson modeli tahmincisini elde etmek için kullanılır. Sonuçlar, altı şişirilmiş Poisson modeli olan yeni modelin önceki modellerden (Poisson, şişirilmiş bir Poisson modeli, iki şişirilmiş Poisson modeli, bir geometrik model ve bir şişirilmiş sıfır geometrik model) üstün olduğunu gösterdi ve bir tanesinin sonuçları, iki ve üç şişirilmiş Poisson modelleri neredeyse eşit çıkmıştır. Bunun nedeni bir, iki ve üç şişirilmiş Poisson modellerinde modellemenin yalnızca sayma modeli bölümüne yönelik olması ve sonuçların Poisson modeli sonuçlarına çok yakın olmasıdır. Ayrıca altı şişirilmiş Poisson modelinin simülasyon sonuçları deneysel sonuçlarla tutarlıydı.

Özet (Çeviri)

Discrete or countable data are those that take certain discrete values and are common in many sciences, especially clinical and epidemiological sciences. Count data have many types such as right truncated, left truncated, double truncated, and inflated data at one or several values. The negative binomial model and the Poisson model are commonly used for modeling count data, but the negative binomial model is not suitable for modeling count data sets with long tails or that contain inflation and Poisson model is not appropriate for modeling count data that contain over dispersion or under dispersion. Therefore, alternative models that can be used instead of negative binomial and Poisson model can be given as Sichel model, Poisson Inverse Gaussian model,inflated models and etc. Negative binomial type-I model, Sichel model and Poisson Inverse Gaussian model have received less attention than Poisson model and negative binomial model in the statistical literature, and many of them have not been implemented in current statistical programs. In this thesis, four different types of count data were used to model some discrete statistical distributions from the GAMLSS family. In addition to creating a new distribution to solve the problem of inflated count data at the value of six, this distribution is named“six-inflated Poisson distribution”. The distributions used to model the four count data are as follows; In the first Application: Data International Limited performed study, which comprised 1,724 enterprises, between March and May 2010 using a specialized survey to obtain the necessary data to assess the dimensions of the informal sector in Bangladesh are modeled using Poisson, Geometric, NB-I, NB-II, PIG and Sichel count regression models through GAMLSS package in the R-programme and all the statistical analyses are done using R-studio Version 4.0.3 programme. The results of that randomized quantile residuals of Sichel regression model in the GAMLSS family for 1724 enterprises in Bangladesh business count data showed that it is the best model among the proposed models, where the mean of the randomized quantile residuals of Sichel regression model is found nearly zero. The variance of the randomized quantile residuals of Sichel regression model is found nearly one. The coefficients of the skewness and kurtosis of Sichel regression model are found nearly 0 and 3, respectively. In the Second Application: Modeling of European Union (EU) COVID-19 Pandemic Data , Hungary, Bulgaria, Romania, Sweden, Greece, Germany, Poland, France, Spain and Italy) to identify common variables affecting total COVID-19 deaths. Using zero-truncated Poisson (ZTP) regression model and zero-truncated negative Binomial Type I (ZTNB-1) regression model and Results show that ZTNB-I is better than ZTP. In addition, the expected value of the harmonized location parameter of the ZTNB-1 regression model increases 1.03 times with a 1% change in male smokers, decreases 0.005 times with a 1-unit log(GDP) change, 1.68 times per thousand hospital beds, and 1.68 times with a 1% change in diabetes prevalence. It increases by 1.20 times and 1.39 times according to life expectancy at birth. On the other hand, the expected value of the appropriate scale parameter of the ZTNB-I regression model increases by 2.55 times according to life expectancy at birth and decreases by 0.008 times with a 1 unit change in log (GDP). In the third Application: Zero-inflated Poisson, zero-inflated geometric, zero-inflated negative binomial type-I and zero-inflated Sichel models are illustrated using student performance data at two Portuguese secondary schools' secondary education. The data includes ten different explanatory variables associated to the“number of school absences”at two Portuguese secondary schools' secondary education. Information Criteria measures, AIC, BIC, GAIC, Global Deviance and SBC, for comparing between ZIP, ZIG, ZINBI and ZISichel for students performance data showed smallest values of Information Criteria measures indicate ZISichel is the most appropriate model for the data set. In the fourth application : The new six-inflated Poisson model is considered as an alternative to Poisson, one-inflated Poisson, two-inflated Poisson, three-inflated Poisson, geometric, and zero-inflated geometric models. The Pakistan Multiple Indicator Cluster Survey (MICS6) data is used as an example of the usefulness and effectiveness of this new model, because the response variable (number of surviving children) has inflation at six point. The log-link function of six-inflated Poisson model location parameter is written as linear terms of the explanatory variables (women's education levels, use of tobacco products during the past month, wealth quintiles, region and ages of the women surveyed). The RS method is used to obtain the six-inflated Poisson model estimators. The results showed that the new model, six-inflated Poisson model, is superior to the previous models (Poisson, one-inflated Poisson model, two-inflated Poisson model, geometric model,three-inflated Poisson model, geometric and zero-inflated geometric models), the results of one, two and three inflated Poisson models are almost equal, and the results of six-inflated Poisson model and Poisson model are close to each other. The reason for these results that the modeling is only for the counting model section in both one, two and three-inflated Poisson models, which made their results equal. In addition, the simulation results of the six-inflated Poisson model is consistent with the empirical results.

Benzer Tezler

  1. IoT ağları için yeni bir saldırı tespit sistemi tasarımı

    Design of a new intrusion detection system for IoT networks

    TUĞBA ULUSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. ÜNAL ÇAVUŞOĞLU

  2. Demiryolu ağında trafik sayımlarından O-D matrisi tahmini

    Başlık çevirisi yok

    ZEYNEP AĞCI

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    Ulaştırma Ana Bilim Dalı

    PROF. DR. HALUK GERÇEK

  3. Akıllı ulaşım sistemleri ve çevreye etkisi: Kavşak çalışması

    Intelligent transportation systems and effects on theenvironment: Interchange assessment

    DİLARA USTA

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Ulaşımİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ OSMAN ATAHAN

  4. Present and future humid heat extremes and population exposure in Türkiye

    Türkiye'de mevcut dönem ve gelecekteki nemli aşırı sıcaklıklar ve nüfus maruziyeti

    BERKAY DÖNMEZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Meteorolojiİstanbul Teknik Üniversitesi

    Meteoroloji Mühendisliği Ana Bilim Dalı

    PROF. DR. YURDANUR ÜNAL

  5. Talep tahmini için model topluluklarının kullanılması

    Using ensembles of classifiers for demand forecasting

    İREM İŞLEK

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞULE ÖĞÜDÜCÜ