Türkiye'de sigara tüketiminin sayıma dayalı regresyon modelleri ve makine öğrenmesi teknikleri ile tahmini
Estimation of cigarette consumption in Turkey using count-based regression models and machine learning techniques
- Tez No: 964925
- Danışmanlar: DOÇ. DR. DENİZ ÖZONUR
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 106
Özet
Sayım verileri, sıfır ve pozitif tamsayı değerlerinden oluşan ve olayların belirli bir zaman diliminde ya da belirli birimlerde gerçekleşme sıklığını ifade eden veri türleridir. Bu çalışmada, bağımlı değişkenin sayım verisi niteliğinde olduğu durumlar temel alınarak, klasik sayım regresyon modelleri ile makine öğrenmesi tekniklerinin karşılaştırmalı bir analizi gerçekleştirilmiştir. Türkiye İstatistik Kurumu'nun 2016 yılı Türkiye Sağlık Araştırması mikroverisine dayanan analizlerde, Poisson ve Negatif Binom gibi temel sayım modellerinin yanı sıra, sıfır yığılmasını ve aşırı yayılımı dikkate alan Sıfır Yığılmalı Poisson, Sıfır Yığılmalı Negatif Binom, Poisson Hurdle ve Negatif Binom Hurdle modelleri de değerlendirilmiştir. Makine öğrenmesi yöntemleri olarak Rastgele Orman (Random Forest), Aşırı Gradyan Artırma (Extreme Gradient Boosting), Hafif Gradyan Artırma Makinesi (Light Gradient Boosting Machine) ve Kategorik Artırma (CatBoost) algoritmaları, önce sıfır olasılığını sınıflayan, ardından pozitif sayımı tahmin eden iki aşamalı Zero Inflated ve Hurdle modelleri olarak kurulmuştur. Modellerin performansları Akaike Bilgi Kriteri, log-olabilirlik, kök ortalama kare hata ve ortalama mutlak hata gibi ölçütlerle karşılaştırılmıştır. Elde edilen bulgular, veri yapısının model başarımı üzerindeki etkisini ortaya koymuş; makine öğrenmesi yöntemlerinin yüksek tahmin doğruluğu sunduğu, klasik modellerin ise yorumlanabilirlik açısından avantaj sağladığı belirlenmiştir. Bu durum, model tercihinde yalnızca doğruluğun değil, yorumlanabilirlik ve uygulama bağlamının da dikkate alınması gerektiğini göstermektedir. Çalışmanın sonuçlarının, sayım verilerine uygun model seçimi konusunda uygulayıcı ve araştırmacılara yol gösterici olması hedeflenmektedir.
Özet (Çeviri)
Count data refer to a type of data composed of zero and positive integer values, typically representing the frequency of events occurring within a specific time frame or unit. This study presents a comparative analysis of classical count regression models and machine learning techniques in the context of a dependent variable with count characteristics. Based on the 2016 Turkey Health Survey microdata provided by the Turkish Statistical Institute, the analysis evaluates fundamental models such as Poisson and Negative Binomial regression, as well as alternative approaches that account for excess zeros and overdispersion, including Zero-Inflated Poisson, Zero-Inflated Negative Binomial, Poisson Hurdle, and Negative Binomial Hurdle models. On the machine learning side, Random Forest, Extreme Gradient Boosting, Light Gradient Boosting Machine, and CatBoost algorithms were implemented in two-stage frameworks—first classifying the probability of a zero count, then predicting the positive count—yielding both Zero-Inflated and Hurdle model structures. Model performances were compared using criteria such as Akaike Information Criterion, log-likelihood, Root Mean Square Error, and Mean Absolute Error. The findings highlight the impact of data structure on model performance, indicating that while machine learning methods offer superior predictive accuracy, classical models provide advantages in interpretability. These results suggest that model selection should consider not only predictive accuracy but also interpretability and the practical context of the analysis. The study aims to guide practitioners and researchers in choosing appropriate models for count data.
Benzer Tezler
- Adana il merkezinde sigara kullanımı ve etkilerinin, sigaraya ve dumana maruziyetin ve tütün kontrol yöntemleri ile ilgili bilgi, tutum ve davranışların telefon surveyi ile saptanması
A telephone survey on knowledge, attitude and behavior of adana city population toward the national tobacco control program, smoking and exposure to the second hand tobacco smoke
EVREN ASLANER
Yüksek Lisans
Türkçe
2009
BiyoistatistikÇukurova ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. H. REFİK BURGUT
- Yetişkin bireylerde beslenme ile ilişkili kardiyovasküler risk faktörlerinin belirlenmesi
Başlık çevirisi yok
BERÇİN PAYCI
Yüksek Lisans
Türkçe
2009
Beslenme ve DiyetetikBaşkent ÜniversitesiBeslenme ve Diyetetik Ana Bilim Dalı
YRD. DOÇ. DR. EMİNE AKSOYDAN
- Türkiye'de sigara üzerinden alınan özel tüketim vergisinin sigara tüketim tercihleri üzerindeki etkisinin incelenmesi
The investigation of the effects of cigarette excise tax on cigarette consumption preferences, in Turkey
MEVHİBE IŞIK
Yüksek Lisans
Türkçe
2019
MaliyeEskişehir Osmangazi ÜniversitesiMaliye Ana Bilim Dalı
PROF. DR. ALİ ÇELİKKAYA
- Sigara üzerinden alınan vergilerin ters esneklik kuralı bağlamında analizi: Türkiye üzerine bir uygulama
Analysis of taxes on cigarettes in the reverse of flexibility rule: An application on Turkey
CANDAN YILMAZ UĞUR
- Türkiye'de hanehalkı sigara tüketiminin belirleyicileri
Determinants of household tobacco consumption in Turkey
MİRAÇ ERGİN
Yüksek Lisans
Türkçe
2020
EkonomiGümüşhane Üniversitesiİktisat Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EGEMEN İPEK