Gelir ve yaşam koşulları verisinin veri madenciliği yaklaşımı ile incelenmesi ve model performanslarının değerlendirilmesi
The examination and the model performance evaluation of the income and living conditions data within data mining approach
- Tez No: 635459
- Danışmanlar: DOÇ. DR. İBRAHİM DEMİR
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 173
Özet
Ulusal İstatistik Enstitüleri (UİE) tarafından üretilen resmi veriler devletin ekonomik ve sosyal karar alma sürecinde önemli bir rol oynamaktadır. Resmi verilerin geleneksel istatistiksel yaklaşımlardan ziyade veri madenciliği (VM) yöntemleri ile ele alınması, yeni bilgiler ve gizli kalıpların ortaya çıkarılması bakımından önem kazanmaktadır. Resmi istatistikler için VM yöntemleri kullanışlı olmakla birlikte hala yeni VM yöntemlerinin keşfedilmesi devam etmektedir. Bu çalışmada, Türkiye İstatistik Kurumu (TÜİK) tarafından yürütülen 2015 yılı Gelir ve Yaşam Koşulları Araştırması (GYKA) verileri VM yöntemleri ile incelenmiştir. 36036 adet ferde ilişkin yatay kesit verileri ele alınmış olup fert gelirini en çok etkileyen değişkenler belirlenerek fertlerin refah durumu incelenmiştir. Fertlerin sosyoekonomik profillerinin belirlenmesi amacıyla gizli sınıf analizi (GSA) ve kmodlar kümeleme analizi kullanılmıştır. Bireylerin sosyoekonomik durumu kümeleme ve rastgele orman (RO) algoritma modelleri kullanılarak sınıflandırılmıştır. 10 sınıflı GSA modelinde yeni seçilen bir ferdin hangi olasılıkla hangi sınıfa dahil olacağı elde edilmiştir. Elde edilen gizli sınıfların en yüksek olasılıkla aldıkları değişken değerlerine göre fertlerin gizli sınıf profil tanımları elde edilmiştir. k-modlar kümelemesi sonucu elde edilen 10 adet küme, küme modlarına göre tanımlanmış ve fertlerin küme profil tanımları elde edilerek sonuçları GSA sonuçlarıyla karşılaştırılmıştır. Kategorik değişkenlerin ele alındığı bu çalışmada, GSA yönteminin k-modlar kümeleme yöntemine göre daha tutarlı sonuçlar sağladığı görülmüştür. Fert gelirinin diğer tüm dokuz adet girdi değişkeninin fonksiyonu olarak seçildiği RO modelinde değişkenlerin önemlilikleri belirlenmiştir. Sırasıyla eğitim, meslek ve yaş değişkenlerinin daha önemli olduğu ve RO modeline en fazla katkıyı sağladığı gözlenmiştir. Oldukça kapsamlı ve detaylı bir veri olan GYKA verisinde, VM yöntemlerinin uygulanabilmesi ve veriden anlamlı sonuçlar çıkarılması bakımından GSA ve RO gibi yöntemler uygun görünmektedir. Benzer VM süreçleri farklı resmi veriler için de anlamlı sonuçlar elde etmek amacıyla kullanılabilir. Bu çalışmada ifade edilen görüş ve yorumlar hazırlayanın kendisine ait olup, TÜİK'i bağlamaz. Bu teze dayalı tüm çalışmalar için de aynı kural geçerlidir.
Özet (Çeviri)
Official data that are generated by the National Statistical Institutes (NSIs) has an important role to play in the economic and social decision-making phase of government. Tackling official data using data mining (DM) techniques is key to discovering new information and hidden patterns rather than traditional statistical approaches. While DM techniques are useful in the field of official statistics, the discovery of new DM techniques remains. Data from the 2015 Turkish Statistical Institute (TurkStat) Survey of Income and Living Conditions (SILC) were analyzed using DM techniques in this study. Cross-sectional data were processed for 36036 individuals and the variables influencing the individual income as well as individual welfare status were identified. Latent class analysis (LCA) and clustering of k-modes have been applied to assess the individuals ' socioeconomic profiles. Models of clustering and random forest (RF) algorithms have been used to classify the socio-economic status of individuals. In the ten-class LCA model, what class of probability belongs to the newly selected individual has been determined. In the latent classes determined, the latent class profile descriptions of the individuals were derived on the basis of the values provided by the variable values at the highest probability. Ten clusters that were obtained as a consequence of k-modes clustering were identified by cluster modes, and individual cluster profile descriptions were obtained, and their results were also compared to the LCA results. In this study, which considered categorical variables, it was observed that the LCA method yielded more consistent results than the method k-modes. The importance of the variables was calculated when the individual income was selected in the RF model as a component of all nine input variables. Variables of education, occupation and age have been observed to be more significant and have contributed the most to the RF model, respectively. Methods like LCA and RF appear to be suitable for applying DM and extracting useful results from SILC data, which are comprehensive and detailed data. Similar DM processes for different official data can be used to achieve useful results. The opinions and comments expressed in the present study belong to the author of the thesis and do not constitute the opinions of the TurkStat. The same rule applies to all studies on the basis of this thesis.
Benzer Tezler
- Sayma verisi için regresyon modelleri: Türkiye gelir ve yaşam koşulları araştırması üzerine bir uygulama
Regression models for count data: An application on income and living conditions surveys in Turkey
ONUR ŞENTÜRK
- Essays on labor market dynamics using the survey of income and living conditions
Gelir ve yaşam koşulları anketi kullanılarak işgücü piyasası dinamikleri üzerine makaleler
ESRA ÖZTÜRK
- House price modelling under covid-19 analysis of parameters on online listing platforms
Covid-19 pandemi döneminde online emlak platformlarındaki parametreler kullanılarak konut fiyatlarının modellenmesi
SAMET DİBEK
Yüksek Lisans
İngilizce
2023
Mimarlıkİstanbul Teknik ÜniversitesiGayrimenkul Geliştirme Ana Bilim Dalı
DOÇ. DR. KEREM YAVUZ ARSLANLI
- Türkiye'de etkin bina emlak vergisi belirlenmesi için bir değerleme model önerisi
An appraisal model proposal for effective building property tax determination in Türkiye
ECEM SİRKECİ
Yüksek Lisans
Türkçe
2023
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. REHA METİN ALKAN
- İşçilik maliyetleri muhasebesi ve Türkiye Şeker Fabrikaları A.Ş. Ankara makina fabrikası uygulaması
Başlık çevirisi yok
GÖKHAN ÖZER