Geri Dön

Gelir ve yaşam koşulları verisinin veri madenciliği yaklaşımı ile incelenmesi ve model performanslarının değerlendirilmesi

The examination and the model performance evaluation of the income and living conditions data within data mining approach

  1. Tez No: 635459
  2. Yazar: OLGUN ÖZDEMİR
  3. Danışmanlar: DOÇ. DR. İBRAHİM DEMİR
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 173

Özet

Ulusal İstatistik Enstitüleri (UİE) tarafından üretilen resmi veriler devletin ekonomik ve sosyal karar alma sürecinde önemli bir rol oynamaktadır. Resmi verilerin geleneksel istatistiksel yaklaşımlardan ziyade veri madenciliği (VM) yöntemleri ile ele alınması, yeni bilgiler ve gizli kalıpların ortaya çıkarılması bakımından önem kazanmaktadır. Resmi istatistikler için VM yöntemleri kullanışlı olmakla birlikte hala yeni VM yöntemlerinin keşfedilmesi devam etmektedir. Bu çalışmada, Türkiye İstatistik Kurumu (TÜİK) tarafından yürütülen 2015 yılı Gelir ve Yaşam Koşulları Araştırması (GYKA) verileri VM yöntemleri ile incelenmiştir. 36036 adet ferde ilişkin yatay kesit verileri ele alınmış olup fert gelirini en çok etkileyen değişkenler belirlenerek fertlerin refah durumu incelenmiştir. Fertlerin sosyoekonomik profillerinin belirlenmesi amacıyla gizli sınıf analizi (GSA) ve kmodlar kümeleme analizi kullanılmıştır. Bireylerin sosyoekonomik durumu kümeleme ve rastgele orman (RO) algoritma modelleri kullanılarak sınıflandırılmıştır. 10 sınıflı GSA modelinde yeni seçilen bir ferdin hangi olasılıkla hangi sınıfa dahil olacağı elde edilmiştir. Elde edilen gizli sınıfların en yüksek olasılıkla aldıkları değişken değerlerine göre fertlerin gizli sınıf profil tanımları elde edilmiştir. k-modlar kümelemesi sonucu elde edilen 10 adet küme, küme modlarına göre tanımlanmış ve fertlerin küme profil tanımları elde edilerek sonuçları GSA sonuçlarıyla karşılaştırılmıştır. Kategorik değişkenlerin ele alındığı bu çalışmada, GSA yönteminin k-modlar kümeleme yöntemine göre daha tutarlı sonuçlar sağladığı görülmüştür. Fert gelirinin diğer tüm dokuz adet girdi değişkeninin fonksiyonu olarak seçildiği RO modelinde değişkenlerin önemlilikleri belirlenmiştir. Sırasıyla eğitim, meslek ve yaş değişkenlerinin daha önemli olduğu ve RO modeline en fazla katkıyı sağladığı gözlenmiştir. Oldukça kapsamlı ve detaylı bir veri olan GYKA verisinde, VM yöntemlerinin uygulanabilmesi ve veriden anlamlı sonuçlar çıkarılması bakımından GSA ve RO gibi yöntemler uygun görünmektedir. Benzer VM süreçleri farklı resmi veriler için de anlamlı sonuçlar elde etmek amacıyla kullanılabilir. Bu çalışmada ifade edilen görüş ve yorumlar hazırlayanın kendisine ait olup, TÜİK'i bağlamaz. Bu teze dayalı tüm çalışmalar için de aynı kural geçerlidir.

Özet (Çeviri)

Official data that are generated by the National Statistical Institutes (NSIs) has an important role to play in the economic and social decision-making phase of government. Tackling official data using data mining (DM) techniques is key to discovering new information and hidden patterns rather than traditional statistical approaches. While DM techniques are useful in the field of official statistics, the discovery of new DM techniques remains. Data from the 2015 Turkish Statistical Institute (TurkStat) Survey of Income and Living Conditions (SILC) were analyzed using DM techniques in this study. Cross-sectional data were processed for 36036 individuals and the variables influencing the individual income as well as individual welfare status were identified. Latent class analysis (LCA) and clustering of k-modes have been applied to assess the individuals ' socioeconomic profiles. Models of clustering and random forest (RF) algorithms have been used to classify the socio-economic status of individuals. In the ten-class LCA model, what class of probability belongs to the newly selected individual has been determined. In the latent classes determined, the latent class profile descriptions of the individuals were derived on the basis of the values provided by the variable values at the highest probability. Ten clusters that were obtained as a consequence of k-modes clustering were identified by cluster modes, and individual cluster profile descriptions were obtained, and their results were also compared to the LCA results. In this study, which considered categorical variables, it was observed that the LCA method yielded more consistent results than the method k-modes. The importance of the variables was calculated when the individual income was selected in the RF model as a component of all nine input variables. Variables of education, occupation and age have been observed to be more significant and have contributed the most to the RF model, respectively. Methods like LCA and RF appear to be suitable for applying DM and extracting useful results from SILC data, which are comprehensive and detailed data. Similar DM processes for different official data can be used to achieve useful results. The opinions and comments expressed in the present study belong to the author of the thesis and do not constitute the opinions of the TurkStat. The same rule applies to all studies on the basis of this thesis.

Benzer Tezler

  1. Sayma verisi için regresyon modelleri: Türkiye gelir ve yaşam koşulları araştırması üzerine bir uygulama

    Regression models for count data: An application on income and living conditions surveys in Turkey

    ONUR ŞENTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. HÜLYA OLMUŞ

  2. Essays on labor market dynamics using the survey of income and living conditions

    Gelir ve yaşam koşulları anketi kullanılarak işgücü piyasası dinamikleri üzerine makaleler

    ESRA ÖZTÜRK

    Doktora

    İngilizce

    İngilizce

    2023

    EkonomiKoç Üniversitesi

    Ekonomi Ana Bilim Dalı

    DOÇ. DR. FEHMİ İNSAN TUNALI

  3. House price modelling under covid-19 analysis of parameters on online listing platforms

    Covid-19 pandemi döneminde online emlak platformlarındaki parametreler kullanılarak konut fiyatlarının modellenmesi

    SAMET DİBEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Mimarlıkİstanbul Teknik Üniversitesi

    Gayrimenkul Geliştirme Ana Bilim Dalı

    DOÇ. DR. KEREM YAVUZ ARSLANLI

  4. Türkiye'de etkin bina emlak vergisi belirlenmesi için bir değerleme model önerisi

    An appraisal model proposal for effective building property tax determination in Türkiye

    ECEM SİRKECİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. REHA METİN ALKAN

  5. İşçilik maliyetleri muhasebesi ve Türkiye Şeker Fabrikaları A.Ş. Ankara makina fabrikası uygulaması

    Başlık çevirisi yok

    GÖKHAN ÖZER

    Yüksek Lisans

    Türkçe

    Türkçe

    1987

    İşletmeGazi Üniversitesi

    DOÇ. DR. KAMİL BÜYÜKMİRZA