Veri madenciliği yöntemleri ile ana harcama gruplarının paylarının tahmini
Estimation of main expenditure groups' portion with data mining methods
- Tez No: 392767
- Danışmanlar: PROF. DR. MURTAZA ÖZGÜR YENİAY
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 157
Özet
Bir ülkenin sosyal istatistik altyapısını gelir, eğitim, sağlık, işgücü ve tüketim alanında yapılan araştırmalar oluşturmaktadır. Kurumların ve işletmelerin veri tabanlarında bu alanlarda yapılmış yüzlerce araştırma verisi bulunmaktadır. Kurumlar ve işletmeler, sayısal teknolojilerin gelişmesiyle birlikte her kayıtlarını elektronik olarak biriktirmeye başlamış ve bunun sonucunda da akıl almaz derecede veri birikimi meydana gelmiştir. Veri tabanlarında ve veri ambarlarında depolanan bu veri yığınları arasından anlamlı ilişkilerin, kalıpların ve eğilimlerin ortaya çıkartılması ihtiyacı doğmuş, gelecek adına doğru tahminlerin yapılması önem kazanmıştır. Veri madenciliği uygulamaları işte bu noktada, istatistiksel analiz ve modellemeler ile makine öğrenimi yöntemlerinin kullanılması ile devreye girmiştir. Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Veri madenciliğini bu anlamda istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönden farklılık göstermektedir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modelleri çıkarmaktır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir. Her ne kadar kurumların ve işletmelerin veri tabanlarında yüzlerce araştırma verisi bulunsa da elde bulunan araştırmalar istenilen tüm değişkenlere sahip olmayabilir. Bazı durumlarda istenilen değişkenleri aynı anda barındıran veri setlerine ihtiyaç duyulmaktadır. İstenilen değişkenlerinin tümünü aynı araştırmadan elde edebilmek için yeni araştırma yapmak maliyetli olduğu için tercih edilmeyen bir yöntemdir. Son yıllarda bu aşamadaki eksikliği gidermek için model bazlı bazı yaklaşımlar sıklıkla kullanılmaya başlanmıştır. Model bazlı yaklaşıma örnek olarak istatistiksel eşleştirme gösterilebilir. İstatistiksel eşleştirme, iki veya daha fazla kaynaktan toplanan değişken veya göstergeler için birleşik istatistiksel bilgi üretmek için kullanılan model bazlı bir yaklaşımdır. Bu yaklaşımın faydası, araştırma maliyeti ve cevaplayıcı yükü yaratmadan mevcut veriyi kullanma ve farklı araştırmalar arasında tutarlılık kontrolü yapabilme imkanı sağlamasıdır. Bu tez kapsamında, öncelikle Türkiye İstatistik Kurumu'nun (TÜİK) yaptığı Hanehalkı Bütçe Araştırması (HBA) ve Gelir ve Yaşam Koşulları Araştırması (GYKA) çalışmaları hakkında detaylı bilgiler verilmiş, veri madenciliği süreci hakkında genel tanımlamalar yapılmış ve bu kapsamda kullanılan yöntemlerden bahsedilmiştir. Çalışmada veri madenciliği yazılımı IBM SPSS Modeler 16.0 ile TÜİK'in 2011 yılında yapmış olduğu HBA kapsamına dahil olan 9 918 hanehalkının, yine TÜİK'in 2012 yılında yapmış olduğu GYKA kapsamındaki 17 562 hanehalkının ortak değişkenleri kullanılarak GYKA haneleri için Amaca Göre Bireysel Tüketimin Sınıflandırılması (COICOP) 12 ana harcama grubu bazında harcama değişkenlerini tahmin etmeye yönelik veri madenciliği yöntemleri kullanılarak istatistiksel eşleştirme ile ilgili bir uygulama gerçekleştirilmiştir.
Özet (Çeviri)
A country's social statistical infrastructure constitute research conducted in the field of income, education, health, labour force and consumption. Institutions and enterprises have hundreds of research done in these areas in their database. Institutions and enterprises with the development of digital technologies have begun to accumulate all records electronically and as a result, in the incredibly accumulation of data has occurred. Stored in databases and data warehouses meaningful relationships among the data stack, patterns and trends revealed necessitated, making accurate predictions for the future, has gained importance. Data mining applications at this point, statistical analysis and machine learning by modeling“artificial intelligence”has been activated through the use of technology. Data mining is the process of extracting potentially useful information, not clear and previously unknown, from the available data. Data mining in this sense can be seen as a series of statistical methods. However, data mining, differs in several ways from traditional statistics. Purpose of data mining is to extract qualitative models that can easily be translated into logical rules or visual presentation. In this context, data mining is human -centered and human - computer interface are sometimes combined. Although institutions and enterprises have hundreds of survey data in the database available survey data may not contain all desired variables. In some cases, variables in studies conducted in these areas are needed to contain in one data set simultaneously. Making a new research to obtain the desired variable from the same study is not preferred because of its cost. In recent years, some model-based approaches have been used frequently to eliminate shortcomings in this stage. An example of a model-based approach can be shown statistical matching. Statistical matching is a model-based approach for providing joint statistical information based on variables and indicators collected through two or more sources. The potential benefits of this approach lie in the possibility to enhance the complementary use and analysis of existing data sources, without further increasing costs and response burden. In this thesis, first detailed information about Household Budget Survey (HBS) and Survey of Income and Living Conditions (SILC) conducted by Turkish Statistical Institute (TURKSTAT) are presented, general descriptions are made about the data mining process and methods used in this context are mentioned. Common variables included 9 918 households in the scope of HBS conducted by TURKSTAT in 2011 and 17 562 households in the scope of SILC conducted by TURKSTAT in 2012 are used with the help of data mining software IBM SPSS Modeler 16.0. An application is conducted by data mining methods relation with statistical matching to estimate variables on the basis of Classification of Individual Consumption According to Purpose (COICOP) 12 main expenditure groups for households in the scope of SILC.
Benzer Tezler
- Veri madenciliği ile hanehalkı yağ tüketiminin modellenmesi
Modeling household oil consumption by using data mining
UĞUR ERCAN
- Müşteri ilişkileri yönetiminde veri madenciliği ve iş zekâsı uygulamaları
Data mining and business intelligence applications in customer relationship management
MEHMET ALİ DEVECİ
Yüksek Lisans
Türkçe
2018
İşletmeCumhuriyet ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. OĞUZ KAYNAR
- Veri madenciliği yöntemleri ile güç kalitesi verilerinin incelenmesi
Analysis of power quality data with data mining methods
VEDAT TÜMEN
Yüksek Lisans
Türkçe
2013
Elektrik ve Elektronik MühendisliğiTunceli ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HÜSEYİN ERİŞTİ
- Veri madenciliği yöntemleri ile bilgi merkezi verilerinden bilgi keşfi
Discovering knowledge in information centers data with data mining methods
SEFA BAYRAKTAR
Yüksek Lisans
Türkçe
2024
Bilgi ve Belge YönetimiBurdur Mehmet Akif Ersoy ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. İSMAİL KIRBAŞ
- Veri madenciliği yöntemleri ile spam filtreleme
Spam filtering using data mining methods
SERDAR KÜRŞAT SARIKOZ
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. M. ALİ AKCAYOL