Essays on estimation methods
Tahmin yöntemleri üzerine makaleler
- Tez No: 582356
- Danışmanlar: PROF. DR. BÜLENT GÜLOĞLU
- Tez Türü: Doktora
- Konular: Ekonometri, Ekonomi, Econometrics, Economics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: İktisat Ana Bilim Dalı
- Bilim Dalı: İktisat Bilim Dalı
- Sayfa Sayısı: 682
Özet
Bu çalışma içerisinde, tez adının da gösterdiği gibi, yeni tahmin yöntemleri ve uygulamalarına yönelik çalışmalar gerçekleştirilmektedir. Burada bahsedilen yeni yöntemlerin hepsi, tezin yazıldığı dönemde oldukça gelişen yapay zeka alanında yaygın olarak kullanılmakta, otonom robotlar, ses işleme, görüntü tanıma, otomatik karar verme, doğal dil işleme, algoritmik finans, robotik ve büyük veri uygulamalarının temel yapı taşlarını oluşturmaktadır. Tabi bu çalışma sadece yöntembilimsel olarak değil, verilerinin elde edilmesi, işlenmesi ve bütünleştirilmesi anlamında da oldukça yeni yöntemler sunmaktadır. Bu doğrultuda büyük veri, yüksek boyutlu veriler, metin verisi ve bunların derlenerek karmaşık yapılardan düzenli veriler elde edilmesi ve bunların sayısal bir dile dönüştürülmesi gibi pek çok yenilikler ihtiva etmektedir. Bu doktora tezi, bir giriş olarak algılanabilecek ve kullanılan tüm tahmin yöntemlerini içeren bir yöntembilim bölümü ve bunu takip eden üç uygulamalı makale ile tümüyle dört kısımdan oluşmaktadır. Yöntembilim bölümü kapsamlı bir sözlük ile birlikte ve kullanılan yöntemlerin matematiksel olarak detaylı anlatımını ve fonksiyonel düzeyde de görselleştirmelerini dahi içermektedir. Bu anlamda sonraki çalışmalar için bir kılavuz olarak kullanılabilmesi amaçlanmıştır. Giriş olarak kabul edilebilinecek ilk bölüm iki kısımdan oluşmaktadır: tümüyle, sonraki üç makalede uygulama imkanı bulmuş, yapay öğrenme yöntemlerinin bulunduğu ilk kısmı, ikinci aşamada ekonometrik yöntemler takip etmektedir. Kaynakça anlamında daha fazla referansın yer aldığı ekonometrik kısmı görece kısa tutulmakla birlikte, yapay öğrenme kısmı, tam bunun aksine, daha detaylı olarak sunulmuştur. Yapay öğrenme yöntemlerinin anlatıldığı ilk kısımda, önce, yapay öğrenme algoritmaları kısaca anlatılmış, bir yapay öğrenme algoritmasının temel elementleri olarak kabul edilebilinecek maliyet fonksiyonu, eğim algoritması, regresyon ve sınıflama problemleri, sinir ağları, öğrenme algoritması, ileri ve geri besleme yöntemleri, katlamalı ve yinelemeli sinir ağları, etkinleştirme fonksiyonları detaylıca bir şekilde incelenmektedir. Buna ek olarak, ilk iki makalede kullanılacak ekonometrik yöntemleri tanıtmak amacıyla da ikinci kısım eklenerek lojistik ve kantil regresyon yöntemleri detaylı olarak anlatılmaktadır. Yukarıdaki yöntembilimin uygulandığı üç makalenin yer aldığı bölümlerde ise ilkin işsizlikten istihdama geçiş olasılıklarının tahmini ekonometrik ve temel sınıflandırma yapay öğrenme yöntemleri işlenmiş, ardından tasarruf oranları, ilk makaleye benzer şekilde ekonometrik ve derin öğrenme yöntemleri ile tahminlenmiş, son olarak Türkiye Cumhuriyeti Merkez Bankası (TCMB) tarafından yayımlanan Para Politikası Raporları kullanılarak doğal dil işleme yöntemleri yinelemeli sinir ağları ile incelenmiştir. İşsizlikten istihdama geçişin incelendiği ilk makalede, bireylerin bazı temel karakteristik, eğitimsel ve deneyimsel verileri, öncelikle 2004-2016 yılları arasında gerçekleştirilmiş Türkiye İstatistik Kurumu'nca (TÜİK) yayınlanan Hanehalkı İşgücü Anketleri (HİA) derlenerek elde edilmiştir. Ancak bu derleme, soruların ve yanıtların yıllar boyunca farklılıklar göstermesi nedeniyle hem anlamsal hem de mantıksal olarak eşleştirilmesini zorunlu kıldığından, el yordamıyla bir birleştirme gerçekleştirilmiş ve bu kodlanarak yedi milyon civarındaki bireysel anket verisi bir büyük veri çatısı altında birleştirilmiştir. Bunlardan bireylerin bulundukları cari dönemdeki istihdam bilgisi ile ilgili en ufak bir ipucu içermeyen veriler ayrıştırılmış, sadece geçmiş dönemde işsiz olarak kabul edilen bireylerle veri seti sınırlandırılarak 203891 kişinin verisi işlenmiştir. HİA'nın gerçekleştirildiği döneme göre tam bir yıl öncesinde, ILO tanımı gereği işsiz olarak kabul edilen bireylerin, o dönemde istihdama geçme veya işsiz olarak kalma olasılıkları tahmin edilmiştir. Yapay öğrenme algoritmaları için kullanılan eğitim veriseti %90 ile sınırlandırılmış ve ayıklanırken yıl bazında katmanlı rassal K-Fold algoritması ile veriler seçilmiştir; test verisi, kalan kısım ile belirlenmiştir. Kullanılan yapay öğrenmenin sınıflama algoritmaları karşısında ekonometrik olarak olasılık tahmini yapabilecek lojistik regresyon tahminleri de gerçekleştirilmiştir. %67 oranında başarılı tahminler üreten sınıflama algoritmalarından XGBoost ve Rassal Orman, ancak %63 başarım sağlayan lojistik regresyon yöntemini geçerek, bu probemi en iyi çözümleyen yöntemler olmuşlardır. Bu sayede, çalışmada sunulan ve ek olarak verilmiş, bireylere dair temel 38 özelliğe dair bilgi edinmiş herhangi bir politika yapıcı, ekonomik aktör veya araştırmacı, işsiz olan bir bireyin bir sonraki dönem istihdama geçebilme olasılığını, %67 oranıyla tahminleyebilecektir. Son dönemlerde, gelişmekte olan ülkelerin pek çoğunda görüldüğü gibi, Türkiye'nin de en önemli sorunlarından biri olan tasarruf oranları, ikinci çalışma içerisinde incelenmektedir. 2002-2016 yılları arasında TÜİK tarafından yayınlanan Hanehalkı Bütçe Anketleri (HBA), soru ve cevapları dikkate alınarak büyük bir veriseti oluşturulmuştur. Eşleştirme bireysel bazda gerçekleştirilirken, hanehalkına ait veriler bu bireylerin satırlarında tekrarlatılmıştır. HBA verileri çok fazla soru içerdiğinden, yıl bazında da soru ve cevaplarda değişikliklere gidildiğinden, mümkün olan en azami şekilde tüm veriler korunmaya çalışılmış ve yüksek boyutlu büyük bir veri, 629372 satırda 247 öznitelikle elde edilmiştir. Bu özniteliklerden bazıları, yüksek korelasyon içerdiğinden dolayı çıkarılarak ve bazı yeni değişkenler türetilerek son olarak 371613 satırda 203 öznitelikle sonuçlandırılmıştır. Bu büyüklükte verileri işlemek için kullanılacak herhangi bir ekonometrik yöntem, varyans-kovaryans matrisinin tersinin alınacağı aşamada kitlenebilmesi muhtemel olmasına rağmen, karşılaştırma yapabilmek için, kantil regresyon yöntemiyle tahmin edilmiştir. Alternatif olarak, bu büyüklükte ve bu kadar fazla öznitelik içermesine rağmen hem daha kısa sürede hem de çok yüksek tahmin yüzdesi ile kantil regresyon maliyet fonksiyonuna dayalı derin öğrenme metodu geliştirilerek dört katmalı bir sinir ağı modeli kurulmuştur. Derin öğrenme uygulaması için ise, ilk makaledekine benzer bir yöntemle eğitim veriseti %90 olarak belirlenmiş, yıl bazında katmanlı rassal K-Fold algoritması ile seçilmiş, kalanı test veriseti olarak kullanılmıştır. Toplamda dört adet olarak belirlenen (.10, .20, .40 ve .80) kantiller için ayrı ayrı koşturulan kantil regresyon maliyet fonksiyonuna dayalı derin öğrenme algoritması 10.000 adetlik küçük demetlerle yaklaşık 2 saat 34 dk.'da eğitilebilirken, normal denklem yöntemiyle hesaplanan kantil regresyon yaklaşık 20 saatte sonuç üretebilmiştir. Ancak sonuçlara bakıldığında ise derin öğrenme algoritması %93 oranında başarım sağlayabilirken, %15'i geçemeyen normal denklem kantil regresyonu, katlanılan maliyete uygun bir başarımın çok altında kalmaktadır. Tüm modeller ayrıca değişken seçimi ve mühendisliği yapılarak tekrar edilmiş ancak yüksek başarım elde edilemememiştir. Kantil regresyonuna dayalı derin öğrenme yöntemi, hem gösterdiği yüksek başarım, hem kısa zamanda uygulanabilme açısından bundan sonraki tasarruf fonksiyonlarını tahmin etmek isteyen politika yapıcılarına, araştırmacı ve akademisyenlere iyi bir araç olarak sunulabilmektedir. Bu tez çalışmasının gerçekleştirildiği döneme kadar, oldukça kısıtlı sayıda kalmış araştırma konularından birisi de, ekonomi alanında metin işlemeye dayalı yöntemlerin uygulama alanı bulduğu makale sayısının son derece kısıtlı kalması, dahası, Türkiye'de bu alanda bilinen bir çalışmanın bulunmamasıdır. Dolayısıyla literatürde hem bu açığı kapatacak, hem de istatistiksel doğal dil işleme yöntemlerinin kullanılabileceği, verileri işlemede oldukça etkili bir tahmin yöntemi olduğu konusunda bir önayak olabilmek amacıyla, Türkiye Cumhuriyeti Merkez Bankası (TCMB) tarafından, genel olarak aylık yayımlanan Para Politikası Kurulu (PPK) Kararları Özet Metinleri, İngilizce olarak incelenmiştir. Bu metinler, PPK toplantılarının gerçekleştirildiği günden sonraki beş işgünü içerisinde yayımlanmakta (2011 yılından itibaren), toplantılar ise aksi bir ekonomik gelişme olmadığı sürece bulunulan ayın 4. Perşembe günleri, saat 14:00'da gerçekleştirilmektedir. toplantılara dair tam metinler yerine, üç temel başlık altında bu özet raporlar TCMB'nin sitesinde PDF olarak sunulmaktadır. Bu üç başlık, genel olarak, ``Enflasyon Gelişmeleri'' (1), ``Enflasyonu Etkileyen Unsurlar'' (2) ve ``Para Politikası ve Riskler'' (3) olarak sıralanmaktadır. Birinci başlık altında geçmiş dönem enflasyonda meydana gelen değişiklikler incelenirken, ikinci başlıkta genel olarak geçmiş dönemdeki değişiklikleri etkileyen faktörler detaylıca incelenmektedir. Son başlıkta ise, bunlardan farklı olarak makro konjonktürde meydana gelen gelişmeler incelenmektedir. Teknik olarak hazırlanan bu raporların genel olarak bir sistematik ierisinde hazırlandığı, başlıklardaki ufak değişiklikler haricinde ciddi bir değişikliğin olmadığı, her bir raporun içerisinde yer alan paragrafların konu bütünlüğünü değiştirmeyecek şekilde maddeler halinde verildiği, maddelerde işlenen cümlelerin maddenin konu bütünlüğünden çıkmadığı, üç başlık altındaki maddelerin ise o başlığa son derece sadık kalınarak hazırlandığı görülmektedir. TCMB hem politika belirleyici rolü, hem yazılı veya sözel her aksiyonuyla sinyal verici, hem de itibari değeriyle ülkenin bir prestiji olması dolayısıyla, bu raporlardaki özen korunmuş, şeffaflık gereği kamuoyu ile paylaşılmıştır. Bu doğrultuda 20 Temmuz 2006'da 2006-39 No ile yayımlanmış ilk özet rapor ile 14 Haziran 2018'de yayımlanmış 2018-24 No'lu son özet rapor arasında kalan toplamda 129 PPK özet raporu, yazılan bir derleyici ile PDF ortamında TCMB web sayfasından çekilmiş, düz metin\footnote{Plain text.} dosyalarına dönüştürülmüştür. Ardından veriler, başlıklar ve numaralar altında listelenerek, en çok kullanılan kelimeler 1-gram, 2-gram ve 3-gram altında çıkarılarak birer zaman serisi olarak çıkarılmış, ayrıca 1-gramlar kelime bulutu olarak her üç başlık için resimlendirilmiştir. Buna göre (1). başlıkta fiyatlar, (2). başlıkta talep, (3). başlıkta ise enflasyon en çok kullanılan kelimelerdir. Ardından her PPK özetinin numaraları ve kullanılan kelime sayıları çıkarılmış, iş döngülerinin gerçekleştiği dönemlerde TCMB'nin daha yoğun kelime kullanımına gittiği ve raporlarda daha fazla madde listelediği gösterilmiştir. Ardından istatistiksel doğal dil işleme yöntemleri ile WordNet veritabanı kullanılarak her bir cümleye anlamsal duygu analizi yapılmış, başlık veya rapor bazında kümülatif indeks değerleri oluşturulmuştur. Bu anlamda yine belirtilen iş döngüleri dönemlerinde TCMB'nin daha pesimist bir tonda konuştuğu ve piyasaya seslendiği görülmüştür. Bu indekslemeden sonra, veritabanı cümle boyutuna indirgenerek, zaman serisi yaklaşımıyla raporlar birbirine bağlanmış ve Uzun Kısa-Süreli Bellek adı verilen yinelemeli sinir ağı modeli kurularak %93 doğruluk payı ile gelecek dönemdeki raporların anlam skorlarının tahmin edilebilmesine yönelik sağlam bir model oluşturulmuştur. Bu model ile, piyasaya verilen tonun kestirilmesinde son derece kullanışlı olmakla birlikte, anlamsal analiz ile TCMB'nin PPK kararlarına yönelik standart bir anlam skorunun elde edilebilmesi sağlanmıştır. Nihayetinde, gerek uygulama gerekse kendi verisetini oluşturma zorlukları açısından oldukça önemli yenilikler içeren ve başaran bu tezin tüm aşamaları ekonomi disiplini içerisindeki tüm ilgililere, piyasa yapıcılarına ve politika geliştiricilerine sunulmak amacıyla açık kaynak olarak gerçekleştirilmiştir. İlk iki makalede yer alan verisetlerinin yalnızca TÜİK tarafından sunulabiliyor olması nedeniyle, sadece üçüncü çalışmanın veriseti, kullanılan tüm kodlar, en az üç yıl süresince {dissertation.yasinkutuk.com} adresinde bulunabilecektir. En son olarak, bu tezdeki tüm hatalardan yazarın kendisi sorumludur, herhangi bir görüş, tamamen yazarın tutumunu içermektedir.
Özet (Çeviri)
In this study, new estimation methods have been investigated as the title of the dissertation suggests. These methods, at the time of writing this dissertation, are classified in Artificial Intelligence. Three articles have been completed for this purpose. These articles are not only new in terms of estimation methods, but also have many innovations in terms of data sets that are created and used. In addition, the methods used are also compared with econometric methods. The methods to be used in all the articles have been examined in detail in the first chapter. This chapter consists of two main sections. In the first section, the methodologies used in this study but mostly by artificial intelligence are examined. In the second section, econometric methodology to be used for comparison are examined. The first article is about estimating the likelihood of individuals transitioning from unemployment to employment. For this purpose, Household Labor Force Surveys in between 2004-2016 are utilized by matching the questions and the answers semantically which are changed year by year. On the side of machine learning, since the problem is described as classification, estimation methods and their algorithms used for this purpose selected in accordance with classification. Again, classification is examined mostly in binary choice models, logistic regression is the most appropriate econometric methodology. The results indicate that XGBoost and Random Forest classifiers in ML are slightly better than logistic regression. Second article tries to establish a forecasting, as well as prescriptive, model for savings ratio for both individuals and households. Here, Household Budget Surveys at both individual and household level are matched and merged starting from 2002 to 2016. Since most features can be used for estimation, the data is turned into high dimensional and relatively bigger one. Due to the distribution of saving ratio is normal and skewed to the lower levels, quantile regression is thought as the best method to deal with that issue. Later, deep neural networks which has a quantile loss function, normal regression loss function and a quantile regression are run to generate a model. However, as the results indicate, DQRNN is superior to DRNN and normal equation which is also costly, time-consuming and hard to estimate. In the last article, a very experimental attempt is applied to Summaries of Monetary Policy Committee Reports issued in 2006 - 2018 in order to understand quantitatively the Central Bank of the Republic of Turkey in a very standardized way for each economic agent. In order to do it, a sentiment analysis is conducted and a predictive Recurrent Neural Network model specifically called Long Short-Term Memory is provided to predict semantics of each report with high accuracy. All in all, these articles provided in this dissertation, in which both methodologies and the data need more effort are presented for use by economic agents, institutions, researchers and academicians with their open sourced codes and methods. The data in the first and the second articles are limited to use by TURKSTAT only and are not published, however, the third article is published. All materials can be found in this website {dissertation.yasinkutuk.com}, for at least 3 years. Finally, the author is responsible for all errors in this thesis, in addition, any opinion reflects only the author's position entirely.
Benzer Tezler
- Essays on spatial econometrics: estimation methods and applications
Mekansal ekonometri üzerine denemeler: tahmin yöntemleri ve uygulamalar
OSMAN DOĞAN
Doktora
İngilizce
2015
EkonometriThe City University of New YorkEkonomi Ana Bilim Dalı
PROF. DR. WIM VIJVERBERG
- Three essays on doubly robust estimation methods
Başlık çevirisi yok
SELVER DERYA UYSAL
Doktora
İngilizce
2011
EkonomiUniversität KonstanzPROF. DR. WINFRIED POHLMEIER
PROF. DR. FRIEDHELM PFEIFFER
- Refahın ötesi: Öznel iyi oluş üzerine ekonometrik denemeler
Beyond welfare: Econometric essays on subjective well-being
SÜREYYA DAL
- Essays on nowcasting and forecasting business cycles and real economy
Konjonktür hareketleri ve reel ekonomi anlık tahmini ve öngörüsü üzerine makaleler
HAMZA DEMİRCAN