Proposal for a forecasting methodology to predict commercial real estate values in Istanbul using social big data
Sosyal büyük veri kullanımı ile İstanbul'daki ticari gayrimenkul değerlerini tahmin etmek için bir kestirim yöntemi önerisi
- Tez No: 840637
- Danışmanlar: DOÇ. KEREM YAVUZ ARSLANLI
- Tez Türü: Yüksek Lisans
- Konular: Ekonometri, İstatistik, Econometrics, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Gayrimenkul Geliştirme Ana Bilim Dalı
- Bilim Dalı: Gayrimenkul Geliştirme Bilim Dalı
- Sayfa Sayısı: 161
Özet
Gayrimenkul sektörü, değişen tüketici alışkanlıkları ve COVID-19 karantinalarının etkisi nedeniyle insan davranışlarına ve konum tabanlı sosyal ağlara başvurarak gayrimenkul trendlerini anlamak için büyük veriye yönelmiştir. Büyük ve karmaşık veri yığınlarıyla uğraşan büyük veri, gayrimenkul sektöründeki insan faaliyetlerini yansıtma potansiyeline sahiptir. Büyük veri analitiği, şirketlerin pazardaki rekabeti daha iyi anlamalarına yardımcı olmak için büyük miktardaki veri içindeki gizli desenleri ve ilişkileri keşfetmeyi amaçlar. Günümüzde büyük veri uygulamalarıyla ilgili araştırmalar sınırlı olsa da, veri ve veri analitiği konusunda nitelikli araştırmacılar hızlı bir gelişme vadetmektedir. Literatürde, gayrimenkul fiyatlarını tahmin etmek için“Google Trends”büyük verisini kullanan, uzaktan algılanan görüntüleri kullanarak konut fiyatlarını haritalayan çalışmalar bulunmaktadır. Bununla birlikte, büyük verinin gayrimenkul araştırmalarındaki rolü genellikle konut piyasalarıyla sınırlı olmakta ve ticari/endüstriyel gayrimenkul göstergeleri ve yatırımlarıyla ilgili çalışmalar yetersiz kalmaktadır. Konum tabanlı sosyal ağlar (KTSA'lar), milyonlarca kullanıcının check-in yapmasıyla şehirlerde insan aktiviteleri hakkında büyük miktarda veri ürettiği için gayrimenkul çalışmaları için önemli bir potansiyel sunmaktadır. Bununla birlikte, küçük veya kırsal bölgeler yetersiz veriye sahip olabilirken, metropol bölgeler insan aktivitesi desenlerini gözlemlemek için yeterli veriyi sağlamaktadır. Dolayısıyla bu tezde, İstanbul çalışma alanı olarak seçilmiştir. Bu çalışma, KTSA büyük verisi ve gayrimenkul verilerini kullanarak İstanbul'daki sokak perakende gayrimenkullerinin gelecekteki kira/fiyat seviyelerini tahmin etmeyi amaçlamaktadır. KTSA verileri, Instagram ve Twitter kazınarak toplanırken, gayrimenkul verileri çevrimiçi ilanlardan elde edilmiştir. Kodlama için Python 3.8, programlama platformu için Jupyter Notebook, analiz ve tahmin süreçleri için R ve R-studio kullanılmıştır. Verilerin saklanması ve filtrelenmesi için SQLite veritabanı, veritabanı sorguları için SQL dili kullanılmıştır. Türkiye'de aylık 39 milyon aktif kullanıcısı bulunan Instagram, insan faaliyetlerini gözlemlemek için önemli bir veri kaynağıdır. Instagram'dan alınan veriler, bu çalışma için özel olarak kodlanmış iki veri kazıyıcı ile toplanmıştır: mekan kazıyıcı ve gönderi kazıyıcı. İlk aşamada, coğrafi etiketli gönderilerin oluşturulduğu mekanlar toplanmıştır. Mekan verilerinin kazınması ve temizlenmesinin ardından 152.145 mekandan oluşan bir konum listesi elde edilmiştir. İkinci aşamada ise, İstanbul'da listelenen mekanlardan Haziran 2019 ve Ağustos 2021 arasında yayınlanan 17.161.015 adet coğrafi etiketli Instagram gönderisi toplanmıştır. Twitter, kullanıcıların tweetler aracılığıyla kişisel görüşlerini paylaşmalarına, ve bu tweetlerin fotoğraflar, bağlantılar veya konum etiketleri içermesine olanak tanıyan bir mikro blog platformudur. Türkiye'de 15 milyon aylık aktif Twitter kullanıcısı bulunmakta olup, Instagram kadar popüler olmasa da farklı kullanıcı profillerinin faaliyetlerini gözlemlemek için çalışmaya dahil edilmiştir. Çalışmada kullanılan Twitter verisi, iki aşamada toplanmıştır: mekan kazıma ve tweet kazıma. Twitter mekanlarının toplanma aşamasında, Foursquare'ın Places API ve Postman koleksiyon aracı kullanılarak 21.875 benzersiz mekan listelenmiştir. Tweetlerin toplanma aşamasında ise, snscrape adlı açık kaynaklı bir tweet kazıyıcı kullanılarak Haziran 2019 ve Ağustos 2021 arasında İstanbul'daki mekanlardan coğrafi etiketlenerek atılan 227.965 tweet toplanmıştır. Çalışmada kullanılan gayrimenkul veri seti, aylık 15 milyon kullanıcıya sahip bir çevrimiçi gayrimenkul pazarı olan Emlakjet tarafından sağlanmıştır. Veri seti, Haziran 2019'dan Ağustos 2021'e kadar İstanbul'da satılık ve kiralık perakende ilanlarını kapsamaktadır. Bununla birlikte, seçilen zaman aralığı içindeki ilan sayısının yetersiz dağılımı nedeniyle her ilçe için ayrı ayrı en uzun sürekli zaman aralıkları seçilmiştir. Ayrıca, verideki aykırı değerler, birim kira/fiyat başına metrekareye göre temizlenmiştir. Z-puanının 2 olduğu bir eşik noktası belirlenmiş ve bu eşik altında kalan verinin geriye kalan %95,45'i çalışmaya dahil edilmiştir. Üç kaynaktan toplanan veriler csv formatında kaydedilmiş ve bir Python betiği kullanılarak SQLite veritabanına aktarılmıştır. Veritabanı, DB Browser for SQLite programı ve SQL dili kullanılarak filtrelenen dört farklı tabloya sahiptir. Üç veri setinin de günlük sıklığa sahip olmasına ragmen, düşük ilan sayısı nedeniyle gayrimenkul verileri günlük sıklıkta bir çalışma için yeterli olmamıştır. Literatürde yer alan ticari gayrimenkul çalışmaları, aylık ve üç aylık frekanslarda veri/endeks bulunmasından dolayı genellikle uzun vadeli dönemleri tahmin etmeye odaklanmıştır. Ancak, bu çalışma, üç veri setinden gelen verileri 7 günlük dönemlere gruplayarak bir veya daha fazla haftalık kısa vadeli dönemleri tahmin etmeyi amaçlamaktadır. Ayrıca, Instagram ve Twitter verileri 116 haftayı kapsamakla birlikte, seçilen zaman aralığı içinde sınırlı sayıda gayrimenkul verisi bulunması nedeniyle sadece 63 hafta analize dahil edilebilmiştir. ARIMA, otoregresif (auto-regressive), entegre (integrated) ve hareketli ortalama (moving average) olmak üzere üç bileşenden oluşan bir zaman serisi tahmin modelidir. Bu model, zaman serisi verilerindeki desenleri modellerken küçük tam sayıları kullanmaktadır. Bununla birlikte, bu çalışma için, birden fazla zaman bağımlı değişkenin sadece kendi geçmiş değerlerine bağlı olmadığı, diğer değişkenler tarafından da etkilendiği çok değişkenli zaman serisi analizi gereklidir. Bu sebeple çalışmada analiz ve tahmin için bir R paketi olan marima önerilmektedir. Çalışmada, işlemler her ilçenin veri setine ayrı ayrı uygulanmıştır. MARIMA modelinde kullanılan değişkenlerin özelliklerini gözlemlemek için yine bir R paketi olan forecast'in auto.arima() fonksiyonu kullanılmış ve parametre seçimi için Akaike Bilgi Kriteri (AIC) benimsenmiştir. Ek olarak, değişkenlere Artırılmış Dickey-Fuller (ADF) birim kök testleri ve bir zaman serisinin başka bir zaman serisini tahmin etmede istatistiksel olarak anlamlı bir etkiye sahip olup olmadığını belirleyen Granger nedensellik testi kullanılmıştır. Bu çalışmada önerilen metodoloji, tek bir tahmin modeli sunmak yerine mevcut verileri kullanarak farklı modeller oluşturmakta, bu modeller arasından en yüksek doğruluğa sahip olanı bulmakta ve seçilen modeli istenen tahmin periyodunda kestirim yapmak için kullanmaktadır. Bu metodoloji, en temel tek değişkenli ARIMA modelinden başlayarak ve dışsal değişkenlerin eklenmesiyle daha karmaşık hale gelerek çoklu tahmin modelleri oluşturmaktadır. Çalışmada, ticari gayrimenkul değerlerinin çeşitli geleneksel tahmin modellerini ve sosyal medya verilerinin tahmin doğruluğu üzerinde etkisini değerlendirmek için alternatif modelleri dikkate almaktadır. Ayrıca bu modellerde, Instagram ve Twitter verilerinin yalnız olarak veya bir arada kullanıldığındaki etkisini değerlendirmek için alt deneyler de gerçekleştirilmiştir. Tahmin modellerinin performansı, ortalama mutlak hata (MAE), ortalama mutlak yüzde hata (MAPE), ortalama karesel hata (MSE) ve kök ortalama karesel hata (RMSE) gibi uygun hata metrikleri kullanılarak ölçülmüştür. Her deneme için temel modellerden ve KTSA destekli modellerden gelen en iyi sonuçlar karşılaştırılır. Çalışmada önerilen veri analizi ve tahmin yöntemi, İstanbul'un 39 ilçesine uygulanmaktadır. Bazı ilçeler çeşitli nedenlerle süreçten çıkarıldığından dolayı, kalan ilçeler için tahmin sonuçları sunulmaktadır. Çalışmada, tüm modeller, farklı tahmin sürelerinde sonuçları sergilemek için bir haftadan dört haftaya kadar olan test periyotları için çalıştırılmıştır. Sonuçların belirli bir standart temelinde yorumlanması ve karşılaştırılmasını kolaylaştırmak için MAPE ve RMSE metriklerindeki iyileştirmeler kategorilere ayrılmıştır. Bir ilçe için yapılan her tahminde bir iyileşme varsa, sürekli olarak sınıflandırılmış; aksi takdirde, zaman zaman olarak sınıflandırılmıştır. Modelin iyileşme derecesi sınıflandırmasında ise, her ilçe için tahmin sonuçları, iyileşme yüzdesine göre güçlü, orta veya hafif olarak sınıflandırılmıştır. Satış tahminleriyle ilgili olarak, kestirime dahil edilen 27 ilçeden 20'si güçlü iyileşme göstermiş ve bu ilçelerde en az %30 iyileşme kaydedilmiştir. Bu ilçelerin 18'i sürekli bir iyileşme sergilerken, 2 ilçede zaman zaman iyileşme görülmüştür. Ek olarak, 5 ilçe orta düzeyde iyileşme gösterirkek ve bunların 3'ü sürekli iyileşme sergilemiş, 2 ilçede zaman zaman iyileşme görülmüştür. Geriye kalan 2 ilçede ise hafif ama sürekli bir iyileşme görülmüştür. Kiralama tahmin sonuçlarıyla ilgili olarak, kestirime dahil edilen 24 ilçeden 22'sinde güçlü ve sürekli iyileşme görülmüştür. Bir ilçede güçlü ancak zaman zaman iyileşme görülürken, bir ilçede orta düzeyde ancak sürekli iyileşme görülmüştür. Toplamda, 16 ilçe hem satış hem de kiralama tahminlerinde güçlü ve sürekli iyileşme sergilemiştir. Ayrıca, satış tahminleri için 13 ilçede ve kiralama tahminleri için 16 ilçede, KTSA destekli modellerin, temel modellerden en az %60 daha iyi performans gösterdiği görülmüştür. Bu çalışma, KTSA'ların ticari gayrimenkul sektörü üzerindeki etkisini keşfetme konusunda öncü bir çalışmadır. Mevcut araştırmalar genellikle konut gayrimenkullerine odaklanırken, bu çalışma şehirlerde insan faaliyetine dayalı olarak ticari gayrimenkul talebini anlama konusunda KTSA verilerinin potansiyelini vurgulamaktadır. Bu araştırma, gayrimenkul geliştiricileri, yatırımcılar, perakendeciler, gayrimenkul brokerları, finans kurumları, kamu kurumları ve araştırmacılar dahil olmak üzere çeşitli paydaşlar için değerli bilgiler sağlama ve karar alma süreçlerine yardımcı olma potansiyeline sahiptir. Çalışmada İstanbul'daki ilçelere odaklanırken, gelecekte yapılacak araştırmalar, sosyal medya verilerini kullanan bu metodolojinin diğer şehirler ve ülkelerdeki ticari gayrimenkul trendleri üzerindeki açıklayıcı gücünü keşfetmek amacıyla kullanılabilecektir.
Özet (Çeviri)
The real estate industry has turned to human behavior and location-based social networks to gain insights into real estate trends, due to changing consumer habits and the impact of lockdowns. Big data, which deals with massive and complex data stacks, has the potential to reflect human activity in the real estate sector. Big data analytics aim to discover hidden patterns and correlations within the vast quantities of data to help companies better understand their competition. The Institute of Real Estate Management advocates using big data as a catalyst for industrial growth and adapting to changing trends in the real estate sector. While big data applications in real estate research are currently limited, the availability of data and qualified researchers in data analytics promise rapid growth. However, big data's role in real estate research is mainly restricted to residential markets, and there is a lack of studies dealing with commercial and industrial figures and real estate investments. Location-based social networks (LBSNs) provide a significant potential for real estate studies as they generate a vast amount of data on human activity patterns in cities through check-ins by millions of users. While smaller or rural areas may have insufficient data, metropolitan areas provide adequate data to observe human activity patterns. Istanbul is chosen as the study area in this research due to its potential for good results. This study aims to predict future rent/price levels of street retail properties in Istanbul using LBSN big data and real estate data. The LBSN data was gathered by scraping Instagram and Twitter, while the real estate data was obtained from online listings. Python 3.8 was used for coding, Jupyter Notebook for programming platform, and R and R-studio for analysis and forecasting processes. SQLite database was used to store and filter the data, and SQL language was used for database queries. From Instagram, 171,578 venues and 17,161,015 geo-tagged posts were collected that were shared in Istanbul from June 2019 to August 2021. Secondly, from Twitter, 21,875 venues and 227,965 tweets that were geo-tagged from venues in Istanbul between June 2019 and August 2021 were collected. The real estate data set used in the study was provided by Emlakjet, an online real estate marketplace with 15 million monthly users. The data covered retail listings for sale and rent in Istanbul from June 2019 to August 2021. However, due to the problematic distribution of the number of listings within the selected timeframe, the longest continuous timeframes were selected for each district separately. Additionally, extreme outliers in the data were cleaned based on unit rents/prices per sq m. The previous studies in the real estate sector have mainly focused on forecasting long-term periods due to the limited availability of data/indices with monthly and quarterly frequencies. However, this study aims to forecast short-term periods of one or more weeks by grouping the data from all three datasets into 7-day periods. While the Instagram and Twitter data cover 116 weeks, only 63 weeks were analyzed due to the limited availability of real estate data within the chosen timeframe. ARIMA is a time series forecasting model with three components: auto-regressive, integrated, and moving average. It uses small integers to model patterns in the time series data. For this study, multivariate time series analysis is required, where several time-dependent variables depend not only on their past values but are also affected by others. The R package marima is suggested for analysis and prediction in this study. In the study, the processes are applied to each district's data set separately. The auto.arima() function of R package forecast is used to observe the characteristics of the variables used in the MARIMA model, and the Akaike's Information Criterion (AIC) is adopted for selecting the parameters. Additionally, Augmented Dickey-Fuller (ADF) unit root tests are applied to the variables to ensure stationarity. Furthermore, Granger causality test is used to determine whether a time series has a statistically significant effect in forecasting another time series. The methodology proposed in this study, rather than offering a single forecasting model, creates different models using the existing real-world data, finds the one with the highest accuracy among these models, and uses the selected model to make forecasts in the desired forecast horizon. The methodology involves creating multiple forecasting models, starting from the basic univariate ARIMA model and getting more complex with the addition of exogenous variables. The study considers various traditional estimation models for commercial real estate values and alternative baseline models to assess the impact of social media data on forecasting accuracy. Sub-experiments are conducted in these models to evaluate the impact of Instagram and Twitter data when used alone or in combination. The forecast accuracy of the models is measured using out-of-sample data, while in-sample data is used for model building. The forecasting models' performances are measured using suitable error metrics, including mean absolute error (MAE), mean absolute percentage error (MAPE), mean square error (MSE), and root mean square error (RMSE). The best results from the baseline models and the LBSN-supported models are presented for each session. The proposed methodology involves creating multiple models using real-world data, including traditional estimation methods and incorporating social media data, and selecting the model with the highest accuracy to make forecasts. The performance of the models is measured using error metrics such as MAPE and RMSE, with smaller figures indicating more accurate forecasts. The methodology also allows for selecting the optimum model for the desired forecast horizon by separating the dataset into different train-test subsets. Followingly, the data analysis and forecasting methodology proposed in the study are applied to 39 districts of Istanbul. While some districts are omitted from the process due to various reasons, the forecast results for remaining districts are demonstrated. In the study, all models were run for test periods of one week to four weeks to showcase results in different forecast horizons. To facilitate the interpretation and comparison of forecast results based on a specific standard, improvements in the MAPE and RMSE metrics were categorized. The classification was done separately for rental and sales forecasts for each district. If there was an improvement in each forecast made for a district, it was classified as consistent; otherwise, it was classified as occasional. In the degree of improvement classification, the forecast results for each district were categorized as strong, moderate, or slight based on the percentage of improvement. Regarding the sales forecasts, out of the 27 remaining districts, 20 districts showed strong improvements, indicating at least one instance of improvement over 30%. Among these, 18 districts displayed consistent improvement, while 2 districts showed occasional improvement. Additionally, 5 districts demonstrated moderate improvements, with 3 of them exhibiting consistency and 2 showing occasional improvement. The remaining 2 districts displayed slight yet consistent improvements. Regarding the rental forecast results, 22 out of 24 districts showed strong and consistent improvements. One district had strong but occasional improvement, and one district demonstrated moderate but consistent improvement. In total, 16 districts exhibited strong and consistent improvements in both sales and rental forecasts. Additionally, it is noteworthy that in 13 districts for sales forecasts and 16 districts for rental forecasts, the LBSN-supported models outperformed the baseline models by more than 60%. This study is a pioneering effort in exploring the impact of location-based social networks (LBSNs) on the commercial real estate industry. Existing research mainly focuses on residential properties, while this study highlights the potential of LBSN data in understanding commercial real estate demand based on human activity within cities. This research has the potential to provide valuable insights and aid decision-making processes for various stakeholders, including property developers, investors, retailers, real estate agencies, financial institutions, government entities, and researchers. While this study focuses on districts in Istanbul, future research can extend the application of this methodology to other cities and countries to explore the explanatory power of social media data on commercial real estate trends.
Benzer Tezler
- Toplu deniz taşımacılığına yönelik değişik koşullardaki acil durum tahliye sürecinin modellenmesi, analizi ve planlanması
A methodological approach for modelling, analysis and planning of emergency evacuation process in public marine transportation systems
PEIMAN ALIPOUR SARVANI
Doktora
Türkçe
2017
Denizcilikİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
DOÇ. DR. EMRE ÇEVİKCAN
- Yüzer güneş enerjisi santrallerinin (YGES) konuşlandırılmasında bulanık örtüştürmeye dayalı bir optimizasyon metodolojisi: YGES elverişli rezervuar yüzeyi
An optimization methodology to deployment of floating photovoltaics (FPV) based on fuzzy overlay: FPV convenient reservoir surface
MEHMET SEREN KORKMAZ
Doktora
Türkçe
2023
Enerjiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET DURAN ŞAHİN
- Yenilenebilir enerji sistemlerinde ağırlıklı bulanık öbekleme tabanlı bir yer seçimi yöntemi
A weighted fuzzy clustering-based facility location model for renewable energy systems
GÖKÇE KILIÇKAYA ÇAKMAK
Doktora
Türkçe
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-CerrahpaşaEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. TARIK KÜÇÜKDENİZ
- Stok yönetimi için gri tahminleme ve sürü zekası esaslı bir karar verme metodolojisi önerisi
Proposal of a decision making methodology for inventory management using particle swarm optimization and grey forecasting
FATİH YİĞİT
Doktora
Türkçe
2019
Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-CerrahpaşaEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ŞAKİR ESNAF
- Gayrimenkul yatırım projelerinin kârlılığını etkileyen faktörlerin belirlenmesi ve bulanık mantık yaklaşımı ile modellenmesi
Determination of factors affecting the profitability of real estate investment projects and modelling with fuzzy logic approach
MUSTAFA BARIŞ FAZİLET
Doktora
Türkçe
2024
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. DENİZ ARTAN