Geri Dön

Makine öğrenmesinde istatistiksel veriler kullanılarak maruziyetin belirlenmesi: Sakarya ölçeğinde bir çalışma

Determination of exposure using statistical data in machine learning: A case study in Sakarya

  1. Tez No: 879911
  2. Yazar: MUHAMMED ALİ HAŞILOĞLU
  3. Danışmanlar: PROF. DR. NACİ ÇAĞLAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Deprem Mühendisliği, Earthquake Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Sakarya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İnşaat Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapı Bilim Dalı
  13. Sayfa Sayısı: 89

Özet

Afet yönetimi döngüsünde, afet öncesi acil müdahale ve yardım hazırlıklarının tamamlanması ve finansal yönden yatırım yapılması insani ve maddi kayıp yaşanmasını minimize etmek için oldukça önemlidir. Bu nedenle afet döngüsünün ilk fazı olan hazırlık fazının etkin bir şekilde tamamlanması için afet öncesi dönemde olası kayıp analizlerinin yapılmasına ve bu doğrultuda önlemler alınmasına ihtiyaç duyulmaktadır. Kayıp analizleri için yapılan çalışmalar üç temel bileşen üzerine kurulur bunlar; tehlike, maruziyet ve kırılganlık bileşenleridir. Kayıp bileşenleri arasında en fazla zamana ve insan gücüne ihtiyaç duyulan aşama, tehlikeye maruz kalacak değerlerin karakterizasyonun yapılıp mekânsal dağılımlarının belirlenmesi olarak tanımlan maruziyetin belirlenmesi aşamasıdır. Mevcut maruziyet modellerinin barındırdığı en büyük belirsizliklerden biri veri eksikliği nedeniyle mekânsal dağılım için kullanılan çözünürlüğün kaba olmasıdır. Bir diğer bilgi yetersizliğinden kaynaklanan belirsizlik ise veri setlerindeki bina fiziksel özelliklerin eksikliğidir. Ulusal düzeyde oluşturulacak maruziyet modelleri için ilk başvurulan veri kaynağı ülkenin merkezi istatistik bürosu tarafından toplanan yapı izin istatistikleri ve nüfus sayımları içinde toplanan ek bilgilerdir. Ancak veriler her ulus için yeterli sayıda veya detayda bilgi içermeyebilir. Bunun için modellerin çözünürlüklerinde ve bilgi seviyelerinde belirsizlikler oluşmakta ve ek bilgilere ihtiyaç duyulmaktadır. Bu tez kapsamında ise çeşitli veri setleri, istatistiksel özetler, uzman görüşleri, istatistiksel dağılımlar ve makine öğrenmesi algoritmaları kullanılarak tüm Türkiye için genelleştirilmiş bir bina maruziyet modeli oluşturulmuştur. Geliştirilen bina maruziyet modeli üç ana veri setine dayanmaktadır. İlk veri seti Sakarya Büyük Şehir Belediyesi (SBB) ve Afet ve Acil Durum Yönetimi Başkanlığı (AFAD) tarafından yürütülen, kentsel dönüşüm çalışmalarında kullanılması için Sakarya il sınırları içerisinde bulunan bina başına fiziksel özellikler, kullanım amacı, doluluk durumları ile ilgili bilgiler içermektedir. Bu veri setinde binaların sismik tehlikelere karşı kırılganlıklarında önemli bir faktör olan planda düzensizlik, yumuşak kat düzensizliği ve yapı nizamı gibi makine öğrenmesinde etiket olarak kullanılabilecek özellikler de bulunmaktadır. Bu özellikler dışında kat sayısı, bağımsız bölüm sayısı, taşıyıcı sistem türleri, yığma binalar için dolgu duvar türleri ve ruhsat tarihi gibi önemli özellikler de bulunmaktadır. İkinci ana veri olarak ise Türkiye İstatistik Kurumu (TÜİK) tarafından toplanmış Türkiye sınırları içerisinde bulunan ilçelere ait 1992-2023 arasında inşa edilen binaların izin istatistikleri bulunmaktadır. Bu veri setinde Avrupa Birliği tarafından ortak standartlıların oluşturulması için önerilen bina sınıflandırması kullanılmış ve özellikler bu sınıflarda toplanılmıştır. İzin istatistiklerinde SBB'ye benzer bir şekilde binaların kullanım amaçları, yapısal sınıfları, kat adeti, daire sayısı gibi fiziksel özellikler bulunmaktadır. SBB verisinden farklı olarak daha özet niteliğinde bina fiziksel özelliklerini tüm Türkiye genelinde sunmaktadır. Son olarak kullanılan ana veri ise Avrupa Çevre Ajansı ile yürütülen Türkiye'nin de içinde üye xviii ülke olarak bulunduğu, uydu görüntüleri ile arazi örtülerinin belirlendiği CORİNE 2018 yapay alan örtüsüdür. Bu veri setinde ilçe düzeyinde yerleşim alanlarının poligonları bulunmaktadır. Tez kapsamında ilk iki veri seti bina karakterizasyonu için, üçüncü veri seti ise binaların uzaysal dağılımı için kullanılmıştır. SBB veri seti her ne kadar detaylı özellik uzayına sahip olsa da hem veri seti içerisinde boş hücrelerinin bulunması hem de sadece belli bir bölgeye ait stok bilgisini içerdiği için kullanılmadan önce belirli istatistiksel işlemler ve dönüşümler gerçekleştirilmiştir. TÜİK veri seti ise SBB verisinin detay seviyesinden yoksun olmasına rağmen SBB verisine nazaran temsil ettiği zaman aralığında tüm ilçelerdeki bina özelliklerini içermektedir. TÜİK veri setindeki en büyük eksiklik binalardaki doluluk oranları ile 1992 öncesi inşa edilmiş bina bilgisinden tamamen yoksun olmasıdır. Tez kapsamında bu iki veri seti birbirinin eksikliklerini kapatacak şekilde ortak bir bina karakterizasyon taksonomisi kullanılarak birleştirilmiş ve eksik bilgiler bu tam veri içerisinde istatistiksel yöntem ve dağılımlar ile tamamlanmıştır. Eksik veriler için K-en yakın komşu algoritması (KNN) ve inşa yıl dağılımları için ise beta dağılımları kullanıldı. İller için tam bina sayılıları Doğal Afet Sigortaları Kurumu (DASK) tarafından yayımlanan interaktif deprem haritası üzerindeki veriler kullanıldı. Yapı izin verisindeki inşa yılı 1992 öncesi eksik binalar, SBB verisindeki 1992 öncesi bina özellik dağılımları ve yapı izin verisi içerisindeki 1992-1999 inşa yıllarına sahip binalar ile tamamlandı. TÜİK verisi içerisinde bir binada yaşayan sayısını bulmak için yine TÜİK'te paylaşılan ilçe düzeyinde Adrese Dayalı Nüfus Kayıt Sistemi (ADNKS) sonuçları kullanıldı. İlçe nüfusları, daire oranlarına göre ve TÜİK tarafından yayımlanan Bina Nitelik ve Konut Araştırması (BKNA) özet istatistiklerindeki inşa yılına göre hane halkı oranları kullanılarak elde edildi. Son olarak her bina için yeniden inşa maliyetleri Çevre, Şehircilik ve İklim Değişikliği Bakanlığı tarafından Resmî Gazete üzerinde yayınlanmış mimarlık ve mühendislik hizmet bedelleri hesabında kullanılacak yapı yaklaşık birim maliyetleri kullanılarak her binanın kullanım türü ve yüzölçümleri ile hesaplandı. Türkiye için oluşturulan bu tam veri setinde 11,409,354 bina hesaplandı ve bu binaların yeniden inşası için 2.5 Trilyon $ yeniden inşa maliyeti elde edilmiştir. Maruziyet modellerindeki bina kırılganlıklarının daha hassas elde edilebilmesi için mevcut verilerdeki kırılganlığa etki edebilecek özelliklerin kullanılması gerekmektedir. Tez kapsamında ise SBB verisinde bulunan fakat TÜİK verisi içerisinde bulunmayan üç adet bina düzensizliklerinin tahminini gerçekleştiren makine öğrenmesi modelleri eğitilmiştir. Algoritma olarak Random Forest Classification kullanılmış, tahmin etiketleri için SBB verisi içerisindeki“Planda Düzensizlik”,“Yumuşak Kat”ve“Yapı Nizamı”özellikleri kullanılmıştır. SBB verisi içinde doğrulaması gerçekleştirilen modellerin doğruluk oranları Planda Düzensizlik etiketi için %80.36, Yumuşak Kat Etiketi için %85.73 ve Yapı Nizamı için ise %71.93 olarak elde edilmiştir. Daha sonra bu modeller ile tüm veri üzerinde tahmin sonuçları elde edilip maruziyet modeli içine eklenmiştir. Son olarak oluşturulan veri setinin bölgesel dağılımları için binanın bulunduğu ilçe koordinatları elde edilmiştir. Literatürde maruziyet modellerinin mekânsal dağılımların model belirsizliği üzerindeki büyük bir etkisi olduğu kanıtlanmıştır. Bu nedenle ilçelerde bulunan tüm binaları tek bir nokta üzerinde temsil edilmesi modelin belirsizliğini artıracağı için uygun yöntemlerle binaların bölgesel dağılımları yapılmıştır. Bu tez kapsamında binaların mekânsal dağılımları için CORINE veri seti üzerinde tanımlanmış yapay alan örtüleri kullanılmıştır. İlçe koordinatlarına en yakın xix yapay örtüler hesaplanıp bu örtü üzerine binalar homojen olarak dağıtılmıştır. Son olarak tüm veri Türkiye haritası üzerine dağılımlarıyla birlikte eklenmiştir.

Özet (Çeviri)

In the disaster management cycle, completing pre disaster emergency response and aid preparations and making financial investments are especially important to minimize human and monetary losses. For this reason, to effectively complete the preparation phase, which is the first phase of the disaster cycle, it is necessary to analyse losses in the pre-disaster period and take precautions accordingly. Studies conducted for loss analysis are based on three basic components: hazard, exposure, and vulnerability components. Among the loss components, the phase that requires the most time and workforce is the creation of the exposure model, which is defined as the characterization of the values that will be exposed to hazards and the determination of their spatial distribution. One of the biggest uncertainties in current exposure model is that the smallest resolution used for spatial distribution is at the provincial level due to lack of data. Another deficiency is the insufficient of building stock information in the data sets used. The first source of data used for exposure models to be created at the national level is building permit statistics collected by the country's central statistics office and additional information collected population censuses. However, the data may not contain sufficient quantity or detail information for every nation. For this reason, uncertainties occur in the resolutions and information level of the models and additional information is needed. Within the scope of this thesis, a generalized building exposure model for all of Türkiye was created using various data sets, statistical summaries, expert opinions, statistical distributions and machine learning algorithms. The developed building exposure model is based on three main data sets. The first data set contains information about the physical characteristics, purpose of use, and occupancy status of each building within the borders of Sakarya province for use in urban renewal studies conducted by Sakarya Metropolitan Municipality (SBB) and Disaster and Emergency management Presidency (AFAD). This data set also includes features that can be used as labels in machine learning, such as plan irregularity, soft floor irregularity and building order, which are key factors in the vulnerability of building to seismic hazards. Apart from this feature, there are also important features such as the number of floors independent sections, load-bearing system types, infill wall types for masonry buildings and license date. As the second main data, there are permit statistics of buildings constructed between 1992 and 2023 in the districts within the borders of Türkiye, collected by the Turkish Statistical Institute (TUIK). In this data set, the building classification recommended by European Union the create common standards was used and the features are presented collected in these classes. Similar to SBB, permit statistics include physical characteristics such as the intended use of buildings, structural classes, number of floors, and number of flats. Unlike SBB data, it contains more summary building physical characteristics throughout Türkiye. Finally, the third main data used is the CORINE 2018 artificial land cover, which is carried out with the European Environment Agency and determines the land covers of xxii the member countries, including Türkiye, using satellite images. This data set contains polygons of residential areas at the district level. Within the scope of the thesis, the first two data sets were used for building characterization and the third data set was used for the spatial distribution of buildings. Although the SBB data set has a detailed feature space, certain statistical operations and transformations were carried out before use, as there are empty cells in the data set, and it only contains stock information for a certain region. The TUIK data set on the other hand, lacks the detail level of SBB data, but compared to SBB data, it includes building features in all districts within the period it represents. The biggest deficiency in the TUIK data set is that it completely lacks information on occupancy rates and buildings built before 1992. Within the scope of the thesis, these two date sets were combined using a common building characterization taxonomy to compensate for each other's deficiencies, and the missing information was completed with statistical methods and distribution within this complete data. K-Nearest Neighbour algorithm (KNN) has been used for missing data and beta distributions have been used for year distributions. The data on the interactive earthquake map published by the Natural Disaster Insurance Institution (DASK) for the exact building numbers for the provinces were used. The missing building before 1992 in the building permit data were completed with building property distributions before 1992 in the SBB data and buildings with construction years of 1992-1999 in the building permit data. Then in order to find the number of people living in a building class based on TUIK data, the results of the Address Based Population Registration System (ADNKS) at the district level, also share in TUIK, were obtained. District populations were obtained according to the flat rates in the districts and by using the household distribution according to the year of construction in the summary statistics of the Building Quality and Housing Survey (BKNA) published by TUIK. Finally, the reconstruction costs for each building were added by using the approximate unit costs of the building to be used in the calculation of architectural and engineering service fees published in the Official Gazette by the Ministry of Environment, Urbanization and Climate Change, and the usage type and surface area of each building. In this full data set created for Türkiye, 11,409,354 buildings were calculated and a reconstruction cost of $ 2.5 Trillion was calculated for the reconstruction of these buildings. In order to obtain more precise building fragility in exposure models, it is necessary to use features that may affect fragility in existing data. Within the scope of the thesis, machine learning models were trained to predict three building irregularities that are found in SBB data but not in TÜİK data. Random Forest Classification was used as the algorithm and“Irregularity in Plan”,“Soft Floor”and“Building Order”in the SBB data were used as prediction labels. The accuracy rates of the models verified within the SBB data were obtained as 80.36% for the Irregularity in Plan label, 85.73% for the Soft Label and 71.93% for the Building Order. Then, prediction results were obtained on all data with these models and added to the exposure model. Finally, for the spatial distribution of the created data set, the district locations where the building is located were obtained. Studies have proven that the spatial distribution of exposure models has an impact on the uncertainty of the model. For this reason, representing all the buildings in the districts on a single point will increase the uncertainty of the model, so the spatial distribution of the buildings must be distributed using appropriate methods. In this thesis, artificial land covers defined on the CORINE data set were used for the spatial distribution of buildings. The artificial cover closest to the district locations was calculated and the buildings were distributed xxiii homogeneously on this cover. Finally, all data was added to the map of Türkiye along with their distribution.

Benzer Tezler

  1. Akdeniz Üniversitesi Tıp Fakültesi Hastanesinde görev yapan doktorlar, intörn doktorlar ve hemşirelerin iş yeri şiddeti maruziyetinin adli tıbbi açıdan değerlendirilmesi ve iş doyumu ile tükenmişlik düzeylerine etkisinin belirlenmesi

    Evaluation of workplace violence exposure of doctors, intern doctors and nurses working in Akdeniz University Faculty of Medicine Hospital in a forensic medicine perspective and determining the effect of workplace violence on job satisfaction and burnout levels

    CEREN ŞİBKA SAYAR

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2021

    Adli TıpAkdeniz Üniversitesi

    Adli Tıp Ana Bilim Dalı

    PROF. DR. SEMA DEMİRÇİN

  2. Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması

    Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques

    FATMA AKALIN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEJAT YUMUŞAK

  3. Obtain anterior/posterior position of the tumor through machine learning

    Makine öğrenme yoluyla tümörün anterior/posterior pozisyonunu elde edin

    GOLSHAN GHOLAMPOUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik-Haberleşme Eğitimi Ana Bilim Dalı

    PROF. DR. İBRAHİM AKDUMAN

  4. Penalized stable regression

    Cezalandırılmış stabil regresyon

    İREM SARIBAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Matematikİstanbul Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜL İNAN

  5. A comparative study for football analytics with data mining and artificial intelligence techniques

    Veri madenciliği ve yapay zeka teknikleri ile karşılaştırmalı futbol analitiği

    MUSTAFA AADEL MASHJAL AL-ASADI

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞAKİR TAŞDEMİR