Geri Dön

Gaziantep'te PM2.5 konsantrasyonunun zamansal ve mekânsaltahminine yönelik transfer öğrenme destekli hibrit yapay zeka modelleri

Spatio-temporal estimation of PM2.5 concentrations in gaziantepusing transfer learning-based hybrid artificial intelligence models

  1. Tez No: 940901
  2. Yazar: TÜRKAN ZENGİN GÖMLEKSİZ
  3. Danışmanlar: PROF. DR. HÜSEYİN TOROS
  4. Tez Türü: Yüksek Lisans
  5. Konular: Meteoroloji, Meteorology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: İklim Bilimi ve Meteoroloji Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Atmosfer Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 137

Özet

Hava kirliliği, günümüzde çevresel sürdürülebilirlik ve insan sağlığı açısından en önemli küresel sorunlardan biri olarak kabul edilmektedir. Sanayi tesislerinden yayılan emisyonlar, araç trafiğinin yoğunluğu ve evlerdeki enerji tüketimi gibi insan faaliyetleri, atmosferde zararlı gazların ve partiküllerin birikmesine yol açarak ekosistemlerin dengesini bozmakta ve ciddi sağlık sorunlarını tetiklemektedir. Bu bağlamda, çapı 2.5 mikrometreden küçük olan PM2.5 partikülleri, solunum yoluyla akciğerlere kolayca ulaşabilmesi ve toksik etkileri nedeniyle hava kirliliği araştırmalarında özel bir öneme sahiptir. Türkiye'nin Güneydoğu Anadolu Bölgesi'nde yer alan Gaziantep, sanayi ve ticaret alanındaki lider konumu, hızlı kentleşme süreci ve artan nüfusuyla hava kirliliği riskinin yüksek olduğu bir şehir olarak öne çıkmaktadır. Bu tez çalışması, Gaziantep ilinde PM2.5 konsantrasyonlarının zamansal ve mekânsal dağılımını tahmin etmek amacıyla yenilikçi bir yaklaşım geliştirmeyi amaçlamış; makine öğrenmesi, derin öğrenme ve transfer öğrenme tekniklerini birleştirerek hava kalitesi yönetiminde veri odaklı bir çözüm sunmuştur. Çalışmanın temel hedefi, Gaziantep'teki PM2.5 kirliliğinin zaman içindeki değişimlerini ve coğrafi yayılımını anlamak, bu verilere dayanarak güvenilir tahmin modelleri oluşturmak ve eksik veri problemini çözerek PM2.5 ölçümü yapılmayan bölgeler için kirlilik tahminleri yapmaktır. Bu amaçla, Gaziantep'teki altı hava kalitesi izleme istasyonu (Atapark, Beydilli, Nizip, Fevzi Çakmak, GASKİ ve Meteoroloji) temel alınmış; 01.01.2021 - 31.12.2023 tarihleri arasındaki günlük veriler analiz edilmiştir. Ancak, GASKİ ve Meteoroloji istasyonlarında PM2.5 ölçümleri bulunmaması, bu bölgeler için alternatif bir tahmin yöntemi gerektirmiştir. Çalışma, veri toplama, ön işleme, modelleme ve değerlendirme olmak üzere dört ana aşamada yürütülmüştür. Veri kaynakları arasında, T.C. Çevre, Şehircilik ve İklim Değişikliği Bakanlığı'nın Ulusal Hava Kalitesi İzleme Ağı'ndan elde edilen PM2.5 ölçümleri, Open-Meteo'nun sağladığı meteorolojik veriler (sıcaklık, bağıl nem, rüzgar hızı vb.), Copernicus Atmosphere Monitoring Service (CAMS) yeniden analiz verileri, MODIS Aerosol Optik Derinlik (AOD) verileri, CORINE arazi kullanımı verileri, Global Human Settlement Layer'dan nüfus yoğunluğu verileri ve Sentinel-2'den NDVI (bitki örtüsü indeksi) verileri yer almıştır. Eksik veriler, Zincirleme Denklemlerle Çoklu Atama (MICE) yöntemiyle tamamlanmış; aykırı değerler ise Çeyrekler Arası Açıklık (IQR) yaklaşımıyla tespit edilip işlenmiştir. Modelleme süreci, zamansal ve mekânsal analizleri birleştiren çok katmanlı bir strateji izlemiştir. Zamansal tahminler için, geçmiş PM2.5 değerleri, hareketli ortalamalar ve meteorolojik parametreler kullanılarak XGBoost, LightGBM, Random Forest, Decision Tree, LSTM ve GRU modelleri test edilmiştir. Hiperparametre optimizasyonu, Optuna aracıyla gerçekleştirilerek modellerin performansı en üst düzeye çıkarılmıştır. Mekânsal analizde, istasyonların coğrafi konumları, nüfus yoğunluğu, sanayi mesafesi ve arazi kullanımı gibi değişkenler dikkate alınmış; LightGBM, XGBoost, Random Forest'un yanı sıra Geographically Weighted Regression (GWR) ve Graph Convolutional Network (GCN) modelleri uygulanmıştır. Çalışmanın en yenilikçi yönü, zamansal modelden elde edilen tahminlerin mekânsal modele entegre edilmesi ve transfer öğrenme ile hibrit bir sistem geliştirilmesidir. Bu yaklaşım, hava kirliliği tahmininde genellikle ayrı ayrı ele alınan zamansal ve mekânsal boyutları birleştirerek, hem zaman içindeki değişimleri hem de coğrafi dağılımı eşzamanlı olarak modelleme imkânı sunmuştur. Bu yenilikçi çerçevenin bir diğer önemli bileşeni, transfer öğrenme ile hibrit bir sistemin geliştirilmesidir. Transfer öğrenme, veri eksikliği gibi pratik zorlukları aşmada etkili bir çözüm sunmuş; özellikle GASKİ ve Meteoroloji istasyonlarında doğrudan PM2.5 ölçüm verisi bulunmaması sorununu ele almıştır. Bu süreçte, Atapark, Beydilli, Nizip ve Fevzi Çakmak istasyonlarından elde edilen zengin veri seti, sensörsüz istasyonlara bilgi aktarımı için bir kaynak olarak kullanılmıştır. Transfer öğrenme, yalnızca eksik verilerin tamamlanmasını değil, aynı zamanda modellerin genelleme kapasitesini artırarak farklı coğrafi koşullara uyarlanabilirliğini sağlamıştır. Hibrit sistem, zamansal ve mekânsal modellerin güçlü yönlerini birleştirirken, transfer öğrenmenin bu entegrasyonu optimize etme yeteneği, çalışmanın metodolojik yeniliğini pekiştirmiştir. Bu yaklaşım, hava kirliliği tahmininde veri kısıtlarının üstesinden gelmek için pratik ve ölçeklenebilir bir yöntem olarak öne çıkmaktadır. Autoencoder tabanlı Latent Dependency Factor (LDF) çıkarımı, bu hibrit sistemin temel taşlarından biri olarak eksik verilerin tamamlanmasında ve GASKİ ile Meteoroloji istasyonlarına bilgi aktarımında kritik bir rol oynamıştır. Autoencoder, ham verilerden sıkıştırılmış ve anlamlı temsiller (LDF) üreterek, PM2.5 konsantrasyonlarıyla ilişkili gizli desenleri ortaya çıkarmıştır. Bu süreçte, meteorolojik veriler, mekânsal değişkenler ve mevcut PM2.5 ölçümleri Autoencoder'a beslenmiş; model, bu karmaşık veri setinden düşük boyutlu ancak bilgi açısından zengin özellik vektörleri elde etmiştir. LDF'ler, özellikle GASKİ ve Meteoroloji istasyonları gibi sensör verisi olmayan bölgelerde PM2.5 seviyelerini tahmin etmek için Inverse Distance Weighting (IDW) yöntemiyle birleştirilmiş; böylece, kaynak istasyonlardan hedef istasyonlara mesafeye dayalı ağırlıklı bir bilgi transferi gerçekleştirilmiştir. Bu yöntem, yerel ölçüm eksikliğini telafi ederken, aynı zamanda istasyonlar arasındaki mekânsal ilişkileri de dikkate alarak tahminlerin güvenilirliğini artırmıştır. LDF çıkarımının başarısı, veri setindeki gürültüyü azaltması ve modellerin öğrenme sürecini kolaylaştırmasıyla da kendini göstermiştir. Performans değerlendirmesi, Ortalama Mutlak Hata (MAE), Kök Ortalama Kare Hata (RMSE) ve Belirlilik Katsayısı (R²) metrikleriyle yapılmıştır. Bulgular, LightGBM modelinin diğer yöntemlere kıyasla üstün bir performans sergilediğini göstermiştir. Zamansal modellemede, Atapark istasyonunda R² = 0.9224, Beydilli'de R² = 0.9560 ve Nizip'te R² = 0.9631 gibi yüksek doğruluk oranları elde edilmiş; bu başarı, özellikle son 3 günün hareketli ortalaması (PM2.5_RollingMean_3), bir önceki günün PM2.5 değeri (PM2.5_Lag_1) ve rüzgar hızı gibi değişkenlerin etkili kullanımına dayandırılmıştır. Mekânsal analizde ise LightGBM, Atapark'ta R² = 0.876, Beydilli'de R² = 0.965 ve Nizip'te R² = 0.879 değerleriyle en iyi sonuçları vermiş; nüfus yoğunluğu, yapısal alan yüzdesi ve CAMS PM2.5 verileri kirlilik dağılımında en önemli faktörler olarak belirlenmiştir. Zamansal tahminlerin mekânsal modele entegrasyonu, özellikle Nizip'te R² değerini 0.879'dan 0.963'e yükselterek model doğruluğunu artırmıştır; ancak Beydilli'de R²'de hafif bir düşüş (0.965'ten 0.951'e) gözlenmiştir ki bu, yerel faktörlerin farklı etkilerinden kaynaklanabilir. Transfer öğrenme destekli hibrit yaklaşım, Fevzi Çakmak'ta R² = 0.81 sonuçlarıyla sensörsüz bölgelerde tahmin yapabilme kapasitesini kanıtlamıştır. Gaziantep'teki PM2.5 seviyeleri, istasyonlar arasında çarpıcı farklılıklar sergilemiştir. Beydilli, 35.4 µg/m³ ile en yüksek kirlilik seviyesine sahip bölge olarak tespit edilmiş; bu, yoğun kentleşme, yüksek nüfus yoğunluğu (398.2 kişi/km²) ve trafik kaynaklı emisyonlarla ilişkilendirilmiştir. Nizip, 22.9 µg/m³ ile en düşük seviyeyi göstermiş; kentsel alanlardan uzak konumu ve daha az sanayi etkinliği bu durumu açıklamaktadır. Atapark, 24.9 µg/m³ ile orta seviyede kirlilik sergilemiş; %49.68 ormanlık alan oranı, kirliliği bir ölçüde dengelemiştir. GASKİ ve Meteoroloji istasyonları için transfer öğrenme ile tahmin edilen değerler, kentsel dinamiklere yakınlık nedeniyle orta-yüksek seviyelerde çıkmıştır. Meteorolojik faktörlerin etkisi de analiz edilmiş; rüzgar hızı kirletici dağılımını belirleyen temel bir unsur olarak öne çıkarken, düşük hızlar PM2.5 birikimini artırmıştır. Çalışma, bazı sınırlılıklarla karşılaşmıştır. Veri seti, 2021-2023 dönemini kapsayan 3 yıllık bir zaman dilimiyle sınırlı kalmış; bu, uzun vadeli trendlerin tam olarak modellenmesini engellemiştir. GASKİ ve Meteoroloji istasyonlarında doğrudan PM2.5 ölçümü olmaması, tahminlerin kesin doğruluğunu değerlendirme imkanını kısıtlamış; Fevzi Çakmak'taki başarı (R² = 0.81) bu tahminlerin güvenilirliğini desteklese de yerel farklılıklar belirsizlik yaratmıştır. AOD verileri, PM2.5 ile negatif korelasyon (-0.58'e kadar) göstererek güvenilir bir değişken olmaktan çıkmış; bu, uydu ölçümlerinin bölgesel meteorolojik koşullardan etkilendiğini düşündürmüştür. Derin öğrenme modelleri (LSTM ve GRU), veri miktarının yetersizliği nedeniyle LightGBM gibi makine öğrenmesi modellerinin gerisinde kalmış; Atapark'ta LSTM için R² = 0.6184 gibi düşük sonuçlar alınmıştır. Bu çalışma, Gaziantep'te hava kirliliği yönetimine bilimsel bir katkı sunarken, veri odaklı yöntemlerin gücünü ortaya koymuştur. LightGBM'nin başarısı, zamansal ve mekânsal tahminlerde hızlı ve doğru sonuçlar üretebileceğini kanıtlamış; transfer öğrenme ise sensör eksikliği gibi pratik sorunlara yenilikçi bir çözüm getirmiştir. Bulgular, Beydilli gibi yüksek kirlilik bölgelerinde acil önlemlerin gerekliliğini vurgulamış; Nizip gibi daha temiz alanların korunmasının önemini göstermiştir. Çalışma, hava kalitesi izleme ağının genişletilmesi, uzun vadeli veri toplanması ve trafik-sanayi emisyonlarını azaltıcı politikalar gibi önerilerle tamamlanmıştır. Gelecekte, daha fazla istasyon verisiyle modellerin zenginleştirilmesi, diğer kirleticilerin analizi ve gerçek zamanlı tahmin sistemlerinin geliştirilmesi, bu çalışmanın etkisini artırabilir.

Özet (Çeviri)

Air pollution is now recognized as one of the most important global challenges for environmental sustainability and human health. Human activities such as emissions from industrial facilities, heavy vehicle traffic, and energy consumption in households cause harmful gases and particles to accumulate in the atmosphere, disrupting the balance of ecosystems and triggering serious health problems. In this context, PM2.5 particles with a diameter of less than 2.5 micrometers have special importance in air pollution research due to their easy access to the lungs through inhalation and their toxic effects. Gaziantep, located in the Southeastern Anatolia Region of Turkey, stands out as a city with a high risk of air pollution due to its leading position in industry and trade, rapid urbanization process, and increasing population. This thesis aims to develop an innovative approach to predict the temporal and spatial distribution of PM2.5 concentrations in Gaziantep province, combining machine learning, deep learning, and transfer learning techniques to provide a data-driven solution for air quality management. The main objective of the study is to understand the changes in PM2.5 pollution in Gaziantep over time and its geographical distribution, to build reliable forecasting models based on these data, and to make pollution forecasts for regions where PM2.5 is not measured by solving the missing data problem. For this purpose, six air quality monitoring stations in Gaziantep (Atapark, Beydilli, Nizip, Fevzi Çakmak, GASKİ, and Meteorology) were taken as a basis, and daily data between 01.01.2021 and 31.12.2023 were analyzed. However, the lack of PM2.5 measurements at GASKİ and Meteorology stations necessitated an alternative forecasting method for these regions. The study was conducted in four main stages: data collection, pre-processing, modeling, and evaluation. Data sources include PM2.5 measurements obtained from the National Air Quality Monitoring Network of the Ministry of Environment, Urbanization, and Climate Change, meteorological data (temperature, relative humidity, wind speed, etc.) provided by Open-Meteo, Copernicus Atmosphere Monitoring Service (CAMS) reanalysis data, MODIS Aerosol Optical Depth (AOD) data, CORINE land use data, population density data from Global Human Settlement Layer, and NDVI (vegetation cover index) data from Sentinel-2. Missing data were completed using Multiple Imputation by Chained Equations (MICE), while outliers were identified and processed using the Interquartile Range (IQR) approach. The modeling process followed a multi-layered strategy combining temporal and spatial analyses. For temporal forecasts, XGBoost, LightGBM, Random Forest, Decision Tree, LSTM, and GRU models were tested using historical PM2.5 values, moving averages, and meteorological parameters. Hyperparameter optimization was performed with the Optuna tool to maximize the performance of the models. In the spatial analysis, variables such as the geographical location of the stations, population density, industrial distance, and land use were taken into account; LightGBM, XGBoost, Random Forest, Geographically Weighted Regression (GWR), and Graph Convolutional Network (GCN) models were applied. The most innovative aspect of the study is the integration of the predictions from the temporal model into the spatial model and the development of a hybrid system with transfer learning. This approach combines both temporal and spatial dimensions, which are usually considered separately in air pollution forecasting, and provides the opportunity to simultaneously model both changes over time and geographical distribution. Another important component of this innovative framework is the development of a hybrid system with transfer learning. Transfer learning provided an effective solution to overcome practical challenges such as lack of data, particularly the lack of direct PM2.5 measurement data at GASKİ and Meteorology stations. In this process, the rich dataset from Atapark, Beydilli, Nizip, and Fevzi Çakmak stations was used as a source for transferring information to sensorless stations. Transfer learning enabled not only the completion of missing data but also adaptability to different geographical conditions by increasing the generalization capacity of the models. The hybrid system combined the strengths of temporal and spatial models, while the ability of transfer learning to optimize this integration reinforced the methodological novelty of the study. This approach stands out as a practical and scalable method to overcome data constraints in air pollution forecasting. Autoencoder-based Latent Dependency Factor (LDF) extraction, as one of the cornerstones of this hybrid system, played a critical role in completing missing data and transferring information to GASKİ and Meteorology stations. The autoencoder generated compressed and meaningful representations (LDFs) from the raw data, revealing hidden patterns associated with PM2.5 concentrations. In this process, meteorological data, spatial variables, and existing PM2.5 measurements were fed into the autoencoder, and the model extracted low-dimensional but information-rich feature vectors from this complex dataset. The LDFs were combined with Inverse Distance Weighting (IDW) to estimate PM2.5 levels, especially in areas without sensor data, such as GASKİ and Meteorology stations, thus realizing a distance-based weighted information transfer from source stations to target stations. This method compensated for the lack of local measurements while improving the reliability of the estimates by taking into account the spatial relationships between stations. The success of LDF extraction was also demonstrated by reducing noise in the dataset and facilitating the learning process of the models. Performance evaluation was performed using the metrics of Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and Coefficient of Determination (R²). The results showed that the LightGBM model performed superiorly compared to the other methods. In temporal modeling, high accuracy rates such as R² = 0.9224 at Atapark station, R² = 0.9560 at Beydilli, and R² = 0.9631 at Nizip were obtained; this success was attributed to the effective use of variables such as the moving average of the last 3 days (PM2.5_RollingMean_3), PM2.5 value of the previous day (PM2.5_Lag_1), and wind speed. In the spatial analysis, LightGBM gave the best results with R² = 0.876 in Atapark, R² = 0.965 in Beydilli, and R² = 0.879 in Nizip; population density, percentage of built-up area, and CAMS PM2.5 data were determined as the most important factors in pollution distribution. The integration of temporal estimates into the spatial model improved the model accuracy, especially in Nizip, increasing the R² value from 0.879 to 0.963; however, a slight decrease in R² was observed in Beydilli (from 0.965 to 0.951), which may be due to the different effects of local factors. The transfer learning-supported hybrid approach proved its capability to forecast in sensorless areas with R² = 0.82 for GASKİ, R² = 0.84 for Meteorology, and R² = 0.81 for Fevzi Çakmak. PM2.5 levels in Gaziantep showed striking differences between stations. Beydilli was found to have the highest pollution level at 35.4 µg/m³, which is associated with dense urbanization, high population density (398.2 inhabitants/km²), and emissions from traffic. Nizip showed the lowest level at 22.9 µg/m³, which is explained by its location away from urban areas and less industrial activity. Atapark showed a moderate level of pollution with 24.9 µg/m³; 49.68% forest cover stabilized the pollution to some extent. The values estimated by transfer learning for GASKİ and Meteorology stations were at medium-high levels due to proximity to urban dynamics. The impact of meteorological factors was also analyzed; wind speed was a key determinant of pollutant dispersion, with low wind speeds increasing PM2.5 deposition. Southerly winds affected pollution by increasing desert dust transport from Syria and Iraq, while relative humidity changed the suspension time of particles in the atmosphere. The study faced some limitations. The dataset was limited to a 3-year timeframe covering the period 2021–2023, which prevented full modeling of long-term trends. The lack of direct PM2.5 measurements at GASKİ and Meteorology stations limited the ability to assess the accuracy of the forecasts; local variations created uncertainty, although the success at Fevzi Çakmak (R² = 0.81) supports the reliability of these forecasts. AOD data were negatively correlated (up to -0.58) with PM2.5, suggesting that satellite measurements are influenced by regional meteorological conditions. Deep learning models (LSTM and GRU) lagged behind machine learning models such as LightGBM due to an insufficient amount of data; low results such as R² = 0.6184 for LSTM in Atapark were obtained. This study provides a scientific contribution to air pollution management in Gaziantep and demonstrates the power of data-driven methods. The success of LightGBM proved that it can produce fast and accurate temporal and spatial forecasts, while transfer learning provided an innovative solution to practical problems such as lack of sensors. The findings emphasized the need for urgent measures in high-pollution areas such as Beydilli and showed the importance of protecting cleaner areas such as Nizip. The study concludes with recommendations for expanding the air quality monitoring network, long-term data collection, and policies to reduce traffic-industrial emissions. In the future, enriching the models with more station data, analyzing other pollutants, and developing real-time forecasting systems can increase the impact of this study. The combination of scientific and policy actions to improve Gaziantep's air quality will bring both environmental and societal benefits.

Benzer Tezler

  1. Gaziantep'te gastronomi turizmi: Gaziantep'i gastronomi turizmi kapsamında ziyaret eden yerli turistlerin görüşleri üzerine bir araştırma

    Gastronomy tourism in Gaziantep: A research based upon reviews of local tourists visiting Gaziantep in point of gastronomy tourism

    ŞABAN KARGİGLİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Turizmİzmir Katip Çelebi Üniversitesi

    Turizm İşletmeciliği Ana Bilim Dalı

    PROF. DR. ATİLLA AKBABA

  2. Gaziantep'te XIV-XIX. yüzyıllar arasında inşa edilmiş camilerin ahşap süslemeleri ve tasarım çözümlemeleri

    Design analysis of wooden ornaments in mosque architectural buildings between centuries of XIV.- XIX. in Gaziantep

    NEŞE AĞKURT

    Doktora

    Türkçe

    Türkçe

    2024

    Güzel SanatlarYıldız Teknik Üniversitesi

    Sanat ve Tasarım Ana Bilim Dalı

    PROF. DR. İLHAN ÖZKEÇECİ

  3. Gaziantep te antepfıstığı üretimi

    The production of pistachio in Gaziantep

    MUSTAFA DEMİRCAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    CoğrafyaKahramanmaraş Sütçü İmam Üniversitesi

    Spor Bilimleri ve Teknolojisi

    YRD. DOÇ. DR. EMRULLAH KANADIKIRIK

  4. Gaziantep'te kültürel amaçlı kullanılan eski evlerin engelsiz ulaşılabilirliğinin incelenmesi

    The investigation of barrier- free accessibility of old houses used for cultural purposes in Gaziantep

    TUĞBA ÇİNPOLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    MimarlıkHasan Kalyoncu Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. ZEHRA KAYA DİNÇER

  5. Sub Saharan African students in Gaziantep: Economic and cultural challenges

    Gaziantep'te Sub Saharan Afrika öğrencileri: Ekonomik ve kültürel zorluklar

    HALID ZEWDU FELEKE

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    SosyolojiGaziantep Üniversitesi

    Sosyoloji Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ŞENAY LEYLA KUZU