Data augmentation and missing data imputation using similar traffic characteristic of road segments for improving long-term speed prediction
Uzun vadeli trafik hızı tahminini iyileştirmek için benzer trafik karaktestliğine sahip yolların kullanılarak veri arttırılması ve kayıp verilerin giderilmesi
- Tez No: 830020
- Danışmanlar: DOÇ. DR. MEHMET AMAÇ GÜVENSAN, DR. ÖĞR. ÜYESİ HAFİZA İREM TÜRKMEN ÇİLİNGİR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 105
Özet
Trafik hızı tahmini, Akıllı Ulaşım Sistemleri içinde kritik bir problemdir. Farklı trafik karakteristikleri nedeniyle modellerin her yol segmenti için özelleştirilmesi gerekmektedir. Bununla birlikte, yol sensörleri tarafından toplanan hız verileri hatalar nedeniyle ciddi oranda eksik veriler içermektedir. Bu durum ve sınırlı yol segment verisi, eğitim veri kümesinin boyutunu düşürmektedir. Ayrıca, trafik hızına özgü veri kümelerinin doğasından kaynaklanan denge sorunu, eğitilmiş modellerde sapmaya neden olmaktadır. Bu tez, bu sorunlara yeni çözümler sunmaktadır. İlk metot, farklı trafik özelliklerine sahip yol segmentlerinden gelen verileri birleştirerek veri kümesi boyutunu artırmayı içermektedir. Tahmin modelleri kullanılarak yol segmenti benzerliklerini bulunmaktadır. Bu benzerlik kullanılarak arttırılan veri seti, uzun vadeli trafik hızı tahmini performansını %3.7 arttırmaktadır. Eksik veri sorununu çözmek için benzer yol segmentlerinden gelen veriler kullanılmıştır ve bu benzer segmentler bir k-NN algoritması varyasyonu ile bulunmaktadır. Bu metot, %3.6 tahmin performansı iyileştirmesi sağlamaktadır. Dengesiz veri kümeleri için, modelin öğrenme sürecini değiştiren üç strateji önerilmiştir, bu metotlar da uzun vadeli tahminde %2.5 artışa sağlamaktadır. Özellikle düşük hız anlarını yakalama konusunda yöntemlerimiz %5 performans artışı göstermektedir. Bu tez, trafik hızı veri kümelerinde karşılaşılan sorunları çözme ve böylece uzun vadeli tahmin doğruluğunu artırmaya odaklanmıştır. Yöntemlerimizi farklı uzun vadeli tahmin modelleriyle kapsamlı bir şekilde doğrulanmıştır. Deneylerimiz önerilen metotların esneklik ve sağlamlıklarını kanıtlamaktadır. Deneyler İstanbul Büyükşehir Belediyesi tarafından toplanan trafik hızı veri kümesi üzerinde gerçekleştirilmiştir. Bu veri kümesinde, 2018 ve 2019 yıllarında toplam 441 ana yol segmenti bulunmaktadır. Sonuç olarak, bu araştırmada, Akıllı Ulaşım Sistemleri'ndeki trafik hızı tahminindeki temel zorluklar ele alınmıştır. Veri kümesi boyutunu artırma, eksik verileri giderme ve dengesiz veri kümelerini düzeltme metotlarıyla uzun vadeli trafik hızı tahmin modellerinin performansı arttırılmıştır. Ayrıca bu çalışma, trafik yönetimi ve ulaşım sistemi optimizasyonu için de önemli bilgiler barındırmaktadır.
Özet (Çeviri)
Traffic speed estimation is a pivotal concern in Intelligent Transportation Systems. Tailoring models to distinct road segments is imperative due to varying traffic characteristics. However, speed data collected by road sensors are plagued by infrequent readings due to errors, leading to substantial missing data. This, coupled with the necessity of relying on limited road segment data, diminishes training dataset sizes for speed prediction models. Moreover, the inherent imbalance in datasets, attributed to traffic speed, introduces bias in trained models. This thesis introduces novel solutions to address these issues—data scarcity, missing data, and imbalanced datasets. The first approach involves augmenting dataset size by integrating data from diverse road segments with comparable traffic traits. Using prediction models, we identify road segment similarities, leading to a 3.7% boost in long-term traffic speed prediction performance. Addressing missing data, we leverage data from analogous road segments, employing a k-NN algorithm variation. This technique yields a 3.6% prediction performance improvement. For imbalanced datasets, we propose three strategies that reshape the model's learning process, resulting in a 2.5% enhancement in long-term prediction. Notably, our methods excel in capturing specific patterns, particularly low-speed instances, elevating their performance by 5%. This thesis concentrates on improving long-term prediction accuracy, solving issues encountered in traffic speed datasets. We extensively validate our approaches across diverse long-term prediction models, highlighting their versatility and robustness. Performance enhancement is consistent across all trained models, affirming the effectiveness of our approaches. Experiments employ a traffic speed dataset collected by Istanbul Municipality, encompassing 441 main road segments from 2018 and 2019. In essence, our research tackles crucial challenges in Intelligent Transportation Systems' traffic speed estimation. By increasing dataset size, handling missing data, and addressing dataset imbalances, our methodologies bolster the accuracy and robustness of long-term traffic speed prediction models. Consequently, our work contributes valuable insights for traffic management and transportation system optimization.
Benzer Tezler
- Kayıp verilerin varlığında iki kategorili puanlanan maddelerden oluşan testlerin psikometrik özelliklerinin incelenmesi
Psychometric properties of tests composed of dichotomous items in the presence of missing data
ERGÜL DEMİR
Doktora
Türkçe
2013
Eğitim ve ÖğretimAnkara ÜniversitesiÖlçme ve Değerlendirme Ana Bilim Dalı
PROF. DR. NİZAMETTİN KOÇ
- Time series classification with support vector machine and data augmentation
Destek vektör makinesi ve veri büyütme ile zaman serileri sınıflandırması
ESMA BİRİŞÇİ
Yüksek Lisans
İngilizce
2011
İstatistikUniversity of Missouriİstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. SOUNAK CHAKRABORTY
- Kestirimci bakım sistemlerinde veri artırma yöntemlerinin geliştirilmesi ve bir uygulaması
Development of data augmentation methods for predictive maintenance systems and an application
SENA KALAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EYÜP ÇİNAR
PROF. DR. İNCİ SARIÇİÇEK
- Havayolu yolculuk deneyimini iyileştirmek için makine öğrenmesi yöntemleriyle uçuş gecikmesi tahmini
Machine learning techniques for enhancing airline passenger experience through flight delay prediction
ESMA ERGÜN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA