Geri Dön

Zamanında performansı artırmak için makine öğrenme yaklaşımı ile blok süre tahmini

Enhancing on-time performance through machine learning approach for predicting block time

  1. Tez No: 854302
  2. Yazar: SEDA SOYKAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SEFER BADAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 91

Özet

Havacılık sektörü günümüzde hızla büyüyen ve gelişen bir endüstri olup, operasyonel verimlilik ve zaman yönetimi bu endüstri için büyük önem taşımaktadır. Özellikle on-time performansı, havayolu şirketleri ve havaalanları için oldukça öenmli bir başarı metriği haline gelmiştir. Müşteri memnuniyeti, operasyonel verimlilik, maliyet etkinliği ve rekabet avantajı gibi birçok faktörü etkileyerek havacılık sektöründeki tüm paydaşlar için kritik bir yere sahiptir. Bu bağlamda, bu çalışma havacılıkta on-time performansın artırılması amacıyla blok süre tahmini üzerine odaklanmaktadır. Bu analiz, havayolu operasyonlarının zamanlama ve süreçlerin daha etkin bir şekilde yönetilmesine katkı sağlayarak hem havayolu şirketleri hem de havaalanları için önemli bir değer yaratmayı amaçlamaktadır. Amerika Birleşik Devletleri Ulaştırma Bakanlığı tarafından sağlanan Ulaştırma İstatistikleri Bürosu (BTS) veri tabanı ve Azure platformu üzerinden elde edilen hava durumu verileri birleştirilerek, modelleme aşamasında kullanılmak üzere nihai bir veri seti oluşturulmuştur. Veri seti üzerinde gerekli filtrelemeler ve analizler gerçekleştirilmiş, veri ön işleme adımında eksik değerler ile uç değerlerin analizi ve veri doldurma gereksinimleri ele alınmıştır. Çalışma kapsamında iptal edilen veya yönlendirilen uçuşlar göz ardı edilmiş ve sadece varışı gerçekleşen uçuşlara odaklanılmıştır. Yayınlanan raporlar ve veri analizleri sonucunda, on-time performansında en fazla sapmaya sahip olan Florida eyaletinde gerçekleşen uçuşlar seçilmiştir. Bu filtrelemeyle birlikte, planlanan blok süre ile gerçekleşen blok süre arasında 20 dakikadan fazla fark olan uçuşlar da filtrelemeye dahil edilmiştir. Bu şekilde, çalışmada en problemli kitle seçilerek daha anlamlı ve katma değeri yüksek bir sonuç elde etmek amaçlanmıştır. Veri seti, 2021 Ocak ayından 2023 Haziran ayına kadar olan dönemi kapsamaktadır. Bu süre zarfında, 2021-2023 arası eğitim veri seti, 2023'ün ilk üç ayı validasyon veri seti ve son üç ay ise test veri seti olacak şekilde üçe ayrılmıştır. Veri seti üzerinde yapılan analizlerde, blok süreleri, uçuş süreleri ve taksi süreleri için özellik seçimi adımında pearson korelasyonu ve ısı haritası analizleri gerçekleştirildi. Bunun yanı sıra en küçük kareler ve karar ağacı algoritmaları ile ön modeller oluşturularak, en önemli değişkenlerin belirlenmesi ve bu değişkenlerin modeli açıklama başarısı incelendi. Modelleme aşamasında, sürekli bir hedef değişkenin tahmin edilmesi gerektiği için denetimli makine öğrenmesi yöntemlerinden regresyon modelleri tercih edildi. Bu kapsamda Lineer Regresyon, Lasso, Ridge, Elastic Net, Random Forest, Bagging ve XG Boost regresyon modelleri kullanıldı. Tüm modeller için kullanılan regresyon tekniklerinde, ilk aşamada modellere varsayılan parametreler uygulandı. Daha sonra elde edilen sonuçlar, grid search ve çapraz doğrulama yöntemleri ile eğitilerek tekrar çalıştırıldı. Çapraz doğrulama sürecinde 5-katlı doğrulama modele uygulandı. Modellerin optimize edilmesi için uygulanan grid search yöntemi için değerlendirme metriği olarak ortalama mutlak hata metriği seçildi, böylece sapmaların ne kadar olduğu daha iyi analiz edilebildi. Elde edilen sonuçlar sayesinde en iyi modellerin belirlenmesi ve en iyi parametrelerin keşfi sağlanmıştır. En iyi parametrelerle tercih edilen en iyi model, validasyon setinde tekrar eğitilmiş ve ardından model sisteme kaydedilmiştir. Daha sonra kaydedilen bu model, test veri seti üzerinde çalıştırılmıştır. Optimize edilmiş model sonuçları ile test veri seti üzerinde çalıştırılan sonuçlar karşılaştırılmıştır. Ayrıca, modelin aşırı uyum ve aşırı basitleştirme problemleri incelenerek modelin genelleme yeteneği araştırılmıştır. Performans değerlendirme metrikleri olarak ortalama mutlak hata, ortalama hata kareleri, kök ortalama mutlak hata karesi, R kare ve ortalama mutlak hata yüzdesi kullanılmıştır. Modelleme adımının son aşamasında, bütünsel blok süre tahmini, parçalı blok süre toplamı tahmini, geçmişe dönük gerçekleşen bütünsel blok süre medyanı, taksi süreleri ve uçuş süresinden elde edilen medyan değerlerinin toplamından oluşan parçalı blok süre medyanı ve ilgili uçuş için daha önce planlanan blok süre sonuçları karşılaştırılmıştır. Çalışma sonuçlarına göre, bütünsel olarak ele alınan blok süre tahmini, alt bileşenlerinin tahmin toplamını ifade eden taksi süreleri tahmini ve uçuş süresi tahmini toplamıyla karşılaştırıldığında, ilk yaklaşımın daha iyi sonuç verdiği görülmektedir. Blok süre tahmini modeli, 0.95 açıklanan varyans ve 6.15 mutlak ortalama hatayla rakiplerini geride bırakmıştır. Ayrıca, alt bileşenlerin tahminlerinin toplamı için R Kare değeri 0.93 ve MAE ise 7.18 olarak gözlemlenmiştir. Geçmişe yönelik olarak, blok süre medyanı ile alt bileşenlerinin ortalamalarının toplamını ifade eden uçuş süresi medyan değeri ve taksi kalkış ve varış medyan değerlerinin toplamıyla karşılaştırıldığında, geçmişe yönelik bütünsel blok süre ortalamasının daha iyi sonuç verdiği görülmektedir. Ancak, bu medyan kıyaslamaları, makine öğrenimi yöntemleriyle tahmin gerçekleştirilen model ile karşılaştırıldığında 0.70 değerlerine düşerek önemli miktarda performans düşüklüğü göstermiştir. Sonuç olarak, bütünsel blok süre tahmini, 0.95 açıklanan varyans ve 6.15 MAE değeri ile en iyi performansı gösteren model olmuştur. Bu model, hem alt kategorilerin ayrı ayrı tahminlerinin toplamı modelinden hem de geçmişe dönük gerçekleşen blok süre medyan değerinden ve alt bileşenlerin medyan toplamlarının karşılaştırmasından daha iyi bir performans sergilemiştir. Bu çalışmanın sonuçları, havacılık sektöründe zamanında performansın artırılması ve operasyonel verimliliğin optimize edilmesi için blok süre tahmininin kritik bir öneme sahip olduğunu göstermektedir. Ayrıca, kullanılan veri kaynakları ve modelleme teknikleri, havacılık endüstrisinde verimliliği artırmak ve operasyonel süreçleri optimize etmek için potansiyel birer araç olarak öne çıkmaktadır. Bu çalışma, havacılık sektöründeki paydaşlara, on time performansın artırılması için veri odaklı ve analitik bir yaklaşımın önemini vurgulamakta ve gelecekte yapılacak çalışmalar için bir temel oluşturmaktadır.

Özet (Çeviri)

The aviation sector is a rapidly expanding and developing industry that holds significant importance in operational efficiency and time management. Particularly, on-time performance has emerged as a crucial success measure for airlines and airports. It significantly affects various factors such as customer satisfaction, operational efficiency, competitive advantage, and cost-effectiveness, holding vital importance for all stakeholders in the aviation sector. In this context, this study concentrates on block time estimation to enhance on-time performance in aviation. Blok time represents the duration from the aircraft's initial movement for takeoff until it completes its landing and comes to a stop. In other words, it signifies the time between the aircraft's departure from the runway and its arrival with engines shut down on the runway. Additionally, block time is expressed as the total of taxi out time, flight time, and taxi in time for departure. Flight time is the period during which the aircraft is in the air between takeoff and landing. Taxi in time is the period during which an aircraft travels on the runway after landing until it arrives at the parking area. Taxi out time refers to the period during which an aircraft moves on the runway from the moment it starts its movement on the apron until it takes off. Block time estimation is crucial in the aviation industry for flight planning, operational efficiency, customer satisfaction, and cost management. High-accuracy block time predictions can result in gains such as increased operational efficiency, improved passenger satisfaction, cost reduction, and traffic management. In the conducted study, OTP data from the United States Department of Transportation's BTS database was combined with weather data obtained through the Azure platform to create a comprehensive dataset. The focus was specifically on evaluating flight operations in Florida due to observed underperformance in punctuality compared to industry competitors. Flights with a block time deviation exceeding 20 minutes between scheduled and actual times were filtered out to concentrate on a dataset with potential for enhancing on-time performance. The analysis covered the period from January 2021 to June 2023, with data from January 2021 to January 2023 used as the training set, the first three months of 2023 for validation, and the last three months for testing. During the data preprocessing phase, thorough analyses of missing, empty, and outlier values were conducted, followed by necessary actions. Data distributions and relationships were examined using various methods and graphical representations. For feature engineering, data transformations were performed to convert relevant fields into numerical, categorical, and date formats. Categorical variables were included in the model using the one-hot encoding method. Some fields were merged to increase significance in the model, and historical averages were incorporated into the model using grouping techniques to enhance interpretability. Machine learning techniques were utilized to predict block time holistically and its subcategories: taxi out time, flight time, and taxi in time. Regression models were exclusively employed due to all target variables having continuous values. The regression models included Linear Regression, Lasso Regression, Ridge Regression, Elastic Net Regression, Bagging Regression, Random Forest Regression, and XG Boost Regression. After running all models with default parameters, hyperparameter optimization was applied using the grid search algorithm to define parameter ranges for each model and determine the best model and parameters. Additionally, a 5-fold cross-validation method was applied to prevent potential issues such as overfitting or underfitting. Model performance was evaluated using metrics such as Mean Absolute Error (MAE), Mean Squared Error (MSE), Mean Absolute Percentage Error (MAPE), Root Mean Squared Error (RMSE), and R-squared score. During the modeling phase, the outcomes of models predicting block time, taxi out time, taxi in time, and flight duration were presented. Model results before and after hyperparameter optimization using grid search and cross-validation were compared on the validation set. Subsequently, the optimized models underwent evaluation on the test dataset. Alongside the machine learning-based regression models, the assessment stage also involved evaluating the results of historical median values for all target variables. This encompassed comparing the cumulative prediction of block time, which includes predictions for taxi departure time, taxi arrival time, and flight duration, with the historical median block time and the combined median values of its components. When assessing the discrepancy between planned and actual block times, it was found that there is a substantial deviation. While the R-squared value remains at 0.48, the average absolute error shows a considerably high deviation of 36.65. This situation explains the poor on-time performance of carriers due to inaccuracies in the planning phase. The main goal of this study is to prevent delays by accurately predicting future block times and to improve on-time performance indicators, known as OTP, in the industry. The study aims to use machine learning methods to predict block times more accurately and reliably in advance, thus contributing to on-time performance. Upon reviewing the study results, it was evident that the comprehensive block time prediction, when compared to the sum of predicted taxi durations and flight duration, yielded better results. The block time prediction model outperformed competitors with an explained variance of 0.95 and a mean absolute error of 6.15. The total of component predictions resulted in an observed R-squared of 0.93 and an MAE of 7.18. Similarly, comparing historical median block time and flight time with the combined medians of taxi departure and arrival times, the holistic block time exhibited superior performance. However, when contrasted with machine learning methods, both median comparisons experienced a significant drop to 0.70. In evaluating model results, individual comparisons for taxi out time prediction and median, taxi in time prediction and median, and flight duration prediction and median were carried out. Each sub-component prediction model produced closer results to the actual values and performed better across all metrics. Notably, significant differences were observed in predictions related to taxi durations. For taxi out, the prediction and median values saw a decrease in R-squared from 0.81 to 0.16 and an increase in MAE from 4.44 to 13.73. Similarly, for taxi in, the prediction and median values witnessed a decrease in R-squared from 0.82 to 0.11, and an increase in MAE from 2.87 to 8.40. The model for comprehensive block time prediction, with an explained variance of 0.95 and an MAE value of 6.15, has excelled in performance. This model surpassed not only the combined predictions of individual sub-categories but also the historical median value of block times and the aggregated historical medians of sub-components. The inclusion of weather and seasonal data along with other features and data science methods has proven to be more effective in explaining the target variable in the prediction model. These results highlight that machine learning prediction models can make much closer estimates to actual values. The findings of this study emphasize the critical importance of block time prediction for improving on-time performance and optimizing operational efficiency in the aviation sector. Furthermore, the utilized data sources and modeling techniques are seen as potential assets for enhancing efficiency and streamlining operational processes within the aviation industry. This study underscores the significance of a data-driven and analytical approach for enhancing on-time performance and provides a groundwork for future research.

Benzer Tezler

  1. Deep reinforcement learning approach in control of Stewart platform- simulation and control

    Stewart platformunun kontrolünde derin pekistirmeli öğrenme yaklaşımıc- simülasyon ve kontrol

    HADI YADAVARI

    Doktora

    İngilizce

    İngilizce

    2023

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERHAT İKİZOĞLU

    DR. ÖĞR. ÜYESİ VAHİT BARIŞ TAVAKOL

  2. Deep convolutional neural network based unconstrained ear recognition

    Derin evrişimsel sinir ağı tabanlı kısıtsız kulak tanıma

    FEVZİYE İREM EYİOKUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL

  3. A new framework for decentralized social networks: Harnessing blockchain, deep learning, and natural language processing

    Merkezsiz sosyal ağlar için yeni bir çerçeve: Blok zinciri, derin öğrenme ve doğal dil işlemeyi kullanmak

    AMIR AL KADAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DENİZ BALTA

  4. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  5. A support decision system for predicting rating values of preproduction TV content: An explainable machine learning approach

    Yayınlanmamış TV içeriğinin reyting değerinin tahmin edilebilmesi için karar destek sistemi: Bir açıklanabilir makine öğrenimi yaklaşımı

    BURAK BATIBAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. ATABEY KAYGUN