Semi-supervised learning strategy for improved flash point prediction
Parlama noktası tahminini iyileştirmek için yarı denetimli öğrenme stratejisi
- Tez No: 895534
- Danışmanlar: PROF. DR. ŞULE ÖĞÜDÜCÜ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 67
Özet
Bu tez, petrol endüstrisinde parlama noktalarının tahminini iyileştirmek amacıyla yarı denetimli öğrenme tekniklerinin uygulanmasını araştırmaktadır. Parlama noktası, petrol ve petrol türevi ürünlerin buharlarının havayla karıştığında yanıcı hale geldiği en düşük sıcaklıktır. Bu sıcaklık, petrol ürünlerinin güvenli taşınması ve depolanması açısından kritik bir güvenlik parametresidir. Geleneksel yöntemlerle parlama noktası tahmini genellikle laboratuvar testleri gerektirir; bu testler hem zaman alıcı hem de maliyetlidir. Bu çalışmada, daha hızlı ve maliyet etkin bir alternatif olarak veri tabanlı bir yaklaşım kullanılarak bu süreci optimize etme amaçlanmaktadır. Yarı denetimli öğrenme, etiketli ve etiketlenmemiş verilerin birlikte kullanıldığı bir makine öğrenmesi yöntemidir. Bu yöntem, özellikle etiketlemenin zor veya maliyetli olduğu ve etiketsiz verinin mevcut olduğu durumlarda büyük avantajlar sağlar. Yarı denetimli öğrenme, sınırlı etiketli veri ile bile yüksek doğrulukta tahminler yapabilme, model performansını geliştirme potansiyeline sahiptir. Bu çalışmada, basınç, sıcaklık ve akış göstergeleri gibi sensör verileri, sınırlı parlama noktası laboratuvar ölçümleri ile entegre edilerek bir model geliştirilmiştir. Bu yaklaşım, geniş çaplı laboratuvar testlerine olan bağımlılığı azaltmayı ve operasyonel verimliliği ile güvenliği artırmayı hedeflemektedir. Tezin ana araştırma soruları şunlardır: Petrol endüstrisinde, yalnızca sınırlı sayıda etiketlenmiş veri noktası mevcutken parlama noktaları nasıl doğru bir şekilde tahmin edilebilir? Bu veri kısıtlaması göz önüne alındığında, yarı denetimli öğrenme yöntemi etkili bir çözüm olabilir mi? Yarı denetimli öğrenme tekniği, sınırlı etiketli veri ile parlama noktalarını tahmin etmeye yönelik bir regresyon görevi için nasıl etkili bir şekilde uygulanabilir? Bu tekniğin petrol endüstrisi bağlamında özel avantajları ve sınırlamaları nelerdir? Bu soruları yanıtlamak amacıyla, bu tez, yarı denetimli öğrenme yöntemlerinin etkinliğini doğrulamayı ve geleneksel yöntemlere kıyasla iyileştirmeler sunan bir model geliştirmeyi hedeflemektedir. Araştırmada kullanılan veri ön işleme teknikleri arasında Winsorization ve Min-Maks Ölçekleme bulunmaktadır. Winsorization yöntemi, veri setindeki uç değerlerin (çok yüksek veya çok düşük değerlerin) olumsuz etkilerini azaltmak için kullanılmıştır. Bu teknik, verilerin belirli bir yüzdelik dilim içerisinde sınırlanmasını sağlayarak, zaten kısıtlı olan verinin eksilmesini sağlamadan modelin aşırı değerlerden etkilenmesini önler. Min-Maks Ölçekleme ise, farklı ölçeklerdeki özniteliklerin (bağımsız değişkenlerin) model tarafından eşit şekilde değerlendirilmesini sağlamak amacıyla kullanılır. Bu iki teknik, veri setini model eğitimi için daha uygun hale getirir ve modelin daha doğru tahminler yapmasına olanak tanır. Modelleme sürecinde, Gaussian Süreç Regresörü ve Rastgele Orman modeli önemli rol oynamaktadır. Gaussian Süreç Regresörü, sürekli çıktılar üreten ve tahminlerle ilgili belirsizlik sağlayan güçlü bir regresyon modelidir. Bu model, öncelikle etiketli veriler üzerinde eğitilir ve ardından etiketlenmemiş veriler üzerinde tahminler yapar. Eğitim sürecinde, belirli bir güven sınırının altında kalan tahminler, modelin eğitim setine eklenir. Daha sonra, genişletilmiş veri seti üzerinde Rastgele Orman modeli eğitilir. Bu model, birden fazla karar ağacının tahminlerini birleştirerek, modelin genel tahmin yeteneğini artırır. Genişleyen pencere yaklaşımı sayesinde, bu iki model veri setinden maksimum faydayı sağlayarak daha doğru tahminler yapar. Modelin performansı, ortalama mutlak hata ve kök ortalama kare hata metrikleri kullanılarak değerlendirilmiştir. Yarı denetimli öğrenme yaklaşımının katkısının direkt olarak gözlenebilmesi için yarı denetimli öğrenme modeli ile birlikte ayrıca bir de temel model kurulmuştur. Temel model Rastgele Orman metodunu genişleyen pencere yaklaşımıyla birlikte kullanmaktadır. Yarı denetimli öğrenmede ise yalnızca ek olarak Gaussian Süreç Regresörü ile veri setinin etiketsiz verisetinden faydalanarak genişletilmesi basamağı yer almaktadır. Temel model, parlama noktalarını tahmin ederken 1.1 derece ortalama mutlak hata ve 1.7 kök ortalama kare hata ile performans göstermiştir. Kök ortalama kare hata'nınn ortalama mutlak hatadan biraz daha yüksek olması, modelin genel olarak iyi performans göstermesine rağmen bazı durumlarda daha büyük hatalar sergileyebileceğini göstermektedir. Yarı denetimli öğrenme modeli kullanıldığında, modelin ortalama mutlak hata skoru 1.01'e düşmüş, kök ortalama kare hata skoru ise 1.63'e gerilemiştir. Bu iyileşme, etiketlenmemiş verilerin kullanılması sayesinde modelin doğruluk oranının artırılabileceğini göstermektedir. Ayrıca, model genel olarak daha az hata ile daha iyi tahminler yapabilmektedir. Bu da, hassas ölçümleme ve iyileştirmenin önemli olduğu ve dolayısıyla her türlü iyileştirmenin önem arz ettiği parlama noktası gibi parametreler adına kritik bir durum olabilmektedir. Bu çalışma, yarı denetimli öğrenme tekniklerinin, veri etiketleme maliyetlerinin yüksek olduğu ve etiketli verinin sınırlı olduğu durumlarda nasıl etkili bir şekilde kullanılabileceğini göstermektedir. Petrol endüstrisindeki parlama noktası tahmini, bu tekniklerin etkinliğini ve uygulanabilirliğini kanıtlamaktadır. Yarı denetimli öğrenme yöntemleri, yalnızca petrol endüstrisi için değil, sağlık, finans ve çevre izleme gibi diğer sektörlerde de önemli uygulama potansiyeline sahiptir. Bu sektörlerde de veri etiketleme süreçleri genellikle maliyetli ve zaman alıcıdır, bu nedenle yarı denetimli öğrenme yöntemleri, bu tür problemleri aşmak için etkili bir çözüm sunar. Sonuç olarak, bu tez, yarı denetimli öğrenmenin etiketli veri kıtlığı arasındaki boşluğu nasıl kapatabileceğini göstererek mevcut literatüre katkıda bulunmaktadır. Bulgular, yarı denetimli öğrenmenin endüstriyel uygulamalarda ve diğer alanlarda tahmin doğruluğunu artırmak için etkili bir strateji olabileceğini öne sürmektedir. Bu tez, doğruluk ve verimliliği dengeleyen sağlam bir metodoloji sunarak, hem akademik literatüre hem de endüstriyel uygulamalara önemli katkılar sağlamaktadır. Yarı denetimli öğrenme tekniklerinin, sınırlı veriyle çalışmak zorunda kalan çeşitli sektörlerde geniş bir uygulama potansiyeli bulunmaktadır. Petrol endüstrisinde parlama noktası tahmini, bu tekniklerin pratikte nasıl kullanılabileceğine dair somut bir örnek sunar. Bu yaklaşım, laboratuvar testlerinin yerini alabilecek hızlı ve maliyet etkin çözümler sunarak, hem güvenliği artırmakta hem de operasyonel süreçleri optimize etmektedir. Bu tezde geliştirilen model ve yöntemler, gelecekte benzer zorluklarla karşılaşan diğer endüstri alanlarında da uygulanabilir ve bu sayede geniş bir etki alanı yaratabilir. Ayrıca, bu çalışma, yarı denetimli öğrenmenin sadece teorik bir kavram olmadığını, pratik uygulamalarda da önemli faydalar sağlayabileceğini kanıtlamaktadır. Bu nedenle, yarı denetimli öğrenme yöntemlerinin benimsenmesi ve geliştirilmesi, gelecekteki araştırmalar ve endüstriyel uygulamalar için önemli bir adım olarak değerlendirilmektedir. Bu tezin ana katkıları, yarı denetimli öğrenme ve rastgele orman modellerinin petrol endüstrisindeki uygulamalarını keşfetmek, bu modellerin laboratuvar testlerine kıyasla daha hızlı ve maliyet etkin çözümler sunabileceğini göstermek ve literatürde mevcut olmayan yeni ve gerçek endüstri veriseti üzerinde keşif imkanı sunmasıdır. Modellerin geliştirilmesi sırasında, çeşitli veri ön işleme tekniklerinin ve iki güçlü makine öğrenmesi modelinin nasıl entegre edildiği ayrıntılı olarak incelenmiştir. Bu entegrasyon, yarı denetimli öğrenme sürecinin sadece veri tahmininde ve model optimizasyonunda nasıl faydalı olabileceğini ortaya koymaktadır.
Özet (Çeviri)
This thesis explores the application of semi-supervised learning techniques to enhance the prediction of flash points in the oil industry, which are critical for ensuring the safety of transporting and storing petroleum products. Flash points denote the lowest temperature at which a substance's vapors ignite in air, a crucial parameter that traditional methods ascertain through costly and time-consuming laboratory tests. This study proposes a data-driven approach to optimize these processes more efficiently and effectively. Semi-supervised learning, which leverages both labeled and unlabeled data, provides a robust framework especially valuable in scenarios where data labeling is prohibitively expensive or logistically challenging. This research integrates sensor data such as pressure, temperature, and flow rates with sparse flash point measurements to develop a predictive model. The aim is to reduce dependency on extensive laboratory testing while enhancing operational efficiency and safety protocols. The central research questions addressed are: How can flash points be accurately predicted in the oil industry when only a limited number of labeled data points are available? Given these constraint, could semi-supervised learning method be an effective solution? What are the specific advantages and limitations of these technique within the oil industry context? The study validates the effectiveness of semi-supervised learning method and develops a model that improves upon traditional approaches. To address the research questions, particularly in the context of improving flash point predictions with limited labeled data, the study employs data preprocessing techniques and modeling processes that are essential for optimizing model performance. The methodology employs two principal data preprocessing techniques: Winsorization and Min-Max Scaling. Winsorization mitigates the effects of outliers by limiting extreme data points within a designated percentile range, ensuring the model is not skewed by anomalies. Min-Max Scaling normalizes the data, allowing for equitable evaluation of all features and preventing any single feature from dominating the model's output. The modeling process involves the Gaussian Process Regressor and the Random Forest model. The Gaussian Process Regressor, suitable for continuous data, provides uncertainty estimates to gauge the reliability of predictions. The Random Forest model enhances stability and accuracy by aggregating predictions from multiple decision trees. Initially trained on labeled data, the Gaussian Process Regressor subsequently predicts labels for unlabeled data, incorporating those predictions within a specified confidence interval into the training set. This expanding dataset further trains the Random Forest model, applying an expanding window approach to incrementally improve prediction capabilities. Performance metrics such as Mean Absolute Error and Root Mean Squared Error assess model efficacy. The baseline model initially yielded an mean absolute error of 1.1 degrees in flash point predictions. With the application of the semi-supervised learning model, Mean Absolute Error improved to 1.01 and Root Mean Squared Error decreased to 1.63, demonstrating significant enhancements in accuracy through the inclusion of unlabeled data. In conclusion, this thesis illustrates the potential of semi-supervised learning to bridge the gap caused by a scarcity of labeled data, particularly in critical industrial applications like oil processing. The findings suggest that semi-supervised learning not only reduces the financial and temporal expenditures associated with traditional testing methods but also offers a scalable, efficient alternative poised to transform industry practices. The methodologies developed here have broader implications, suggesting that semi-supervised learning could be similarly beneficial in other sectors where data labeling is a significant constraint and even small performance improvements are critical due to the importance of the parameters being predicted.
Benzer Tezler
- Novel semi-supervised learning approach for descriptor generation using artificial neural networks
Başlık çevirisi yok
ALLA FIKRAT AL-WINDAWI
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN NURİ UÇAN
- Hybridization of probabilistic graphical models and metaheuristics for handling dynamism and uncertainty
Değişimin ve belirsizliğin ele alınması için olasılıksal çizgesel biçelerin ve sezgi-üstlerinin melezleştirilmesi
GÖNÜL ULUDAĞ
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞE ŞİMA UYAR
- Hiperspektral görüntülerin sınıflandırılmasında uzamsal-spektral yaklaşımlar
Spatial-spectral approaches in classification of hyperspectral images
HASAN ALİ AKYÜREK
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. BARIŞ KOÇER
- Multi-objective approaches for multi-target learning
Çok değişkenli öğrenmede çok hedefli yaklaşımlar
ESRA ADIYEKE
Doktora
İngilizce
2020
Endüstri ve Endüstri MühendisliğiBoğaziçi ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN
- Comicverse: Expanding the frontiers of ai in comic books with holistic understanding
Comicverse: Bütünsel anlayışla çizgi romanlarda yapay zekanın sınırlarını genişletmek
GÜRKAN SOYKAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ YURET
PROF. DR. TEVFİK METİN SEZGİN