Orthogonality based feature selection for ai applications
Yapay zeka uygulamaları için ortogonalite tabanlı öznitelik seçimi
- Tez No: 886463
- Danışmanlar: PROF. DR. BURAK BERK ÜSTÜNDAĞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 81
Özet
Öznitelik seçimi, yapay zeka modellerinin doğruluğunu ve verimliliğini doğrudan etkileyen önemli bir unsurdur. Özniteliklerin sağladığı mükerrerlik ise bu süreçte sıklıkla karşılaşılan bir sorundur. Bu durum, birden fazla özniteliğin örtüşen bilgiler sağlamasıdır. Bu mükerrerlik, verimsiz olmanın yanı sıra, bir modelin eğitim verilerine fazla uyum sağlamasına ve yeni verilere genelleme yapamamasına neden olan aşırı öğrenmeye yol açabilir. Bu müşkülle başa çıkmak için bu tez, öznitelik seçiminde ortogonalite tabanlı bir yaklaşım sunmaktadır. Bu yaklaşım, seçilen özniteliklerin bağımsız olmasını ve mükerrer olmamasını sağlayarak modelin performansını çeşitli görevlerde artırmaktadır. Bu yaklaşımın etkinliğini göstermek için veri tamamlama ve kısa vadeli tahmin gibi iki örnek uygulama incelenmiştir. Eksik, bozulmuş veya hatalı veriler; tarım, sağlık ve çevre izleme gibi birçok alanda büyük bir sorun oluşturmaktadır. Bu tür veri boşlukları, yapılan analizlerin sonuçlarını ve bu verilere dayalı kararların doğruluğunu ciddi şekilde etkileyebilir. Sensör arızaları, veri iletim hataları veya eksik veri toplama süreçleri gibi teknik sorunlar nedeniyle verilerin tamamı güvenilmez hale gelebilir. Bu durum, önyargılı sonuçlara ve hatalı kararlara yol açabilir. Özellikle kararların hızlı ve doğru bir şekilde alınması gereken gerçek zamanlı sistemlerde bu sorun daha da büyük bir önem kazanmaktadır. Mesela tarımsal bir izleme sisteminde eksik veriler yanlış sulama kararlarına sebep olabilir ve bu da ürün verimini ciddi şekilde azaltabilir. Verilerin eksik ya da hatalı olması sadece tarımda değil, aynı zamanda sağlık hizmetleri ve çevresel izleme gibi alanlarda da büyük sorunlar yaratabilir. Örneğin, sağlık verilerindeki eksiklikler yanlış teşhislere ya da tedavi süreçlerinde gecikmelere yol açabilir ve bu da hastaların sağlığını tehlikeye atabilir. Aynı şekilde çevresel izleme verilerindeki hatalar, yanlış iklim tahminlerine ya da doğal afetlerin öngörülmesinde başarısızlıklara neden olabilir. Bu çalışmada yukarıda belirtilen sorunlara çözüm bulmak amacıyla Predictive Error Compensated Neural Network (PECNET) adı verilen, ortogonalite tabanlı yeni bir öznitelik seçimi modeli geliştirilmiştir. PECNET, eksik verilerin doldurulması ve kısa vadeli tahminlerin doğruluğunu artırmak için bağımsız veri özelliklerinin seçilmesi ve hata düzeltme tekniklerine odaklanan yenilikçi bir yaklaşım benimsemektedir. Çalışma iki temel hipotez üzerine kurulmuştur. İlk hipotez, PECNET gibi ileri düzey makine öğrenimi modellerinin geleneksel yöntemlere kıyasla karmaşık veri setlerindeki desenleri daha etkili bir şekilde öğrenip kullanabileceğini öne sürmektedir. Bu hipotez, makine öğreniminin veri içerisindeki gizli desenleri keşfetme yeteneğinin geleneksel istatistiksel yöntemlere göre çok daha üstün olduğu varsayımına dayanmaktadır. İkinci hipotez ise, modele verilen özniteliklerin bağımsızlığını artırarak PECNET'in aşırı öğrenmeden kaçınabileceğini ve böylece daha sağlam ve güvenilir tahminler yapabileceğini savunmaktadır. Bu durum, modelin öğrenme sürecinde veriler arasındaki gereksiz ilişkileri ortadan kaldırarak modelin daha genel ve farklı veri setlerine de uygulanabilir hale gelmesini sağlar. PECNET'in veri seçimine yönelik yenilikçi yaklaşımı, modelin başarısında kritik bir rol oynamaktadır. Model öncelikle veri noktalarının birbirleriyle ve hedef değişkenle olan ilişkilerini inceler. Bu, modelin hangi verilerin hedef değişken üzerinde en büyük etkiye sahip olduğunu anlamasını sağlar. İlk olarak hedef değişkenin varyansını en fazla açıklayan veri özelliği seçilir. Bu özellik, modelin tahminlerinde kullanacağı temel veri kaynağı olarak belirlenir. Daha sonra, benzer özellikleri eklemek yerine PECNET, önceki tahminlerdeki hataları tahmin etmeye ve düzeltmeye odaklanır. Bu yaklaşım, modelin daha önce dikkate alınmamış yeni desenleri ortaya çıkarmasını sağlar. Böylece tekrarlardan kaçınır ve modelin yeni verilerle başa çıkma yeteneğini artırır. Bu süreç, modelin daha genel ve farklı veri setlerine de uygulanabilir olmasını sağlar. Çünkü model sadece mevcut veriler üzerinde yoğunlaşmak yerine veri setindeki hata oranlarını minimize etmeye çalışır. Çalışmada PECNET modeli, Türkiye genelindeki tarımsal ve çevresel bilgileri toplayan Tarım Bilgi Sistemi (TARBIL) veri seti kullanılarak test edilmiştir. TARBIL sistemi, Türkiye genelinde 440 istasyon ile yüksek çözünürlüklü tarımsal ve çevresel veri toplama görevini üstlenmiştir. Bu istasyonlardan elde edilen veriler; tarım alanlarındaki meteorolojik değişikliklerin, toprak durumunun ve bitki gelişiminin izlenmesinde kullanılmaktadır. PECNET, eksik veri tamamlama için yapılan deneylerde iki farklı türde test edilmiştir: Birinci deneyde sadece tek bir istasyondan alınan veriler kullanılmıştır. Bu tür deneylerde PECNET modeli, yalnızca tek bir veri kaynağından elde edilen bilgilere dayanarak eksik verilerin tahmin edilip edilemeyeceğini değerlendirmek için test edilmiştir. İkinci deneyde ise, yakınlardaki birkaç istasyondan alınan veriler birleştirilmiş ve bu veriler bir arada kullanılarak eksik verilerin nasıl daha doğru tahmin edilebileceği araştırılmıştır. Bu deneyler, özellikle tarım alanlarında toprak ve bitki durumunun izlenmesi için kritik öneme sahiptir. Tarım alanlarında yer alan sensörlerden alınan verilerin eksik ya da hatalı olması durumunda çiftçiler yanlış kararlar alabilir ve bu da ürün kayıplarına yol açabilir. Her iki deney türünde de PECNET modeli, özellikle de Ayrık Dalga Dönüşümü (ADD/DWT) ile birleştirildiğinde, geleneksel yöntemlere kıyasla daha yüksek doğruluk göstermiştir. Sayısal olarak, tek istasyon deneylerinde PECNET + DWT modeli, Kök Ortalama Kare Hatası'nda (KOKH/RMSE) %50'den fazla bir azalma sağlamış ve çoklu istasyon deneylerinde RMSE değerinde %80'e varan bir düşüş elde etmiştir. Bu, PECNET'in özellikle çoklu veri kaynaklarını bir arada kullanarak daha doğru tahminler yapma kapasitesine sahip olduğunu göstermektedir. Modelin birden fazla istasyondan gelen verileri kullanma yeteneği, özellikle rüzgar hızı ve nem gibi zorlu değişkenlerin tahmininde önemli iyileşmeler sağlamıştır. Rüzgar hızı ve nem tarımda kritik öneme sahip değişkenlerdir ve bu değişkenlerin doğru bir şekilde tahmin edilmesi, ürün verimliliğini artırmada büyük rol oynar. PECNET'in performansı, kısa vadeli yağış tahmini gibi önemli bir alanda da test edilmiştir. Kısa vadeli yağış tahminleri tarımda sulama zamanlaması, arazi yönetimi ve ürün verimi gibi kararlar üzerinde doğrudan etkili olabilir. Doğru yağış tahminleri çiftçilerin sulama zamanlamalarını daha iyi planlamalarına, su kaynaklarını daha verimli kullanmalarına ve ürün verimini artırmalarına yardımcı olabilir. Bu testlerde PECNET, Uzun Kısa Süreli Bellek (UKSB/LSTM) ağları ve Prophet gibi geleneksel modellerden daha iyi performans göstermiştir. PECNET, Ortalama Mutlak Yüzde Hatası'nda (OMYH/MAPE) %50 daha az hata ve RMSE ile Ortalama Mutlak Hata'da (OMH/MAE) üç kat daha az hata elde etmiştir. Bu, modelin kısa vadeli yağış tahminlerinde ne kadar başarılı olduğunu göstermektedir. Kısa vadeli tahminler, özellikle iklim değişikliklerinin ve ani hava olaylarının önceden tahmin edilmesi gereken durumlarda kritik bir öneme sahiptir. Doğru bir kısa vadeli yağış tahmini çiftçilerin ani yağışlara karşı önlem almasını ve ürünlerini korumasını sağlar. PECNET modeli, hata düzeltme mekanizmaları ve bağımsız veri özelliklerinin seçimi sayesinde aşırı öğrenmeden kaçınarak daha doğru ve güvenilir tahminler yapılmasını sağlar. Modelin özgün yaklaşımı verilerin analiz edilmesi ve eksik verilerin doldurulması süreçlerinde büyük bir ilerleme kaydetmektedir. PECNET modeli, LSTM ve Prophet gibi yaygın kullanılan modellerle karşılaştırıldığında yağış tahminlerinde çok daha düşük hata oranları elde etmiştir. Bu da modelin tarım gibi veri-yoğun alanlarda büyük bir potansiyele sahip olduğunu ve doğru veri tahminlerinin kritik olduğu birçok alanda değerli bir araç olarak kullanılabileceğini göstermektedir. Sonuç olarak PECNET, veri analizi ve karar alma süreçlerinin kalitesini artırmada önemli bir adım olma potansiyeli göstermektedir. Bu çalışmanın bulguları sadece tarım alanında değil, aynı zamanda sağlık ve çevre izleme gibi diğer alanlarda da büyük bir potansiyel ortaya koymaktadır. Sağlık alanında hasta verilerindeki eksiklikler yanlış teşhislere veya tedavi süreçlerinde gecikmelere yol açabilir. PECNET'in bağımsız veri seçimi ve hata düzeltme yaklaşımı, sağlık verilerinin daha doğru bir şekilde işlenmesini sağlayabilir ve bu da hasta bakımında iyileşmelere yol açabilir. Çevresel izleme alanında ise iklim değişiklikleri ve doğal afetlerin daha doğru tahmin edilmesi için PECNET'in sunduğu yenilikçi yaklaşımlar kullanılabilir. Bu da çevresel felaketlere karşı önceden önlem alınmasını ve insan hayatının korunmasını sağlayabilir. Özetle PECNET modeli ile etkisi gösterilen ortogonalite tabanlı öznitelik seçimi, eksik verilerin doldurulması ve kısa vadeli tahminler gibi karmaşık gerçek dünya veri setlerinde karşılaşılan zorlukların üstesinden gelmek için yeni ve etkili bir çözüm sunmaktadır. Bağımsız veri özniteliklerinin seçimine odaklananan yöntem yalnızca doğruluğu artırmakla kalmamakta, aynı zamanda aşırı öğrenme gibi yaygın sorunlardan da kaçınmaktadır. Çalışmanın sonuçları, ortogonalite tabanlı öznitelik seçiminin geleneksel yöntemlerin sınırlamalarını etkili bir şekilde aşabileceğini göstermektedir. Bu yöntemin TARBIL veri setinde başarılı bir şekilde uygulanması, yöntemin doğru veri ve tahminlerin kritik olduğu birçok alanda değerli bir araç olabileceğini göstermektedir. Bu araştırma, veri analizi ve karar alma süreçlerinin kalitesini artırmada etkili bir adım teşkil edecektir.
Özet (Çeviri)
Feature selection is a significant aspect of AI models, which directly influences their accuracy and efficiency. A common problem in this process is redundancy among features, where multiple features provide overlapping information. Besides being inefficient, this redundancy can cause overfitting, where a model becomes too tailored to the specific data it was trained on and fails to generalize to new data. To tackle these challenges, this thesis introduces an orthogonality-based approach to feature selection. By ensuring that the selected features are independent and non-redundant, this approach improves the model's performance across various tasks. Two example applications—data imputation and short-term forecasting—are explored to demonstrate the effectiveness of this approach. Missing, distorted, or inaccurate data is a serious problem in many fields, including agriculture, healthcare, and environmental monitoring. These gaps in data can make it hard to trust the results of any analysis or decisions based on that data. Problems like sensor breakdowns, transmission errors, or incomplete data collection can make entire datasets unreliable. When this happens, it can lead to biased conclusions and poor decisions. This issue is especially serious in situations where decisions need to be made quickly and accurately, like in real-time systems. For example, if there's missing data in an agricultural monitoring system, it could lead to wrong decisions about watering crops, which could harm yields. To solve this problem, this study introduces a new orthogonality-based feature selection method called the Predictive Error Compensated Neural Network (PECNET) model. PECNET uses a method that focuses on selecting data features that are independent from each other and correcting errors in predictions to improve the accuracy of filling in missing data and making short-term forecasts. The study is based on two main ideas. First, it suggests that advanced machine learning models like PECNET can do a better job than traditional methods at finding and using patterns in complex data. Second, it believes that by making sure the features the model uses are independent, PECNET can avoid overfitting, which happens when a model is too closely tailored to the specific data it was trained on and does not work well with new data. PECNET's approach to select which data to focus on is a key part of its success. The model begins by looking at how different data points relate to each other and to the target being predicted. It first picks the data feature that has the biggest impact on the target. Then, instead of just adding more similar features, PECNET focuses on predicting and correcting errors from earlier predictions. This way, it finds new patterns in the data that were not considered before, helps to avoid repetition and makes the model better at handling new data. The study tested PECNET using data from The Agricultural and Environmental Informatics Research and Application Center (TARBIL), a system that collects agricultural and environmental information from across Türkiye. PECNET was tested in two types of experiments for missing data imputation: one where data from just one station was used, and another where data from several nearby stations was combined. In both types of experiments, PECNET, especially when combined with Discrete Wavelet Transform (DWT), showed better accuracy than traditional methods. Numerically, PECNET + DWT achieved more than 50% less Root Mean Squared Error (RMSE) for single station experiments and up to 80% less RMSE for multi-station experiments. The model's ability to use data from multiple stations led to big improvements in predicting challenging variables like wind speed and humidity. Besides filling in missing data, PECNET was also tested on predicting short-term rainfall, which is very important for farming. Accurate rainfall predictions help farmers make better decisions about when to water crops, manage land, and estimate yields. In these tests, PECNET performed better than traditional models like Long Short-Term Memory (LSTM) and Prophet by achieving 50% less Mean Absolute Percentage Error (MAPE) and three times less RMSE and Mean Absolute Error (MAE). PECNET's ability to combine different types of independent data helped it make more accurate and reliable short-term rainfall forecasts. In summary, orthogonality-based feature selection method, whose impact is shown through PECNET, offers a new and effective way to deal with the challenges of missing data and short-term forecasting. By focusing on selecting independent data features, the method not only improves accuracy but also avoids common pitfalls like overfitting. The study's results support the initial hypotheses, showing that orthogonality-based feature selection can effectively overcome the limitations of traditional methods. Its successful application to the TARBIL dataset suggests that it could be a valuable tool in many fields where accurate data and forecasts are crucial. This research is an important step forward in improving how data is analyzed and decisions are made.
Benzer Tezler
- Wavelet frames and redundant wavelet transforms for fault detection
Dalgacık çerçeveleri ve artıklı dalgacık dönüşümleri ile arıza tespiti
TAYFUN ŞENGÜLER
Doktora
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. ŞAHİN SERHAT ŞEKER
- Dalgacık dönüşümünün fourier dönüşümü ile karşılaştırılması ve uygulama
Comparison of wavelet transform and fourier transform and its applications
ESRA TÜZEL
Yüksek Lisans
Türkçe
2015
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. KENAN YÜCE ŞANLITÜRK
- Physical layer techniques for 5G and beyond wireless systems
5G ve ötesi kablosuz sistemler için fiziksel katman teknikleri
ABUU BAKARI KIHERO
Doktora
İngilizce
2024
İletişim Bilimleriİstanbul Medipol ÜniversitesiElektrik-Elektronik Mühendisliği ve Siber Sistemler Ana Bilim Dalı
PROF. DR. HÜSEYİN ARSLAN
- Rapidly varying sparse channel tracking for OFDM systems
OFDM sistemleri için çok hızlı değişen seyrek kanal takibi
AYŞE BETÜL BÜYÜKŞAR
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN ALİ ÇIRPAN
- Corpus-based semantic kernels for supervised and semi-supervised text classification
Eğiticili ve yarı-eğiticili metin sınıflandırması için derlem tabanlı anlambilimsel çekirdekler
AYŞE BERNA ALTINEL
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
YRD. DOÇ. DR. MURAT CAN GANİZ