Makine öğrenmesinde kategorik değişken seçimi

Categorical variable selection in machine learning

PDF İndir

Tez No: 899578
Yazar: ÇAĞRI GÖLEN
Danışmanlar: PROF. DR. SERPİL AKTAŞ ALTUNAY
Tez Türü: Yüksek Lisans
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Hacettepe Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: İstatistik Bilim Dalı
Sayfa Sayısı: 81

Özet

Makine öğrenmesi modellerinde değişken seçimi adımı kritik önem taşımaktadır. Her model kurulurken ilk olarak değişken seçimi yapılması önerilmektedir. Değişken seçimi süreçleri, modelin karmaşıklığını azaltarak, yorumlanabilirliğini artırarak ve genelleme yeteneğini güçlendirerek model performansını önemli ölçüde etkilemektedir. Geçmişten günümüze gelen bu yaklaşım sebebiyle birçok farklı yöntem ortaya çıkmıştır. Farklı değişken seçimi yöntemlerinin birleştirilmesiyle oluşturulan oylama mekanizması, daha güvenilir ve kapsamlı bir değişken seçimi süreci sunabilmektedir. Bu çalışmada, makine öğrenmesi modellerinde değişken seçimi sürecinin önemi ve farklı yöntemlerin model performansına etkisi incelenmiştir. Sekiz farklı değişken seçimi yöntemi kullanılarak, veri kümesindeki en önemli değişkenler belirlenmiş ve bu yöntemlerin F1 skoru ile performansları değerlendirilmiştir. Kullanılan değişken seçimi yöntemleri şunlardır: Ki-Kare Testi, Fisher'ın Tam Testi, Bilgi Kazancı Yöntemi, Geriye Doğru Eleme, İleriye Doğru Seçim, Özyinelemeli Özellik Eliminasyonu, Lojistik Regresyon Lasso Düzeltmesi ve Özellik Önem Düzeyleri. Her bir yöntem, veri kümesinden en ilgili değişkenlerin belirlenmesi ve modelin tahmin doğruluğunu artırma amacıyla uygulanmıştır. Çalışmada, bir oylama mekanizması ile farklı yöntemlerin belirlediği en önemli değişkenler birleştirilerek, daha güvenilir ve kapsamlı bir değişken seçimi modeli olabilecek bir yapı kurulmuştur. Elde edilen bulgular, bu oylama yöntemiyle seçilen değişkenlerin, tek bir yönteme göre daha iyi sonuçlar verdiğini göstermiştir. Çalışmanın kapsamı, sadece kategorik verileri içermektedir. Bunun yanı sıra bu yöntem, sürekli değişkenler ve karma veri setlerini de içerecek şekilde genişletilebilir bir yöntem olduğunu göstermektedir. Ayrıca, farklı makine öğrenmesi algoritmaları üzerinde yöntemlerin performansını değerlendirebilir bir yöntem kurgulanmıştır. Bu sayede farklı algoritmanın incelenmesinin önü açılmıştır. Geliştirilen oylama mekanizması, uçtan uca çalışabilecek bir tasarıma sahiptir. Bu sebeple bir Python paketi olarak kullanıma sunulabileceği de ortaya konmuştur. Sonuç olarak, tez çalışması, makine öğrenmesi modellerinde değişken seçimi süreçlerinin önemini vurgulamış ve farklı yöntemlerin birleştirilmesiyle F1 skor metriği daha yüksek sonuçlar elde edilebileceğini göstermiştir. Bu yaklaşım, farklı uygulamalara özel gereksinimleri karşılayacak şekilde esnek ve etkili bir çerçeve sunmakta olup, gelecekteki araştırmalar için önemli bir temel oluşturmaktadır.

Özet (Çeviri)

Feature selection is a critical step in machine learning model development. It is recommended to perform feature selection before building any model. Feature selection processes significantly impact model performance by reducing model complexity, improving interpretability, and enhancing generalization ability. Given the importance of this approach, numerous methods have been developed over time. A voting mechanism, created by combining different feature selection methods, can provide a more reliable and comprehensive feature selection process. This study investigates the significance of feature selection in machine learning models and the impact of different methods on model performance. Eight different feature selection methods were employed to identify the most important features in the dataset, and their performance was evaluated using the F1-score. The feature selection methods used include Chi-squared test, Fisher's exact test, information gain, backward elimination, forward selection, recursive feature elimination, logistic regression Lasso regularization, and feature importance scores. Each method was applied to identify the most relevant features from the dataset and improve the model's prediction accuracy. In this study, a voting mechanism was established by combining the most important features determined by different methods, aiming to create a more reliable and comprehensive feature selection model. The findings indicate that the features selected using this voting method yielded better results compared to a single method. The scope of the study is limited to categorical data. However, it demonstrates that this method can be extended to include continuous variables and mixed datasets. Additionally, a framework has been designed to evaluate the performance of these methods on different machine learning algorithms. This opens possibilities for the investigation of various algorithms. The developed voting mechanism has an end-to-end design, suggesting that it can be made available as a Python package. In conclusion, this thesis highlights the significance of feature selection processes in machine learning models and demonstrates that combining different methods can yield higher F1-scores. This approach provides a flexible and effective framework that can cater to the specific requirements of different applications and serves as a solid foundation for future research.

Benzer Tezler

Tez No
953769
A comparative analysis of LSTM and lıghtgbm models in short-term electricity load forecasting: a case study from türkiye
Kısa dönemli yük tahmininde LSTM ve lightgbm modellerinin karşılaştırmalı analizi: Türkiye'den bir vaka çalışması
MUHAMMET FURKAN BAYSAL
Yüksek Lisans
İngilizce
2025
Enerji İstanbul Teknik Üniversitesi
Enerji Bilim ve Teknoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA BERKER YURTSEVEN
Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
Tez No
959215
Comparative study of federated learning for credit risk assessment and fairness evaluation
Federe öğrenmenin karşılaştırmalı çalışması: Kredi risk değerlendirmesi ve adalet ölçümü
MUSTAFA AKTAŞ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
DR. RUŞEN HALEPMOLLASI
Tez No
879686
Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
Tez No
823388
Yapay zekâ ve demokrasi
Artificial intelligence and democracy
AYŞE NUR YAZICILAR
Yüksek Lisans
Türkçe
2023
Hukuk Galatasaray Üniversitesi
Kamu Hukuku Ana Bilim Dalı
PROF. DR. ŞULE ÖZSOY BOYUNSUZ

Geri Dön