Öznitelik seçim yöntemlerindeki yanlılık etkisinin sınıflandırma başarısı açısından değerlendirilmesi
Evaluation of the bias effect in feature selection methods in terms of classification accuracy
- Tez No: 800280
- Danışmanlar: DR. ÖĞR. ÜYESİ ERGÜN GÜMÜŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Bursa Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 66
Özet
Günümüz dünyasında veri her yerde, bol bir şekilde, rahatlıkla ulaşılabilir bir haldedir. Veri bol, elde etmesi kolay ama sürekli olarak artan bir yapıda olması nedeniyle işlenmesi, anlamlı hale getirilmesi giderek zorlaşmaktadır. Özellikle büyük veri çalışmaları, görüntü tabanlı çalışmalar, veri akışı tabanlı çalışmalarda özniteliklerin anlamlı alt kümeler şeklinde azaltılması önem kazanmaktadır. Öznitelik seçimi yapılmazsa, işlemci gücü yoğun bir şekilde kullanılmakta, sınıflandırıcıların eğitim süresi uzamakta ve bu durum da bazı verileri işlenemez hale getirmektedir. Makine öğrenmesinde öznitelik seçimi günümüzde çok ilgi gören bir çalışma alanıdır. Öznitelik seçimi verideki özniteliklerin sayısını azaltarak boyutsallık lanetinden (curse of dimensionality) kaçınmayı amaçlamaktadır. Bu amaç için veriyi çeşitli yaklaşımlarla incelemeye alır, çeşitli karar verme mekanizmaları kullanarak en anlamlı olan öznitelikleri seçer. Öznitelik seçimi yapılırken verinin doğasında bulunan etkiler nedeniyle yanlılık etkisi oluşabilmektedir. Yanlılık etkisi öznitelik seçimini olumsuz yönde etkilemektedir. Öznitelik seçiminde önemli konulardan biri de kullandığımız eğitim, geçerleme (validation) ve test kümesinin iterasyonlar bazlı değişiminin yanlılık etkisi ortaya çıkarmasıdır. Örnek sayısı ile seçilen özniteliklerin değişimi arasındaki ilişki de önemli bir konudur. Örnek sayısının fazla olduğu durumlarda öznitelik seçimi yaptığımızda her seferinde benzer öznitelik alt kümesinin seçilmesi beklenmektedir. Yanlılık etkisinden kaçınmak için çeşitli çapraz geçerleme yöntemleri kullanmak etkiyi azaltma yönünde olumlu bir durum oluşturmaktadır. Veriyi farklı çapraz geçerleme yöntemleri kullanarak öznitelik seçimine sokmamız farklı benzerlik metriği oranı vererek yanlılık etkisinin hangi yöntemde daha az olduğu hakkında bize bilgi vermektedir. Bu konuyla ilgili araştırmalar yoğun bir ilgiyle sürmektedir. Tez çalışmasında üç farklı veri seti ve üç farklı öznitelik seçim yöntemi kullanılarak öznitelik seçimi yapılmıştır. Söz konusu öznitelik seçim yöntemleri de üç farklı çapraz geçerleme yöntemi ve üç farklı sınıflandırıcı ile çalıştırılmıştır. Bu sayede seksen bir farklı çalıştırma yapılmıştır. Yapılan çalışmalar için iki farklı benzerlik metriği kullanılarak yanlılık etkisi gözlemlenmiştir. Elde edilen sonuçlara göre veri setinden ve öznitelik seçim yönteminden bağımsız olarak yanlılık etkisinin en az olduğu çapraz geçerleme yöntemi tespit edilmiştir.
Özet (Çeviri)
In today's world, data is everywhere, abundant and easily accessible. Data is abundant, easy to obtain, but due to its continuously increasing structure, it is becoming increasingly difficult to process and make it meaningful. Especially in big data studies, image-based studies, data stream-based studies, it is important to reduce attributes into meaningful subsets. Without feature selection, processing power is used intensively, the training time of classifiers is prolonged and this makes some data unprocessable. Feature selection in machine learning is a field of study that has received much attention. Feature selection aims to avoid the curse of dimensionality by reducing the number of features in the data. For this purpose, it examines the data with various approaches and selects the most meaningful attributes using various decision-making mechanisms. When selecting attributes, a bias effect may occur due to the inherent effects of the data. The bias effect negatively affects attribute selection. One of the important issues in feature selection is that the iterative change of the training, validation and test set we use can introduce bias effects. The relationship between the number of samples and the variation of the selected attributes is also an important issue. When we select attributes when the number of instances is large, we expect a similar subset of attributes to be selected each time. In order to avoid the bias effect, using various cross validation methods is a positive way to reduce the effect. Using different cross validation methods for feature selection gives us different similarity metric ratios and gives us information about which method has less bias effect. Research on this topic continues with intense interest. In this thesis, three different datasets and three different feature selection methods were used for feature selection. These feature selection methods were also run with three different cross validation methods and three different classifiers. In this way, eighty-one different runs were performed. Bias effect was observed by using two different similarity metrics for the studies. According to the results obtained, the cross validation method with the least bias effect was determined independently of the dataset and feature selection method.
Benzer Tezler
- Video oyun yaş etiketlerinin çok modlu biyosinyaller ve yapay zeka ile tahmini
Prediction of video game age labels with multimodal biosignals and artificial intelligence
DURMUŞ KOÇ
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. ZÜMRÜT SATI
DOÇ. DR. AHMET ÇAĞDAŞ SEÇKİN
- Kütle spektrometresi verilerinin analiziyle prostat ve yumurtalık kanserlerinin belirlenmesi
Prostate and ovarian cancer identification by analyzing mass spectrometry data
VEDAT TAŞKIN
Yüksek Lisans
Türkçe
2013
Biyoistatistikİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. TAMER ÖLMEZ
- Yazılım tanımlı ağlarda makine öğrenme temelli saldırı tespit sistemi
Machine learning based intrusion detection system in software defined networks
BİROL EMEKLİ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
DOÇ. DR. İHSAN HAKAN SELVİ
- Mikroşebekelerde ada mod çalışmanın tespiti ve güç kalitesi olaylarının sınıflandırılması için yapay zekâ tabanlı kontrol yöntemlerinin geliştirilmesi
Development of artificial intelligence based control methods for detection of islanding conditions and classification of power quality events in microgrids
ALPER YILMAZ
Doktora
Türkçe
2023
Elektrik ve Elektronik MühendisliğiBursa Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKAY BAYRAK
- Ensemble of feature selection models for malware datasets
Kötücül yazılım veri kümeleri için öznitelik seçim modellerinin topluluğu
FARUK CÜREBAL
Yüksek Lisans
İngilizce
2022
Bilim ve TeknolojiKadir Has ÜniversitesiYönetim Bilimleri Ana Bilim Dalı
PROF. DR. HASAN DAĞ