Öznitelik seçim yöntemlerindeki yanlılık etkisinin sınıflandırma başarısı açısından değerlendirilmesi

Evaluation of the bias effect in feature selection methods in terms of classification accuracy

PDF İndir

Tez No: 800280
Yazar: SEMİH CAN BOZOK
Danışmanlar: DR. ÖĞR. ÜYESİ ERGÜN GÜMÜŞ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: Bursa Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 66

Özet

Günümüz dünyasında veri her yerde, bol bir şekilde, rahatlıkla ulaşılabilir bir haldedir. Veri bol, elde etmesi kolay ama sürekli olarak artan bir yapıda olması nedeniyle işlenmesi, anlamlı hale getirilmesi giderek zorlaşmaktadır. Özellikle büyük veri çalışmaları, görüntü tabanlı çalışmalar, veri akışı tabanlı çalışmalarda özniteliklerin anlamlı alt kümeler şeklinde azaltılması önem kazanmaktadır. Öznitelik seçimi yapılmazsa, işlemci gücü yoğun bir şekilde kullanılmakta, sınıflandırıcıların eğitim süresi uzamakta ve bu durum da bazı verileri işlenemez hale getirmektedir. Makine öğrenmesinde öznitelik seçimi günümüzde çok ilgi gören bir çalışma alanıdır. Öznitelik seçimi verideki özniteliklerin sayısını azaltarak boyutsallık lanetinden (curse of dimensionality) kaçınmayı amaçlamaktadır. Bu amaç için veriyi çeşitli yaklaşımlarla incelemeye alır, çeşitli karar verme mekanizmaları kullanarak en anlamlı olan öznitelikleri seçer. Öznitelik seçimi yapılırken verinin doğasında bulunan etkiler nedeniyle yanlılık etkisi oluşabilmektedir. Yanlılık etkisi öznitelik seçimini olumsuz yönde etkilemektedir. Öznitelik seçiminde önemli konulardan biri de kullandığımız eğitim, geçerleme (validation) ve test kümesinin iterasyonlar bazlı değişiminin yanlılık etkisi ortaya çıkarmasıdır. Örnek sayısı ile seçilen özniteliklerin değişimi arasındaki ilişki de önemli bir konudur. Örnek sayısının fazla olduğu durumlarda öznitelik seçimi yaptığımızda her seferinde benzer öznitelik alt kümesinin seçilmesi beklenmektedir. Yanlılık etkisinden kaçınmak için çeşitli çapraz geçerleme yöntemleri kullanmak etkiyi azaltma yönünde olumlu bir durum oluşturmaktadır. Veriyi farklı çapraz geçerleme yöntemleri kullanarak öznitelik seçimine sokmamız farklı benzerlik metriği oranı vererek yanlılık etkisinin hangi yöntemde daha az olduğu hakkında bize bilgi vermektedir. Bu konuyla ilgili araştırmalar yoğun bir ilgiyle sürmektedir. Tez çalışmasında üç farklı veri seti ve üç farklı öznitelik seçim yöntemi kullanılarak öznitelik seçimi yapılmıştır. Söz konusu öznitelik seçim yöntemleri de üç farklı çapraz geçerleme yöntemi ve üç farklı sınıflandırıcı ile çalıştırılmıştır. Bu sayede seksen bir farklı çalıştırma yapılmıştır. Yapılan çalışmalar için iki farklı benzerlik metriği kullanılarak yanlılık etkisi gözlemlenmiştir. Elde edilen sonuçlara göre veri setinden ve öznitelik seçim yönteminden bağımsız olarak yanlılık etkisinin en az olduğu çapraz geçerleme yöntemi tespit edilmiştir.

Özet (Çeviri)

In today's world, data is everywhere, abundant and easily accessible. Data is abundant, easy to obtain, but due to its continuously increasing structure, it is becoming increasingly difficult to process and make it meaningful. Especially in big data studies, image-based studies, data stream-based studies, it is important to reduce attributes into meaningful subsets. Without feature selection, processing power is used intensively, the training time of classifiers is prolonged and this makes some data unprocessable. Feature selection in machine learning is a field of study that has received much attention. Feature selection aims to avoid the curse of dimensionality by reducing the number of features in the data. For this purpose, it examines the data with various approaches and selects the most meaningful attributes using various decision-making mechanisms. When selecting attributes, a bias effect may occur due to the inherent effects of the data. The bias effect negatively affects attribute selection. One of the important issues in feature selection is that the iterative change of the training, validation and test set we use can introduce bias effects. The relationship between the number of samples and the variation of the selected attributes is also an important issue. When we select attributes when the number of instances is large, we expect a similar subset of attributes to be selected each time. In order to avoid the bias effect, using various cross validation methods is a positive way to reduce the effect. Using different cross validation methods for feature selection gives us different similarity metric ratios and gives us information about which method has less bias effect. Research on this topic continues with intense interest. In this thesis, three different datasets and three different feature selection methods were used for feature selection. These feature selection methods were also run with three different cross validation methods and three different classifiers. In this way, eighty-one different runs were performed. Bias effect was observed by using two different similarity metrics for the studies. According to the results obtained, the cross validation method with the least bias effect was determined independently of the dataset and feature selection method.

Benzer Tezler

Tez No
738885
Video oyun yaş etiketlerinin çok modlu biyosinyaller ve yapay zeka ile tahmini
Prediction of video game age labels with multimodal biosignals and artificial intelligence
DURMUŞ KOÇ
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
DOÇ. DR. ZÜMRÜT SATI
DOÇ. DR. AHMET ÇAĞDAŞ SEÇKİN
Tez No
333014
Kütle spektrometresi verilerinin analiziyle prostat ve yumurtalık kanserlerinin belirlenmesi
Prostate and ovarian cancer identification by analyzing mass spectrometry data
VEDAT TAŞKIN
Yüksek Lisans
Türkçe
2013
Biyoistatistik İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. TAMER ÖLMEZ
Tez No
856467
Yazılım tanımlı ağlarda makine öğrenme temelli saldırı tespit sistemi
Machine learning based intrusion detection system in software defined networks
BİROL EMEKLİ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
DOÇ. DR. İHSAN HAKAN SELVİ
Tez No
841195
Mikroşebekelerde ada mod çalışmanın tespiti ve güç kalitesi olaylarının sınıflandırılması için yapay zekâ tabanlı kontrol yöntemlerinin geliştirilmesi
Development of artificial intelligence based control methods for detection of islanding conditions and classification of power quality events in microgrids
ALPER YILMAZ
Doktora
Türkçe
2023
Elektrik ve Elektronik Mühendisliği Bursa Teknik Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKAY BAYRAK
Tez No
633878
Mikrodizi gen ifade verilerinde farklı öznitelik seçim yöntemleri ile sınıflama yöntemlerinin performanslarının değerlendirilmesi
The effect of feature selection methods on the success of classification methods in microarray gene expression data
ÖZLEM ARIK
Doktora
Türkçe
2020
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. ERDEM KARABULUT

Geri Dön