Özellik seçim yöntemleri ve yeni bir yaklaşım

Feature selection methods and a new approach

PDF İndir

Tez No: 406033
Yazar: HÜSEYİN BUDAK
Danışmanlar: DOÇ. DR. SEMRA ERPOLAT TAŞABAT
Tez Türü: Doktora
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2015
Dil: Türkçe
Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 138

Özet

Günümüzde bilişim teknolojilerinin geldiği nokta, birçok alanda büyük veri tabanlarının oluşturulmasına ve bu veri tabanlarında depolanan veri miktarının katlanarak artmasına imkan tanımaktadır. Veri miktarlarındaki bu artış uygulamacıların beklentilerini de arttırmaktadır. Uygulamacıların beklentilerini karşılamak için, veri tabanlarında depolanan bu veri yığınlarının analiz edilmesinde geleneksel yöntemler yeterli olmadığından veri madenciliği yöntemleri ön plana çıkmaktadır. Veri madenciliği, yalnızca hazır verilerin analiz edilmesini değil, verilerin elde edilmesini, bu verilerden anlamlı bilginin çıkarılmasını ve bu bilginin eylem planına dönüştürülmesini kapsayan bir süreçtir. Bu sürecin aşamalarında biri de özellik seçim işlemidir. Veri tabanlarının kapasiteleri sayesinde, birçok gerçek hayat probleminin çözümü için kullanılan verilerde yüzlerce hatta binlerce özellik bulunmaktadır. Bu ölçekteki verilerin analizinde, uygulama için harcanacak zaman, veri depolama maliyeti, veri madenciliği algoritma performansının azalması gibi sorunlarla karşılaşıldığından çok boyutlu verilerde analiz öncesinde özellik seçimi yapmak önemli bir konu haline gelmiştir. Bu çalışmada, özellik seçim yöntemleri içerisinde yer alan t-skor yöntemine alternatif olarak yeni bir yöntem önerilmiş ve bu iki yöntemin karşılaştırılmasına yönelik çeşitli analizler gerçekleştirilmiştir. Yöntemleri karşılaştırmada veri madenciliğine ilişkin çalışmalarda sıklıkla tercih edilen, Arcene, Gisette ve Madelon isimli veri setlerinden yararlanılmıştır. Bu amaçla ele alınan tüm veri setleri için ilk 50, ilk 100, ilk 150 ve ilk 200 özellik seçilerek toplam 24 adet veri kümesi oluşturulmuştur. Bu veri kümeleri kullanılmak suretiyle t-skor ile önerilen yöntemin sınıflandırma doğruluk yüzdeleri karşılaştırılmıştır. Sınıflandırma doğruluk yüzdelerinin hesaplanmasında literatürde oldukça yaygın bir kullanıma sahip olan Yapay Sinir Ağları (YSA) ve Destek Vektör Makineleri (DVM) yöntemleri tercih edilmiştir. Elde edilen bulgulardan önerilen özellik seçim yönteminin t-skor yöntemine göre istatistiksel açıdan daha başarılı sonuçlar verdiği gözlemlenmiştir.

Özet (Çeviri)

The developments in information technologies nowadays has given us the opportunity to build up databases in many areas and incrementally increase the amount of data stored. The increase of this data also exceeds the expectation of the operators. In order to meet the expectations of the operators, data mining methods rise to prominence since traditional methods to analyze the big data stored in databases are inadequate. Data mining is a process comprised of not only analyzing available data but also collecting data, obtaining meaningful information from it and transforming this information to an action plan. One of the stages of this process is feature selection. Thanks to the capacity of the databases, there are hundreds, and sometimes thousands of features in the data that are used to solve real world problems. When analyzing this amount of data, the feature selection prior to multi-dimensional data analysis has become significantly important as one faces issues such as time spent on the execution, data storage expenses and the performance decrease of data mining algorithms. In this study, an alternative method to t-score method, one of the feature selection methods, has been suggested and some analyses have been executed in order to compare these two methods. When comparing these methods, commonly used data sets in data mining studies, Arcene, Gisette and Madelon, have been used. In line with the purpose of this study, the first 50, 100, 150 and 200 features for each data sets have been selected, in consequence, 24 data subsets have been built. The classification accuracy of t-score and suggested method has been compared by using these data subsets. When calculating the classification accuracy, two commonly used methods in literature, Artificial Neural Networks and Support Vector Machines methods have been used. The results obtained from the study has pointed to the conclusion that the suggested feature selection method has statistically output more successful results compared to t-score.

Benzer Tezler

Tez No
849520
Analysis of network security using machine learning methods
Makine öğrenmesi yöntemleri kullanılarak ağ güvenirliği analizi
MARYAM SALATI
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ankara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İMAN ASKERBEYLİ
Tez No
788496
Öznitelik seçme teknikleri ve genetik algoritma kullanılarak etkin arapça metin sınıflandırması
Efficient arabic text classification using feature selection techniques and genetic algorithm
AHMED HASHIM KAREEM AL-DULAIMI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yalova Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT OKKALIOĞLU
Tez No
950068
Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity
Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini
AMMAR HOMAIDA
Doktora
İngilizce
2025
İstatistik Gazi Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. MERAL EBEGİL
Tez No
895348
Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators
Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi
MAHMUT SAMİ SİVRİ
Doktora
İngilizce
2023
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
Tez No
937955
Identification and localization of high impedance faults in distribution networks
Dağıtım şebekelerindeki yüksek empedans arızaların tespiti ve konumunun belirlenmesi
EREN BAHARÖZÜ
Doktora
İngilizce
2025
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektrik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SUAT İLHAN
DR. ÖĞR. ÜYESİ GÜRKAN SOYKAN

Geri Dön