Özellik seçim yöntemleri ve yeni bir yaklaşım
Feature selection methods and a new approach
- Tez No: 406033
- Danışmanlar: DOÇ. DR. SEMRA ERPOLAT TAŞABAT
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: Türkçe
- Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 138
Özet
Günümüzde bilişim teknolojilerinin geldiği nokta, birçok alanda büyük veri tabanlarının oluşturulmasına ve bu veri tabanlarında depolanan veri miktarının katlanarak artmasına imkan tanımaktadır. Veri miktarlarındaki bu artış uygulamacıların beklentilerini de arttırmaktadır. Uygulamacıların beklentilerini karşılamak için, veri tabanlarında depolanan bu veri yığınlarının analiz edilmesinde geleneksel yöntemler yeterli olmadığından veri madenciliği yöntemleri ön plana çıkmaktadır. Veri madenciliği, yalnızca hazır verilerin analiz edilmesini değil, verilerin elde edilmesini, bu verilerden anlamlı bilginin çıkarılmasını ve bu bilginin eylem planına dönüştürülmesini kapsayan bir süreçtir. Bu sürecin aşamalarında biri de özellik seçim işlemidir. Veri tabanlarının kapasiteleri sayesinde, birçok gerçek hayat probleminin çözümü için kullanılan verilerde yüzlerce hatta binlerce özellik bulunmaktadır. Bu ölçekteki verilerin analizinde, uygulama için harcanacak zaman, veri depolama maliyeti, veri madenciliği algoritma performansının azalması gibi sorunlarla karşılaşıldığından çok boyutlu verilerde analiz öncesinde özellik seçimi yapmak önemli bir konu haline gelmiştir. Bu çalışmada, özellik seçim yöntemleri içerisinde yer alan t-skor yöntemine alternatif olarak yeni bir yöntem önerilmiş ve bu iki yöntemin karşılaştırılmasına yönelik çeşitli analizler gerçekleştirilmiştir. Yöntemleri karşılaştırmada veri madenciliğine ilişkin çalışmalarda sıklıkla tercih edilen, Arcene, Gisette ve Madelon isimli veri setlerinden yararlanılmıştır. Bu amaçla ele alınan tüm veri setleri için ilk 50, ilk 100, ilk 150 ve ilk 200 özellik seçilerek toplam 24 adet veri kümesi oluşturulmuştur. Bu veri kümeleri kullanılmak suretiyle t-skor ile önerilen yöntemin sınıflandırma doğruluk yüzdeleri karşılaştırılmıştır. Sınıflandırma doğruluk yüzdelerinin hesaplanmasında literatürde oldukça yaygın bir kullanıma sahip olan Yapay Sinir Ağları (YSA) ve Destek Vektör Makineleri (DVM) yöntemleri tercih edilmiştir. Elde edilen bulgulardan önerilen özellik seçim yönteminin t-skor yöntemine göre istatistiksel açıdan daha başarılı sonuçlar verdiği gözlemlenmiştir.
Özet (Çeviri)
The developments in information technologies nowadays has given us the opportunity to build up databases in many areas and incrementally increase the amount of data stored. The increase of this data also exceeds the expectation of the operators. In order to meet the expectations of the operators, data mining methods rise to prominence since traditional methods to analyze the big data stored in databases are inadequate. Data mining is a process comprised of not only analyzing available data but also collecting data, obtaining meaningful information from it and transforming this information to an action plan. One of the stages of this process is feature selection. Thanks to the capacity of the databases, there are hundreds, and sometimes thousands of features in the data that are used to solve real world problems. When analyzing this amount of data, the feature selection prior to multi-dimensional data analysis has become significantly important as one faces issues such as time spent on the execution, data storage expenses and the performance decrease of data mining algorithms. In this study, an alternative method to t-score method, one of the feature selection methods, has been suggested and some analyses have been executed in order to compare these two methods. When comparing these methods, commonly used data sets in data mining studies, Arcene, Gisette and Madelon, have been used. In line with the purpose of this study, the first 50, 100, 150 and 200 features for each data sets have been selected, in consequence, 24 data subsets have been built. The classification accuracy of t-score and suggested method has been compared by using these data subsets. When calculating the classification accuracy, two commonly used methods in literature, Artificial Neural Networks and Support Vector Machines methods have been used. The results obtained from the study has pointed to the conclusion that the suggested feature selection method has statistically output more successful results compared to t-score.
Benzer Tezler
- Analysis of network security using machine learning methods
Makine öğrenmesi yöntemleri kullanılarak ağ güvenirliği analizi
MARYAM SALATI
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İMAN ASKERBEYLİ
- Öznitelik seçme teknikleri ve genetik algoritma kullanılarak etkin arapça metin sınıflandırması
Efficient arabic text classification using feature selection techniques and genetic algorithm
AHMED HASHIM KAREEM AL-DULAIMI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT OKKALIOĞLU
- Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators
Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi
MAHMUT SAMİ SİVRİ
Doktora
İngilizce
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
- Text and predictive analytics; classification of on-line customer opinion surveys
Metin ve tahmine dayalı analitik; çevrimiçi tüketici görüşü anketlerinin sınıflandırılması
AHMET YÜCEL
Yüksek Lisans
İngilizce
2011
Bilgi ve Belge YönetimiAuburn Universityİstatistik Ana Bilim Dalı
PROF. DR. MARK CARPENTER
- Metin sınıflama için yeni bir özellik çıkarım yöntemi
A new method on feature extraction for text classification
GÖKSEL BİRİCİK
Doktora
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. A. COŞKUN SÖNMEZ