Geri Dön

Özellik seçim yöntemleri ve yeni bir yaklaşım

Feature selection methods and a new approach

  1. Tez No: 406033
  2. Yazar: HÜSEYİN BUDAK
  3. Danışmanlar: DOÇ. DR. SEMRA ERPOLAT TAŞABAT
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 138

Özet

Günümüzde bilişim teknolojilerinin geldiği nokta, birçok alanda büyük veri tabanlarının oluşturulmasına ve bu veri tabanlarında depolanan veri miktarının katlanarak artmasına imkan tanımaktadır. Veri miktarlarındaki bu artış uygulamacıların beklentilerini de arttırmaktadır. Uygulamacıların beklentilerini karşılamak için, veri tabanlarında depolanan bu veri yığınlarının analiz edilmesinde geleneksel yöntemler yeterli olmadığından veri madenciliği yöntemleri ön plana çıkmaktadır. Veri madenciliği, yalnızca hazır verilerin analiz edilmesini değil, verilerin elde edilmesini, bu verilerden anlamlı bilginin çıkarılmasını ve bu bilginin eylem planına dönüştürülmesini kapsayan bir süreçtir. Bu sürecin aşamalarında biri de özellik seçim işlemidir. Veri tabanlarının kapasiteleri sayesinde, birçok gerçek hayat probleminin çözümü için kullanılan verilerde yüzlerce hatta binlerce özellik bulunmaktadır. Bu ölçekteki verilerin analizinde, uygulama için harcanacak zaman, veri depolama maliyeti, veri madenciliği algoritma performansının azalması gibi sorunlarla karşılaşıldığından çok boyutlu verilerde analiz öncesinde özellik seçimi yapmak önemli bir konu haline gelmiştir. Bu çalışmada, özellik seçim yöntemleri içerisinde yer alan t-skor yöntemine alternatif olarak yeni bir yöntem önerilmiş ve bu iki yöntemin karşılaştırılmasına yönelik çeşitli analizler gerçekleştirilmiştir. Yöntemleri karşılaştırmada veri madenciliğine ilişkin çalışmalarda sıklıkla tercih edilen, Arcene, Gisette ve Madelon isimli veri setlerinden yararlanılmıştır. Bu amaçla ele alınan tüm veri setleri için ilk 50, ilk 100, ilk 150 ve ilk 200 özellik seçilerek toplam 24 adet veri kümesi oluşturulmuştur. Bu veri kümeleri kullanılmak suretiyle t-skor ile önerilen yöntemin sınıflandırma doğruluk yüzdeleri karşılaştırılmıştır. Sınıflandırma doğruluk yüzdelerinin hesaplanmasında literatürde oldukça yaygın bir kullanıma sahip olan Yapay Sinir Ağları (YSA) ve Destek Vektör Makineleri (DVM) yöntemleri tercih edilmiştir. Elde edilen bulgulardan önerilen özellik seçim yönteminin t-skor yöntemine göre istatistiksel açıdan daha başarılı sonuçlar verdiği gözlemlenmiştir.

Özet (Çeviri)

The developments in information technologies nowadays has given us the opportunity to build up databases in many areas and incrementally increase the amount of data stored. The increase of this data also exceeds the expectation of the operators. In order to meet the expectations of the operators, data mining methods rise to prominence since traditional methods to analyze the big data stored in databases are inadequate. Data mining is a process comprised of not only analyzing available data but also collecting data, obtaining meaningful information from it and transforming this information to an action plan. One of the stages of this process is feature selection. Thanks to the capacity of the databases, there are hundreds, and sometimes thousands of features in the data that are used to solve real world problems. When analyzing this amount of data, the feature selection prior to multi-dimensional data analysis has become significantly important as one faces issues such as time spent on the execution, data storage expenses and the performance decrease of data mining algorithms. In this study, an alternative method to t-score method, one of the feature selection methods, has been suggested and some analyses have been executed in order to compare these two methods. When comparing these methods, commonly used data sets in data mining studies, Arcene, Gisette and Madelon, have been used. In line with the purpose of this study, the first 50, 100, 150 and 200 features for each data sets have been selected, in consequence, 24 data subsets have been built. The classification accuracy of t-score and suggested method has been compared by using these data subsets. When calculating the classification accuracy, two commonly used methods in literature, Artificial Neural Networks and Support Vector Machines methods have been used. The results obtained from the study has pointed to the conclusion that the suggested feature selection method has statistically output more successful results compared to t-score.

Benzer Tezler

  1. Analysis of network security using machine learning methods

    Makine öğrenmesi yöntemleri kullanılarak ağ güvenirliği analizi

    MARYAM SALATI

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İMAN ASKERBEYLİ

  2. Öznitelik seçme teknikleri ve genetik algoritma kullanılarak etkin arapça metin sınıflandırması

    Efficient arabic text classification using feature selection techniques and genetic algorithm

    AHMED HASHIM KAREEM AL-DULAIMI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT OKKALIOĞLU

  3. Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators

    Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi

    MAHMUT SAMİ SİVRİ

    Doktora

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP ÜSTÜNDAĞ

  4. Text and predictive analytics; classification of on-line customer opinion surveys

    Metin ve tahmine dayalı analitik; çevrimiçi tüketici görüşü anketlerinin sınıflandırılması

    AHMET YÜCEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgi ve Belge YönetimiAuburn University

    İstatistik Ana Bilim Dalı

    PROF. DR. MARK CARPENTER

  5. Metin sınıflama için yeni bir özellik çıkarım yöntemi

    A new method on feature extraction for text classification

    GÖKSEL BİRİCİK

    Doktora

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. A. COŞKUN SÖNMEZ