Geri Dön

Row and column selection algorithm for SVR model estimation on large scale business problems

Büyük veri setlerinde destek vektör regresyonu için sütun ve satır seçme yöntemi

  1. Tez No: 276945
  2. Yazar: KÜBRA YAMAN
  3. Danışmanlar: YRD. DOÇ. DR. ÖZDEN GÜR ALİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2010
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Bu çalışmada çok büyük veri setleri için Destek Vektör Regresyon (DVR) modellinin kurulabilmesini mümkün kılmak için önemli nokta ve değişkenlerini seçen bir algoritma geliştirilmiştir. İki aşamalı bu yöntemde, yani satır ve sütun seçme algoritmasında, hem satır hem de sütun seçiminde L1-norm düzenlemeli ?-DVR modelleri kurulmuştur. İlk aşama, eğitim veri setinin destek vektörlerinin ağırlıklarını cezalandırarak veri setinin önemli noktalarından en az sayıda destek vektörlerini seçer ve bu seçilen noktaları yeni eğitim veri setine dahil eder. Seçilen bu destek vektörlerinden oluşturulan yeni eğitim veri seti daha sonra ikinci aşamada değişken ağırlıklarını cezalandırarak eğitim veri setinde tutulacak olan değişken alt küme seçiminde kullanılır. Seçilen satır ve tüm değişkenleri içeren eğitim veri seti ile çalıştırılıp kurulan Radyal Tabanli İşlev (RTI) çekirdekli DVR modellerinin test veri seti üzerindeki doğuluğu, karşılaştırma yapılan yani seçilen satır sayısı kadar satırla tüm değişkenleri içeren rassal örneklem veri setinden ve SVMTorch algoritması ile oluşturulan modellerden önemli ölçüde daha iyi olduğu gözlenmiştir.Bu tezin katkısı oldukça büyük veri setlerini kullanarak doğru ve düşük karmaşıklık içeren DVR modellerinin kurulmasını kolaylaştıran bir algoritma geliştirmesidir. Bu çalışmada önerilen algoritma veri setlerinin önemli gözlem ve değişkenlerini seçip ve onları tahmin modelinde kullanmayı mümkün kılmıştır. Deneysel sonuçlar satır ve sütun seçme algoritmasının etkili bir şekilde çalıştığını ve gereksiz değişkenlerin varlığında değişken sayısını önemli ölçüde azaltırken RTİ-DVR modellerinin genelleme hatasını iyileştirdiğini kanıtlamıştır. Bu çalışmada ayrıca seçilen noktaların diğerler noktalardan nasıl farklı olduğunu anlayabilmek için seçilen noktaların tahmin çizgisine olan uzaklıklarına, hedef değere ve veri kümesinin değişkenlerine göre nasıl dağıldıkları analiz edilmiştir. Yapılan analizler sonucunda, L1-normlu ı-DVR standart ?-DVR'a göre çok daha seyrek bir çözüm sunduğunu gözlenmiştir. Ayrıca L1-normlu ?-DVR'de uç noktalardaki hedef değerlere sahip olan gözlemlerin seçilmesi ortalama hedef değerlere sahip olan gözlemlerden daha olasıdır. Standart ?-DVR'nin aksine, L1-normlu ?-DVR algoritmasının destek vektörleri ı tüpünün içinde ve dışında olabilir. Bunlara ilaveten, seçilen sütunlar arasındaki düşük çoklu doğrusal bağıntı algoritmamızın ikinci kısmını oluşturan değişken seçimi prosedürünün doğru bir şekilde çalıştığını desteklemektedir. Son olarak, seçilen noktalarla değişken değerleri arasındaki ilişki incenlenmiş ve bu analizin sonucunda satır ve sütun seçme algoritmasının noktaları seçimini literatürdeki bazı ön bilgilere dayalı yaptığı gözlenmiştir.

Özet (Çeviri)

This study introduces an algorithm, which selects important observations and variables to estimate SVR models for very large data sets. In this two-stage methodology, namely the Row and Column Selection Algorithm, ?-SVR models with L1-norm regularization are used both for selecting rows and columns. The first stage penalizes support vector weights to identify few support vectors as important points to include in the training data set. These support vectors are then used in the second stage to select the variable subset to be kept in the training data by penalizing the variable weights. The accuracy of holdout test set of the RBF-SVR models trained on this set including selected rows with all variables is significantly better than the accuracy of the same model trained on the benchmark which is the randomly sampled data set of the same size with all variables and SVMTorch.The contribution of this thesis is the development of an algorithm which facilitates estimating SVR models with very large data sets which are accurate and low complexity. By using the proposed algorithm, it is possible to select the important observations and variables and use them for estimation. The experimental results validate that the resulting training data set works effectively and reduces the number of variables dramatically while improving the generalization error of the RBF-SVR models in the presence of redundant variables. Furthermore, we investigate how the selected points differ from others by analyzing their distribution with respect to their distance from the prediction line, target values and the input variables of data set. This analysis demonstrates that L1-norm ?-SVR provides much more sparse solution than standard ?-SVR. Further the observations with extreme target values are more likely to be selected than average observations. Interestingly, in contrast to standard?-SVR, the L1-norm ?-SVR support vectors can be located both inside and outside the ?-tube. Moreover, low multi-collinearity between selected columns gives face validity variable selection procedure of our algorithm, namely second part of the proposed algorithm. Lastly, we identify which points are selected with respect to variables' values. The result of this analysis indicates that the row and column selection algorithm select observations based on background knowledge.

Benzer Tezler

  1. FPGA üzerinde 5G uyumlu düşük yoğunluklu eşlik denetim kod çözücü gerçeklenmesi

    Implementation of 5G compatible low density parity check decoder on FPGA

    BARIŞ BİLGİLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. SIDDIKA BERNA ÖRS YALÇIN

    PROF. DR. ALİ EMRE PUSANE

  2. Advanced circuit architectures for readout electronics of low-cost microbolometer focal plane arrays

    Düşük maliyetli mikrobolometre odak düzlem matrislerinin okuma elektroniği için ileri seviye devre mimarileri

    MUSTAFA HALUK ÇÖLOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. TAYFUN AKIN

  3. Security level classification for confidential documents by using adaptive neuro-fuzzy inference systems

    Gizli dokümanların uyumsal nöron-bulanık çıkarım sistemleri yardımıyla güvenlik derecelerinin sınıflandırılması

    ERDEM ALPARSLAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ADEM KARAHOCA

  4. Görüntü işleme tekniklerini kullanarak optik işaret tanıma sistemi

    Optical signal recognition system using image processing techniques

    ASMAEIL AMMARAH ABDULLAH BALQ

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKastamonu Üniversitesi

    Genetik ve Biyomühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YASEMİN GÜLTEPE

  5. Makine öğrenmesi yöntemleri kullanılarak üç boyutlu nokta bulutlarının sınıflandırılması

    Classification of three-dimensional point cloud via machine learning methods

    KORAY AKSU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. HANDE DEMİREL