Row and column selection algorithm for SVR model estimation on large scale business problems

Büyük veri setlerinde destek vektör regresyonu için sütun ve satır seçme yöntemi

PDF İndir

Tez No: 276945
Yazar: KÜBRA YAMAN
Danışmanlar: YRD. DOÇ. DR. ÖZDEN GÜR ALİ
Tez Türü: Yüksek Lisans
Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2010
Dil: İngilizce
Üniversite: Koç Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 73

Özet

Bu çalışmada çok büyük veri setleri için Destek Vektör Regresyon (DVR) modellinin kurulabilmesini mümkün kılmak için önemli nokta ve değişkenlerini seçen bir algoritma geliştirilmiştir. İki aşamalı bu yöntemde, yani satır ve sütun seçme algoritmasında, hem satır hem de sütun seçiminde L1-norm düzenlemeli ?-DVR modelleri kurulmuştur. İlk aşama, eğitim veri setinin destek vektörlerinin ağırlıklarını cezalandırarak veri setinin önemli noktalarından en az sayıda destek vektörlerini seçer ve bu seçilen noktaları yeni eğitim veri setine dahil eder. Seçilen bu destek vektörlerinden oluşturulan yeni eğitim veri seti daha sonra ikinci aşamada değişken ağırlıklarını cezalandırarak eğitim veri setinde tutulacak olan değişken alt küme seçiminde kullanılır. Seçilen satır ve tüm değişkenleri içeren eğitim veri seti ile çalıştırılıp kurulan Radyal Tabanli İşlev (RTI) çekirdekli DVR modellerinin test veri seti üzerindeki doğuluğu, karşılaştırma yapılan yani seçilen satır sayısı kadar satırla tüm değişkenleri içeren rassal örneklem veri setinden ve SVMTorch algoritması ile oluşturulan modellerden önemli ölçüde daha iyi olduğu gözlenmiştir.Bu tezin katkısı oldukça büyük veri setlerini kullanarak doğru ve düşük karmaşıklık içeren DVR modellerinin kurulmasını kolaylaştıran bir algoritma geliştirmesidir. Bu çalışmada önerilen algoritma veri setlerinin önemli gözlem ve değişkenlerini seçip ve onları tahmin modelinde kullanmayı mümkün kılmıştır. Deneysel sonuçlar satır ve sütun seçme algoritmasının etkili bir şekilde çalıştığını ve gereksiz değişkenlerin varlığında değişken sayısını önemli ölçüde azaltırken RTİ-DVR modellerinin genelleme hatasını iyileştirdiğini kanıtlamıştır. Bu çalışmada ayrıca seçilen noktaların diğerler noktalardan nasıl farklı olduğunu anlayabilmek için seçilen noktaların tahmin çizgisine olan uzaklıklarına, hedef değere ve veri kümesinin değişkenlerine göre nasıl dağıldıkları analiz edilmiştir. Yapılan analizler sonucunda, L1-normlu ı-DVR standart ?-DVR'a göre çok daha seyrek bir çözüm sunduğunu gözlenmiştir. Ayrıca L1-normlu ?-DVR'de uç noktalardaki hedef değerlere sahip olan gözlemlerin seçilmesi ortalama hedef değerlere sahip olan gözlemlerden daha olasıdır. Standart ?-DVR'nin aksine, L1-normlu ?-DVR algoritmasının destek vektörleri ı tüpünün içinde ve dışında olabilir. Bunlara ilaveten, seçilen sütunlar arasındaki düşük çoklu doğrusal bağıntı algoritmamızın ikinci kısmını oluşturan değişken seçimi prosedürünün doğru bir şekilde çalıştığını desteklemektedir. Son olarak, seçilen noktalarla değişken değerleri arasındaki ilişki incenlenmiş ve bu analizin sonucunda satır ve sütun seçme algoritmasının noktaları seçimini literatürdeki bazı ön bilgilere dayalı yaptığı gözlenmiştir.

Özet (Çeviri)

This study introduces an algorithm, which selects important observations and variables to estimate SVR models for very large data sets. In this two-stage methodology, namely the Row and Column Selection Algorithm, ?-SVR models with L1-norm regularization are used both for selecting rows and columns. The first stage penalizes support vector weights to identify few support vectors as important points to include in the training data set. These support vectors are then used in the second stage to select the variable subset to be kept in the training data by penalizing the variable weights. The accuracy of holdout test set of the RBF-SVR models trained on this set including selected rows with all variables is significantly better than the accuracy of the same model trained on the benchmark which is the randomly sampled data set of the same size with all variables and SVMTorch.The contribution of this thesis is the development of an algorithm which facilitates estimating SVR models with very large data sets which are accurate and low complexity. By using the proposed algorithm, it is possible to select the important observations and variables and use them for estimation. The experimental results validate that the resulting training data set works effectively and reduces the number of variables dramatically while improving the generalization error of the RBF-SVR models in the presence of redundant variables. Furthermore, we investigate how the selected points differ from others by analyzing their distribution with respect to their distance from the prediction line, target values and the input variables of data set. This analysis demonstrates that L1-norm ?-SVR provides much more sparse solution than standard ?-SVR. Further the observations with extreme target values are more likely to be selected than average observations. Interestingly, in contrast to standard?-SVR, the L1-norm ?-SVR support vectors can be located both inside and outside the ?-tube. Moreover, low multi-collinearity between selected columns gives face validity variable selection procedure of our algorithm, namely second part of the proposed algorithm. Lastly, we identify which points are selected with respect to variables' values. The result of this analysis indicates that the row and column selection algorithm select observations based on background knowledge.

Benzer Tezler

Tez No
762953
FPGA üzerinde 5G uyumlu düşük yoğunluklu eşlik denetim kod çözücü gerçeklenmesi
Implementation of 5G compatible low density parity check decoder on FPGA
BARIŞ BİLGİLİ
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. SIDDIKA BERNA ÖRS YALÇIN
PROF. DR. ALİ EMRE PUSANE
Tez No
474875
Advanced circuit architectures for readout electronics of low-cost microbolometer focal plane arrays
Düşük maliyetli mikrobolometre odak düzlem matrislerinin okuma elektroniği için ileri seviye devre mimarileri
MUSTAFA HALUK ÇÖLOĞLU
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik Mühendisliği Orta Doğu Teknik Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. TAYFUN AKIN
Tez No
968578
Intrusion detection system for IoT application based on supervised learning
Gözetimli öğrenmeye dayalı nesnelerin interneti uygulamaları için girişim tespit sistemi
SHARAFAL-DEEN ABDULKADHUM ABBAS OBAID
Doktora
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Altınbaş Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ABDULLAH ABDU İBRAHİM
Tez No
266464
Security level classification for confidential documents by using adaptive neuro-fuzzy inference systems
Gizli dokümanların uyumsal nöron-bulanık çıkarım sistemleri yardımıyla güvenlik derecelerinin sınıflandırılması
ERDEM ALPARSLAN
Yüksek Lisans
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ADEM KARAHOCA
Tez No
560773
Görüntü işleme tekniklerini kullanarak optik işaret tanıma sistemi
Optical signal recognition system using image processing techniques
ASMAEIL AMMARAH ABDULLAH BALQ
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kastamonu Üniversitesi
Genetik ve Biyomühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YASEMİN GÜLTEPE

Geri Dön