Geri Dön

New technique for high dimensional data : robust linear regression using L1-penalized mm-estimation

Büyük boyutlu verıler ıçın yenı bır teknık: L1–cezalı doğrusal robust mm-tahnıncısı

  1. Tez No: 406556
  2. Yazar: KAMAL S.A. DARWISH
  3. Danışmanlar: PROF. DR. ALİ HAKAN BÜYÜKLÜ
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 118

Özet

Son yıllarda büyük veriler çerçevesinde kullanılan p tahmin edicinin (açıklayıcı değişkenli) n gözlem sayısından daha fazla olma durumunda olan modeller oldukça popüler oldular.Bu veri setleri iyi tahmin edilmiş modeller için iyi birer rekabet ortamı oluşturmaktadırlar. Bununla birlikte, veri setlerinde belirli miktarda sapan değerlerin mevcudiyeti ve dahi bazı veri setini bozucu (kontaminasyonlar) unsurların varlığı doğrusal lineer modellerin çözümünü zorlaştırmaktadırlar. Bu durumlarda model çözümleri için metodların seyrek ve robust (dayanıklı) olması istenir. Bu tezde, yeni bir tahmin metodu olarak MM tahmincisi ve L1- Penalized MM tahmincisi( MM-Lasso) kullanıldı. İleri sürülen tahmin edici, başlangıç tahmin edicisi olarak sparse LTS tahmin edicisi ile M tahmin edicilerini cezalandırarak seyrek model tahminlerini yüksek bozucu değerleri de kapsayarak iyi tahminler vermesi sağlandı. MM-Lasso C programlama dili ile yazıldı ve R paketi içerisinden de çalıştırılabilir özellik kazandırıldı. İleri sürdüğümüz modeli değerlendirmek için mevcut SimFrame R paketini geliştirdik, bu da istatistiksel olarak simülasyon çalışmaları için bir çerçeve oluşturdu. Üç değişik model geliştirilerek düşük, orta ve büyük boyutlu veriler eldeedildi. Aynı zamanda simülasyon çalışmaları çerçevesinde Kirlenmiş veri oluşturabilmek için fonksiyon geliştirildi. Kaldıraç verilerinin varlığı halinde yapılan incelemelerde MM-Lasso tahmin edicisinin diğer rakiplerinden daha iyi bir performans sergilediği görülmektedir.

Özet (Çeviri)

Large datasets, where the number of predictors p is larger than the sample sizes n, have become very popular in recent years. These datasets pose great challenges for building a linear good prediction model. In addition, when dataset contains a fraction of outliers and other contaminations, linear regression becomes a difficult problem. Therefore, we need methods that are sparse and robust at the same time. In this thesis, we employed the approach of MM estimation and proposed L1-Penalized MM-estimation (MM-Lasso) as a new estimation method. Our proposed estimator uses sparse LTS estimator as initial estimator to compute penalized M-estimator getting sparse modeli estimation with high breakdown value and good prediction. We implemented MM-Lasso by using C programming language and calling it from R package. To evaluate our proposed estimator, we extended the SimFrame R package, which is a general framework for simulation studies in statistics. We generated three data models to represent low, moderate and high dimensional data. We also implemented the function for generating the data for the contamination. Simulation study shows that the MM-lasso estimation has better prediction performance than its competitors in the presence of leverage points.

Benzer Tezler

  1. A new contribution to nonlinear robust regression and classification with MARS and its applications to data mining for quality control in manufacturing

    Doğrusal olmayan sağlam regresyon ve sınıflandırmaya MARS ile yeni bir katkı ve bu katkının endüstride kalite kontrolü amaçlı veri madenciliği uygulamaları

    FATMA YERLİKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilim ve TeknolojiOrta Doğu Teknik Üniversitesi

    Bilimsel Hesaplama Ana Bilim Dalı

    DOÇ. DR. İNCİ BATMAZ

    PROF. DR. GERHARD WİLHELM WEBER

  2. Machine learning assisted force field development for nucleic acids

    Nükleik asitler için makine öğrenimi destekli kuvvet alanı geliştirilmesi

    GÖZDE İNİŞ DEMİR

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    PROF. DR. ADEM TEKİN

  3. Seyreklik ve sözlük öğrenme yaklaşımlarının sınıflandırma ve yüz tanımaya uygulanması

    Classification and face recognition application of sparsity and dictionary learning based methods

    BERNA AZİZOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ENDER METE EKŞİOĞLU

  4. İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

    Variant analysis in human gene networks using surrogate modelling and machine learning

    FURKAN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  5. Cloud based veins recognition and authentication using CNN

    CNN kullanarak bulut tabanlı damar tanıma ve doğrulama

    NATEK MOHAMMED SAKRAN SAKRAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SEDA ŞAHİN