Geri Dön

Scalable Monte Carlo Inference in Regression Models with Missing Data

EKSİK VERİ İÇEREN REGRESYON MODELLERİ İÇİN ÖLÇEKLENEBİLİR MONTE CARLO ÇIKARIMI

  1. Tez No: 507366
  2. Yazar: DİDEM KOÇHAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SİNAN YILDIRIM, PROF. DR. ŞEVKET İLKER BİRBİL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 73

Özet

Markov zinciri Monte Carlo (MCMC) ve Stokastik Gradient Langevin Dinamikleri (SGLD) algoritmaları bu tez için bir temel oluşturmaktadır. Bu yöntemler, eksik veri içeren ve geniş ölçekli veri setlerinin ele alınması için ayrıntılı olarak incelenip, bir araya getirilmiştir. Büyük ölçekli veri setlerinde eksik verilerle regresyonun performansını iyileştirmek için Metropolis-Hastings ve SGLD temelli iki yeni algoritma geliştirilmiştir. Eksik kısımlar içeren büyük veri setleri için SGLD algoritması önerilmiştir. Bu yöntemde, veri setinin rastgele seçilmiş bir alt kümesi kullanılarak, bilinmeyen parametrelerin logaritmik olasılık türevlerinin yaklaşık değerleri hesaplanmaktadır. Bu yaklaşımlar hesaplanırken, veri içerisindeki eksik bileşenler MH adımları ile tahmin edilmiştir. Bu metotlar, parametre tahminleri üretebilmek için lojistik regresyon modelleri üzerine uygulanmıştır. Algoritmalar, eksik değişkenler içeren iki farklı veri seti üzerinde denenmiş ve performansları karşılaştırılmıştır. İlk veri seti yapay bir şekilde lojistik regresyon modelinden üretilmiş olup, değişkenler normal dağılımdan gelmektedir, öte yandan ikinci veri seti gerçek ve kategorik bir veridir.

Özet (Çeviri)

Markov chain Monte Carlo (MCMC) and Stochastic Gradient Langevin Dynamics (SGLD) algorithms comprise a basis for this thesis. These methods are studied in detail and combined for handling incomplete and large datasets. Two algorithms, which are based on Metropolis-Hastings (MH) and SGLD, are proposed to improve the performance of regression with missing data. We introduce an SGLD algorithm for large datasets with missing portions. The algorithm approximates the gradient of the log-likelihood of a subset of the data with respect to the unknown parameter by using samples for missing components obtained with MH moves. We implemented these methods for a logistic regression model to obtain parameter estimations. We worked with two different datasets with missing features and compared their performances. The first dataset is artificially generated from a logistic regression model where the features are normally distributed, whereas the second dataset is a real categorical data.

Benzer Tezler

  1. Decentralized estimation under communication constraints

    İletişim kısıtları altında dağıtık kestirim

    MURAT ÜNEY

    Doktora

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. KEMAL LEBLEBİCİOĞLU

    YRD. DOÇ. DR. MÜJDAT ÇETİN

  2. A high throughput FPGA implementation of Markov chain Monte Carlo method for mixture models

    Karışım modelleri için Markov zincirli Monte Carlo yönteminin yüksek işlem hacimli FPGA uygulaması

    CANER BOZGAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. İLKAY ULUSOY

  3. Fast high-dimensional temporal point processes with applications

    Hızlı yüksek boyutlu zamansal nokta süreçleri ve uygulamaları

    ALİ CANER TÜRKMEN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ TAYLAN CEMGİL

  4. Optimal selection of encoding configuration for scalable and multiple descriptionvideo coding

    Ölçeklenebilir ve çok betimlemeli video kodlama için kodlama düzenleşiminin eniyilemesi

    TENZİLE BERKİN ABANOZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET MURAT TEKALP

  5. Parameter optimization for mathematical modeling

    Matematiksel modelleme için parametre optimizasyonu

    MEHMET TUNÇEL

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET DURAN