Geri Dön

Scalable Monte Carlo Inference in Regression Models with Missing Data

EKSİK VERİ İÇEREN REGRESYON MODELLERİ İÇİN ÖLÇEKLENEBİLİR MONTE CARLO ÇIKARIMI

  1. Tez No: 507366
  2. Yazar: DİDEM KOÇHAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SİNAN YILDIRIM, PROF. DR. ŞEVKET İLKER BİRBİL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 73

Özet

Markov zinciri Monte Carlo (MCMC) ve Stokastik Gradient Langevin Dinamikleri (SGLD) algoritmaları bu tez için bir temel oluşturmaktadır. Bu yöntemler, eksik veri içeren ve geniş ölçekli veri setlerinin ele alınması için ayrıntılı olarak incelenip, bir araya getirilmiştir. Büyük ölçekli veri setlerinde eksik verilerle regresyonun performansını iyileştirmek için Metropolis-Hastings ve SGLD temelli iki yeni algoritma geliştirilmiştir. Eksik kısımlar içeren büyük veri setleri için SGLD algoritması önerilmiştir. Bu yöntemde, veri setinin rastgele seçilmiş bir alt kümesi kullanılarak, bilinmeyen parametrelerin logaritmik olasılık türevlerinin yaklaşık değerleri hesaplanmaktadır. Bu yaklaşımlar hesaplanırken, veri içerisindeki eksik bileşenler MH adımları ile tahmin edilmiştir. Bu metotlar, parametre tahminleri üretebilmek için lojistik regresyon modelleri üzerine uygulanmıştır. Algoritmalar, eksik değişkenler içeren iki farklı veri seti üzerinde denenmiş ve performansları karşılaştırılmıştır. İlk veri seti yapay bir şekilde lojistik regresyon modelinden üretilmiş olup, değişkenler normal dağılımdan gelmektedir, öte yandan ikinci veri seti gerçek ve kategorik bir veridir.

Özet (Çeviri)

Markov chain Monte Carlo (MCMC) and Stochastic Gradient Langevin Dynamics (SGLD) algorithms comprise a basis for this thesis. These methods are studied in detail and combined for handling incomplete and large datasets. Two algorithms, which are based on Metropolis-Hastings (MH) and SGLD, are proposed to improve the performance of regression with missing data. We introduce an SGLD algorithm for large datasets with missing portions. The algorithm approximates the gradient of the log-likelihood of a subset of the data with respect to the unknown parameter by using samples for missing components obtained with MH moves. We implemented these methods for a logistic regression model to obtain parameter estimations. We worked with two different datasets with missing features and compared their performances. The first dataset is artificially generated from a logistic regression model where the features are normally distributed, whereas the second dataset is a real categorical data.

Benzer Tezler

  1. Scientific machine learning supported track-to-track fusion

    Bilimsel makine öğrenmesi destekli takip bilgisi füzyonu

    RECEP AYZİT

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BARIŞ BAŞPINAR

  2. Decentralized estimation under communication constraints

    İletişim kısıtları altında dağıtık kestirim

    MURAT ÜNEY

    Doktora

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. KEMAL LEBLEBİCİOĞLU

    YRD. DOÇ. DR. MÜJDAT ÇETİN

  3. A high throughput FPGA implementation of Markov chain Monte Carlo method for mixture models

    Karışım modelleri için Markov zincirli Monte Carlo yönteminin yüksek işlem hacimli FPGA uygulaması

    CANER BOZGAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. İLKAY ULUSOY

  4. Fast high-dimensional temporal point processes with applications

    Hızlı yüksek boyutlu zamansal nokta süreçleri ve uygulamaları

    ALİ CANER TÜRKMEN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ TAYLAN CEMGİL

  5. Envanter tahsisinde arz ve talebin dengelenmesindeki farklı stratejilere yönelik stokastik model yaklaşımı

    Stochastic model approach to different strategies for balancing supply and demand in iventory allocation

    FURKAN KEMAL DİNÇER

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Mühendislik BilimleriSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SAFİYE SENCER