Geri Dön

Data discretization and Bayesian network modeling: A case study in R

Veriyi kesikli hale getirme ve Bayes ağ modellemesi: R'de bir vaka çalışması

  1. Tez No: 514490
  2. Yazar: GÜNAL BİLEK
  3. Danışmanlar: DOÇ. DR. FİLİZ KARAMAN
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 121

Özet

Bayes ağları, bir değişkenler dizisi üzerinde bir olasılık dağılımının grafiksel bir gösterimidir ve yönlendirilmiş asiklik grafiği (DAG) ve bir dizi olasılık dağılımından oluşur. Bu tezin amaçlarından birisi, Bayes ağları ve veri ayrıştırma teorilerini incelemek ve bu konular hakkında bilgi vermektir. İkinci amacı ise, sürekli değişkenler içeren veriyi, ayrıştırma yöntemi kullanarak kesikli hala getirmek ve kesikli Bayes ağları oluşturmaktır. Bir diğer amacı ise, veri ayrıştırmasında kullanılan iki yöntemin etkisinin Bayes ağlarının performansları üzerindeki etkilerini karşılaştırmaktır. Son amacı ise, Bayes ağ modellemesini kullanarak Beck Depresyon Ölçeği, Beck Umutsuzluk Ölçeği ve Rosenberg Benlik Saygısı Ölçeği puanları ile demografik ve sosyo-ekonomik değişkenler arasındaki ilişkinin boyutunun incelenmesidir. Bu çalışmadaki veri seti 823 üniversite öğrencisine ait 21 sürekli ve kesikli psikiyatrik, demografik ve sosyo-ekonomik değişkenden oluşmaktadır. \bigskip Sürekli değişkenler bilgi koruyan ayrıştırma yöntemi (IPD) ve literatürde ki bilgiyi kullanarak sınıflandırma olmak üzere iki farklı yöntemle kesikli hale getirilir. Bunun ardından, 2 farklı kesikli Bayes ağ modeli istatistiksel program R'de oluşturulur ve sonuçlar sayı ve grafiklerle verilir. Bu çalışmadaki önemli sonuçlardan bir tanesi, birinci modelde cinsiyetin öğrencilerin depresyon seviyeleri üzerinde önemli bir etkisinin olduğu ve kadın öğrencilerin daha yüksek depresyon seviyelerine sahip olma olasılığının daha yüksek olduğudur. İkinci modelde ise sosyal aktivite durumunun öğrencilerin depresyon seviyeleri üzerinde önemli bir etkisinin olduğudur. Ayrıca, her iki modelde de, depresyonun umutsuzluk seviyesi üzerinde pozitif, benlik saygısı üzerinde ise negatif etkisinin olduğu tespit edilmiştir. Buna ek olarak, iki Bayes ağ modeli performans açısından BIC ve özgüllük değerleri kullanılarak karşılaştırılmış ve verisi bilgi koruma yöntemi kullanılarak kesikli hale getirilen modelin performansının daha iyi olduğu sonucuna varılmıştır.

Özet (Çeviri)

Bayesian networks (BNs) are a graphical representation of a probability distribution over a set of variables. It comprises a directed acyclic graph (DAG) and a set of probability distributions. The first aim of this thesis is to review and introduce the BNs and data discretization. The second one is to illustrate how discrete BNs are constructed from the data which include continuous variables thorough discretization. The third one is to compare the effect of the two commonly-used data discretization approaches on the BNs. The last one is to study the relationships among the Beck Depression Inventory, Beck Hopelessness Scale, Rosenberg Self-Esteem Scale scores and demographic and socio-economic variables with BN modeling. The data of 823 university students consist of 21 continuous and discrete relevant psychiatric, demographic and socio-economic variables The continuous variables are discretized by using the Information-Preserving Discretization (IPD) and domain knowledge available in the literature and, consequently, two discrete BNs are learned from the data sets and constructed in statistical software R and the results are presented via figures and probabilities. One of the most significant results is that the structure of the two BNs does not significantly differ. The only difference is that in the first Bayesian network model, the gender of the students influences the level of depression, with female students being more likely to be more depressive, while in the second model, social activity directly influences the level of depression and the presence of social activity decreases the risk of being more depressive. Another important result is that in each model, depression influences both the level of hopelessness and self-esteem in students; additionally, the level of depression has a positive impact on the level of hopelessness, but a negative impact on the level of self-esteem. The last remarkable result is that, based on the BIC values and specificities of the two models, the BN whose continuous data were discretized by the IPD outperforms the BN whose data were discretized by the domain knowledge.

Benzer Tezler

  1. Important issues for brain connectivity modelling by discrete dynamic bayesian networks

    Dinamik bayesçi ağı ile yapılan beyin bağlantıları için önemli hususlar

    SALİH GEDUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. İLKAY ULUSOY

  2. Kurumsal kredilerin geri ödenmeme olasılığının tahminine yönelik Bayes ağı temelli bir erken uyarı modeli

    A Bayesian network based early warning model that estimates the probability of non-performing corporate credits

    YASEMİN BAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. UMUT ASAN

  3. Bayesian network based pathway analysis of high throughput biological data

    Yüksek çıktılı biyolojik verilerin bayes ağları kullanılarak patika düzleminde analizi

    MELİKE KORUCUOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ARZUCAN ÖZGÜR

    YRD. DOÇ. DR. HASAN HÜSEYİN OTU

  4. Anti-koronavirüs peptitlerinin protein kodlama yöntemleri ile tespiti

    Determination of anti-coronavirus peptides by protein coding methods

    HASİBE CANDAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT GÖK

  5. Sürekli veri setlerinin farklı ayrıklaştırma yöntemleri kullanılarak kural tabanlı sınıflandırma algoritmalarına uyarlanması ve karşılaştırılması

    Adaptation and comparison of continuous data sets to rule-based classification algorithms by using different discretization methods

    SANARYA SAMAL FAROOQ FAROOQ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT SELEK