Geri Dön

Biclustering using nonparametric Bayesian methods

Parametrik olmayan Bayesci yöntemlerle iki indis üzerinden öbekleme

  1. Tez No: 325526
  2. Yazar: SAFİYE ÇELİK
  3. Danışmanlar: YRD. DOÇ. DR. ALİ TAYLAN CEMGİL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Çok indis üzerinden veri öbekleme, olası birçok uygulaması dolayısıyla popüler bir araştırma alanıdır. Bir data matrisinin farklı indislerini aynı anda öbekleyebilmek için farklı yöntemler geliştirilmiştir. Bu yöntemlerin çoğu, ortaya çıkarılacak öbek sayısının öbekleme işleminden önce bilindiğini varsaymaktadır. Ancak gerçek hayat problemlerinde, öbekler ortaya çıkarılmadan önce öbek sayısı hakkında eldeki bilgi sınırlıdır. Buna karşılık parametrik olmayan yöntemler ise iki indis üzerinden öbekleme işlemi ile eş zamanlı olarak öbek sayısını öğrenmektedir. Bu tezde, iki adet parametrik olmayan iki indis üzerinden Bayesci öbekleme yöntemi tanıtılmaktadır. İlk yöntemde iki indisli verinin satır ve sütunları Dirichlet Süreci Karışım Modelleri ile modellenip eş zamanlı olarak öbeklenirken, ikinci yöntemde ise satır ve sütunlar veri üzerinde İzgesel Matris Ayrıştırması uygulandıktan sonra ayrı ayrı öbeklenmektedir. İki indis üzerinden öbekleme yöntemleri farklı veri grupları üzerinde test edilmektedir. Bu veri grupları, üretici bir Gauss modeli ile oluşturulmuş simule bir veri grubu, çeşitli hayvanlar ve özelliklerini içeren bir veri grubu, ülkeler arası ticaret ve diplomasi ilişkilerini gösteren ve beş farklı ağdan oluşan bir veri grubu, ve akciğer kanseri üzerinde bir mikro cihaz çalışmasına ait biyolojik veri grubu olmak üzere dört tanedir. İki indisli verilerde gerçek öbekler genelde tanımsız olduğundan, algoritmaların öbekleme performanslarını değerlendirmek için bağlantı tahmini kullanılmaktadır. Veri noktalarının bir kısmı rastsal olarak seçilip kaldırılmakta, ve bu noktalar aynı öbekteki noktaların benzer olması gerektiği bilgisine dayanılarak tahmin edilmektedir. Tanıttığımız yöntemlerin ilkinde bilgi kaybı olmaksızın verinin tümü kullanıldığından ilk yöntem daha hassas sonuç vermektedir. Buna karşılık ikinci yöntemde veri noktası sayısı önsel olarak oldukça azaltıldığından ikinci yöntemin zaman ve bellek karmaşıklığı çok daha düşüktür.

Özet (Çeviri)

Multiway clustering is a popular analysis method due to its several potential applications. Various techniques have been developed to cluster different entities of a data matrix simultaneously by taking relational entries into account. Many of those techniques assume that the number of clusters to be discovered is known prior to the clustering operation. However, in real-world problems we have limited knowledge about the number of clusters before discovering them. Nonparametric methods, on the other hand, perform biclustering and learn the number of clusters concurrently. In this thesis, we introduce two nonparametric Bayesian biclustering methods that are applicable on two-way data. In the first method we model the rows and columns of the two-way data using Dirichlet Process Mixture Models and cluster them simultaneously, whereas in the second one we cluster the entities separately after applying spectral matrix decomposition on the data. We apply the biclustering algorithms on four different datasets; a simulated dataset created by a generative Gaussian model, a dataset of animals and their attributes, a cross-national trade and diplomacy dataset with five different relational networks, and a biological dataset from a microarray study of lung cancer. Since there are few real world data annotated with ground truth biclusters, we generally utilize link prediction in order to evaluate biclustering performances. We randomly remove data entries and predict them based on the fact that the entries in the same bicluster are similar to each other. First biclustering method results in higher accuracy since it makes use of all relational information in the data while the spectral method reduces dimensionality of the data prior to the clustering operation. On the other hand, computational complexity of spectral method is far less due to the reduction in the data entries to process.

Benzer Tezler

  1. Gene function inference from expression using probabilistic topic models

    Olasılıksal tema modelleri kullanarak gen ifadesinden işlev çıkarımı

    BAHAR TERCAN

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Tıp Bilişimi Ana Bilim Dalı

    YRD. DOÇ. DR. AYBAR CAN ACAR

  2. Comparing biclustering algorithms using data envelopment analysis to choose the best parameters

    İkili kümeleme algoritmalarının karşılaştırılmasında ve parametrelerinin seçiminde veri zarflama analizinin kullanımı

    AMMAR HOMAIDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. BÜLENT ALTUNKAYNAK

  3. Revealing temporal and functional relations in breast cancer expression profile using biclustering-based analysis

    İki boyutlu kümelemeye dayalı analizle göğüs kanseri ifade davranışındaki işlevsel ve zamansal ilişkilerin açığa çıkarılması

    GÜNEŞ GÜNDEM

    Yüksek Lisans

    İngilizce

    İngilizce

    2006

    BiyoistatistikKoç Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    YRD. DOÇ. DR. ÖZLEM KESKİN

    DOÇ. ATTİLA GÜRSOY

  4. Bayes ve bazı ikili kümeleme algoritmalarının zootekni verilerinde kullanımı

    Usage of bayesian and some biclustering algorithms in animal science data

    LÜTFİ BAYYURT

    Doktora

    Türkçe

    Türkçe

    2022

    BiyoistatistikOndokuz Mayıs Üniversitesi

    Zootekni Ana Bilim Dalı

    PROF. DR. HASAN ÖNDER

  5. Weighted bipartite crossing minimization applications on biclustering and graph unions

    Ağırlıklı ikili çizgelerin ayrıt kesışimleri azaltılmasının ikili kümeleme ve çizgelerin görselleştirmesi problemlerine uygulanması

    MELİH SÖZDİNLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. CESİM ERTEN