Geri Dön

Softly semi-supervised learning for bioinformatics applications

Biyoenformatik uygulamaları için kesin etiketlenmemiş veriler ile yarı-gözetimli öğrenme

  1. Tez No: 355753
  2. Yazar: MELİS ÖZGÜR ÇETİNKAYA DEMİR
  3. Danışmanlar: YRD. DOÇ. DR. ARZUCAN ÖZGÜR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 113

Özet

Biyolojik verilerin ikili sınıflandırması hem Biyoenformatik hem de Makine Öğrenmesi alanları için önemli bir araştırma problemidir. Özellikle etiketlenmiş verilerin sayısı çok azsa, bu problem daha da zorlaşmaktadır. İkili sınıflandırma için kullanılan üç ana makine öğrenmesi yontemi bulunmaktadır: sadece etiketlenmiş verileri kullanan gözetimli öğrenme, sadece etiketlenmemiş verileri kullanan gözetimsiz öğrenme ve hem etiketlenmiş hem de etiketlenmemiş verileri kullanan yarı-gözetimli öğrenme. Bu çalışmada, k-NN (En Yakın k Komşu), Liner ve RBF (Radyal Temelli Fonksiyon) çekirdek fonksiyonları ile SVM (Destek Vektör Makinesi) algoritmalarını temel alan gözetimli öğrenme ve bizim geliştirdiğimiz çeşitli yarı-gözetimli öğrenme algoritmaları, iki farkli biyoenformatik verisi olan insan HIV-1 virüsü protein-protein etkileşimlerini öngörmek ve kolon kanseri tekrarlamasını öngörmek için karşılaştırılmıştır. Geleneksel yarı-gözetimli öğrenme yaklaşımlarından farklı olarak, belirli bir sınıfa ait olduğuna dair bulgular bulunan etiketlenmemiş verileri anlatan `kesin olarak etiketlenmemiş' veri kavramı ortaya atılmıştır. Geliştirdiğimiz algoritmaların davranışsal özelliklerini gözlemlemek adına bilindik bir optik sayı verisi üzerinde `5' ve `6' sayıları sınıflandırılmıştır. Bu veri kümesinde `kesin etiketlenmemiş veri' oluşturmak için etiketlenmiş verilere yapay gürültü eklenmiştir. Tüm veri kümelerinde kesin etiketlenmemiş veri kullanımının performans göstergelerini arttırdığı görülmüştür. Bu çalışmada geliştirilen yarı-gözetimli yöntemlerden SS-kNN (Yarı-gözetimli k-NN)'nin ve SS-SVM (Yarı-göze-timli SVM)'in diğer algoritmalara göre kolon kanseri verisi ve optik sayılar verisi için doğruluk ve insan HIV-1 protein-protein etkileşimi verisi için kesinlik-geri getirme eğrisinin altında kalan alan açısından daha iyi sonuç verdiği gözlemlenmiştir.

Özet (Çeviri)

Binary classification of biological data is an important research problem both in the Bioinformatics and Machine Learning fields. This problem is particularly challenging when the number of labeled instances is very few. There are three main machine learning approaches for classification: supervised methods, which only use labeled data, unsupervised methods, which only use unlabeled data, and semi-supervised methods, which use both labeled and unlabeled data. In this study, we compare the supervised and various developed semi-supervised methods which are based on k-NN (k Nearest Neighbor), SVM (Support Vector Machine) with linear kernel, and SVM with RBF (Radial Basis Function) kernel for two different Bioinformatics problems: predicting reccurrence in colorectal cancer from microarray data and predicting HIV-1-Human protein-protein interactions. As distinct from traditional semi-supervised learning approaches, we introduce the definition of `softly labeled' data that defines unlabeled data with additional information about their highly expected labels. We also evaluate our algorithms on a well-known optical digit dataset to classify the numbers `5' and `6' by generating synthetic noise and use as softly labeled data to better understand the behaviors of our algorithms. For all datasets, we concluded that softly labeled data are informative and enhances the evaluation results. Our semi-supervised methods SS-kNN (Semi-supervised kNN) and SS-SVM (Semi-supervised SVM) perform better than other algorithms in terms of accuracy for colorectal cancer and optical digit data, and area under the precision-recall curve for HIV-1-human protein-protein interaction data. Furthermore, in general, our semi-supervised methods achieve better performances than the supervised ones.

Benzer Tezler

  1. Toplumsal cinsiyet çerçevesinde kadın mağduriyeti

    Women victimization in the frame of gender

    ESRA SERDAR TEKELİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    SosyolojiPolis Akademisi

    Suç Araştırmaları Ana Bilim Dalı

    PROF. DR. HALİL İBRAHİM BAHAR

  2. İstanbul Art Nouveau mimarisinde dekoratif amaçlı demir malzeme kullanımı

    The Decorative use of iron in İstanbul Art Nouveau architecture

    PELİN AYKUT

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Mimarlıkİstanbul Teknik Üniversitesi

    Sanat Tarihi Ana Bilim Dalı

    PROF. DR. AFİFE BATUR

  3. The inclusive semileptonic decays of the B-meson in a CP softly broken two higgs doublet model

    CP zayıfça kırılan iki higgs dublet modelde inklusif yarıleptonik B-meson bozunmaları

    HİLAL ACAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Fizik ve Fizik MühendisliğiOrta Doğu Teknik Üniversitesi

    Fizik Ana Bilim Dalı

    DOÇ. DR. GÜRSEVİL TURAN

  4. Hierarchical mixtures of experts in generative adversarial networks

    Çekişmeli üretici ağlarda hiyerarşik üretici karışımları

    ALPER AHMETOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR