Geri Dön

Dissimilarity based multiple instance learning using dictionary ensembles

Sözlük toplulukları kullanılarak farklılık tabanlı çoklu örnek öğrenme

  1. Tez No: 450911
  2. Yazar: NAZANIN MOARREF
  3. Danışmanlar: YRD. DOÇ. DR. YUSUF YASLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 65

Özet

Çoklu Örnek Öğrenme, örüntü tanıma problemleri içerisinde karşılaşılan önemli problemlerden birisidir. Geleneksel makine öğrenmesi algoritmalarından ayrılan en önemli yanlarından birisi, geleneksel yöntemlerin öznitelik vektörü gösteriminden farklı bir gösterime sahip olmasıdır. Geleneksel makine öğrenmesi yöntemlerinde sınıflandırılacak veya demetlenecek nesnelere karşı bir öznitelik vektörü hesaplanmakta ve bu vektörler kullanılarak modeller oluşturulmaktadır. Bu modeller kullanılarak yeni veriler sınıflandırılmakta veya demetleme gerçekleştirilmektedir. Buna karşılık Çoklu Örnek Öğrenme problemlerinde her bir veri birden fazla örnek içeren bir torba ile gösterilmektedir. Problemi zorlaştıran durumlardan birisi de her bir torba içindeki örneklerin sayısının farklı olabilmesidir. Bu tür makine öğrenmesi problemleri teknolojinin gelişimi ile birlikte metin sınıflandırma, molekül aktivitelerinin belirlenmesi, görüntü kategorizasyonu, ses ve müzik türü sınıflandırması gibi birçok alanda karşımıza çıkmaktadır. Fakat bu alanların bazılarında verilerin gösterimi Çoklu Örnek Öğrenme problemine karşılık gelebilmektedir. Örneğin, görüntü sınıflandırma probleminde bir görüntü birden fazla örnek içerebilmektedir. Çoklu Örnek Öğrenme, ilk olarak molekül aktivitelerinin yapısını ögrenmek için önerilmiş ve metin sınıflandırma, proteinlerin bağlanma bölgelerinin tahmini gibi diğer farklı makine ögrenmesi problemlerinde de kullanılmaya başlanmıştır. Çoklu Örnek sınıflandırma problemlerinde çoğunlukla torbaların etiket bilgisi elimizde olabilmekte, buna karşı örnekelerin etiket bilgisi bulunmayabilmektedir. Torbaların sınıflandırılması örnekler ile ilişkilendirilmiştir. Bir torbanın pozitif olarak sınıflandırılabilmesi için içinde en az bir pozitif örnek olması yeterlidir. Diğer yandan torbanın negatif olarak sınıflandırılabilmesi için torba içindeki tüm örneklerin negatif olması gerekmektedir. Şimdiye kadar Çoklu Örnek Öğrenme için önerilen algoritmalar genel olarak torba ve örnek uzayında ayrı ayrı çalışacak şekilde tasarlanmışlardır. Birinci tipteki sınıflandırıcılar örnek uzayında çalışan sınıflandırıcılar olup torbaların sadece örneklerini göz önünde bulundurmaktadırlar. Bu sayede sınıflandırıcı, pozitif etiketli örnekleri ve negatif etiketli örnekleri kullanarak model oluşturmaktadır. Yeni gelecek verilerin örnekleri dikkate alınıp, yeni verilerin torbalarının etiket bilgisi belirlenmektedir. Bu yöntemin en önemli dezavantajı torbalar içerisindeki tüm örneklerin etiket bilgisini gerektirmesidir. Öte yandan bu yöntemde torbayı bir bütün olarak kullanıp öğrenme yapılmadıgı için torbanın genel yapısı öğrenilemez. Bu nedenle, torba uzayında sınıflandırıcı öğrenen yöntemler önerilmiştir. Bu yöntem, örnekleri teker teker değerlendirilmek yerine, torbayi örneklerle birlikte bir bütün olarak değerlendirmektedir. Bu yöntemde, torbalar örnekler kullanılarak tek bir öznitelik vektörü ile gösterilmekte veya yine örnekler kullanılarak torbalar arası benzerlik değerleri hesaplanabilmektedir. Bu yöntemde torbalar ikili olarak birbirleriyle karşılaştırılmakta ve sonuç olarak bir benzerlik değeri hesaplanabilmektedir.Bu çalışmada örnek ve torba uzayını birlikte göz önünde bulunduran, sözlük öğrenme yöntemlerini de kullanan farklılık tabanlı bir algoritma önerilmiştir. Bu yöntem, modeli oluşturulacak verilerin torbalarını ve torbaların içinde olan tüm örnekleri dikkate almaktadır. Yöntemde öncelikli olarak tüm eğitim kümesindeki torbalardan rastgele örnekler seçilmektedir. Bu seçilen örnekler prototip örnek olarak kabul edilmektedir. Bu prototip örnekler ile torbaların içindeki örnekler karşılaştırılmakta ve farklılık değerleri hesaplanmaktadır. Her bir prototip için en düşük farklılık o torbanın ilgili prototipe karşı düşen vektör değeri olarak yazılmaktadır. Bu sayede torbalar için sabit uzunluklu birer öznitelik vektörü çıkarılabilmektedir. Böylece, çalışmanın ilk aşamasında Çoklu Örnek Öğrenme problemi, eğiticili makine öğrenmesi problemine dönüştürülmüştür. Çoklu Örnek Ögrenme probleminde, veriyi uygun öznitelik vektörü gösterimine çevirmeye ek olarak başarılı sonuçlar elde edebilmek için iyi sınıflandırıcılara da ihtiyaç duyulmaktadır. Seyrek kodlama ve sözlük öğrenimi çoğunlukla sinyal işleme ve görüntü işleme alanlarında kullanılmış ve ayrıca sınıflandırıcı olarak da kullanılan başarılı bir yöntemdir. Bu yöntemde, veriler bir sözlüğün temel elemanlarının ayrık doğrusal birleşimi olarak temsil edilmektedir. Bu gösterim, verinin örüntüsünü ortaya çıkarıp veriyi daha yalın bir şekilde kullanmaktadır. Seyrek kodlama ve sözlük öğrenimi iki aşamada gerçekleştirilmektedir. Birinci adımda, seyrek kodlama gerçekleştirilmekte ve ikinci aşamada ise sözlük elemanları güncellenmektedir. Bu adımlar belirli bir hata değerine kadar iteratif olarak devam etmektedir. Bu aşamalarda seyrek kodlama ve sözlük matrisi yenilenmektedir ve her tekrarlamada, yeninden yapılandırma hatası azaltılmaktadır. Böylece en çok ayrık ve yalın gösteremine neden olan sözlük matrisi elde edilmektedir. Bu tez çalışmalasının ikinci aşaması olarak seyrek kodlama kullanılarak sözlük öğrenimi sınıflandırıcı yöntemi olarak kullanılmıştır. Seyrek kodlama ve sözlük öğrenimi aynı anda verinin üzerinde en bilgilendirici öznitelikleri seçip çıkartmaktadır. Her bir sınıf için ayrı birer sözlük matrisi oluşturulmaktadır. Bu sayede pozitif ve negatif torbalar için iki ayrı sözlük matrisi elde edilmiştir. Sınıflandırma aşamasında, etiketlenecek verinin her iki matris kullanılarak ayrık kodlaması gerçekleştirilmekte ve geri çatım hatası en küçük matris sınıf etiketini vermektedir. Bir çok makine ögrenmesi uygulamalarınında sınıflandırıcı toplulukları tek sınıflandırıcılara göre daha yüksek başarımlı sonuçlar üretebilmektedir. Sınıflandırıcı toplulukları birden fazla model oluşturup bu modellerin verdiği kararları birleştirmeye yarayan makine ögrenmesi yöntemleridir. Bu yöntemlere topluluk öğrenme algoritmaları da denilmektedir. Topluluk ögrenme algoritmaları hem örnek hem de öznitelik alt uzayları üzerinde uygulanabilir. Random subspace ve Bagging algoritmaları literatürde sıkça kullanılan topluluk öğrenme yöntemlerindendir. Random subspace algoritması öznitelik uzayında ve bagging algoritmalası da örnek uzayında veri alt kümeleri seçmektedir. Bu tez çalışmasının üçüncü aşaması olarak topluluk öğrenme özelliklerinden yaralanarak Random subspace ve bagging algoritmaları kullanılmıştır. Random subspace yöntemi, öznitelik uzayında çalışmakta olup sınıflandırıcı topluluğundaki her bir sınıflandırıcının kullanacağı öznitelik vektörleri rastgele seçilmektedir. Dolayısıyla topluluktaki her sınıflandırıcı için farklı öznitelik alt uzayları kullanılmaktadır. Karar aşamasında çoğunlukla çoğunluk kararı veya sonsal olasılık değeri kullanılabilmektedir.Bagging yöntemindeyse tüm öznitelik değerleri kullanılmaktadır. Buna karşın, topluluk içindeki her bir sınıflandırıcının kullanacağı veriler training kümesinden rastgele seçilen verilerden elde edilmektedir. Sınıflandırma aşamasında ise Random subspace yönteminde olduğu gibi tüm sınıflandırıcıların verdiği kararlar çoğunluk değerine veya sonsal olasılık değerine göre birleştirilmektedir. Bu tez çalışması kapsamında tüm topluluk yöntemlerinde sınıflandırıcı kararlarının birleştirilmesi için sonsal olasılık değerleri kullanılmıştır. Tez çalışması kapsamında önerilen yöntemler 11 farklı Çoklu Örnek Öğrenme verileri üzerinde test edilmiştir. Verilerin üçü görüntü kategorizasyonu, ikisi ilaç molekül aktivitelerinin sınıflandırılması ve kalan veriler ise metin sınıflandırma problemlerine aittir. Elde edilen sonuçlarsa, literatürde yakın zamanda önerilmiş Çoklu Örnek Öğrenme Yöntemiyle (DRS) karşılaştırılmıştır. Bu yöntemin en önemli farkı sınıflandırıcı olarak literatürde yüksek başarım verdiği gösterilmiş olan Destek Vektör Makinası algoritmasını kullanmasıdır. Elde edilen test sonuçlarına göre tez çalışması kapsamında önerilen yöntem sınıflandırma başarımını arttırmakta ve DRS yöntemine göre çok daha iyi sonuçlar vermektedir.

Özet (Çeviri)

Multiple Instance Learning (MIL) is one of important topics in the pattern recognition research field. It differs from many traditional machine learning problems in terms of real-world object representations. In MIL problems, samples are represented by multi-sets which are commonly named as bags where each bag include a set of feature vectors called instances. Many real world problems such as image, text or document classification, drug activity prediction and etc., can be formalized as MIL problems. Mostly, MIL problem, deals with supervised learning paradigm, which aims to learn models from the on hand samples and use it to solve regression or classification problems. Most of the cases, MIL problem is referred to binary classification where each bag has to be classified into one of the two categories;“positive”or“negative”. Many MIL algorithms are developed considering the assumption that a bag is positive if at least it has one positive instance. Although this assumption has good results in some domains such as drug activity predictions, it may be restrictive for other domains of MIL problems such as computer vision MIL problems can be solved using instance based, bag based or embedded space algorithms. In this thesis, embedded-based strategy has been applied which converts the MIL problem to a standard supervised learning. In this approach, instead of using the mentioned assumption which relates the instance labels to the bags' labels, the dissimilarity of bags to the selected training instances which are called prototypes are taken into consideration. This mapping makes the bags be represented by standard fixed sized feature vectors. Most of the time, this feature mapping may include lots of redundant and irrelevant features. In this work we use Dictionary Learning as a classifier, which generates the sparse representation of each signal and classify them simultaneously. Using dictionaries would result in more efficient, fewer noises, simple and sparse manner, which make signals have more global look. As a third Approach, Ensemble Learning technique is implemented. This algorithm, apply two mentioned methods in its strategy and combine their strength where leads to higher and more reliable classification performances. Random Subspace and Bagging are two strategy implemented as Ensemble Learning approach. The proposed algorithm is evaluated on 11 different MIL datasets and compared with a recently proposed dissimilarity based ensemble MIL algorithm that uses Support Vector Machines (SVM). Experimental results show that the proposed algorithm outperforms the counterpart algorithm that uses SVM.

Benzer Tezler

  1. Distance-based learning approaches for multiple instance learning

    Çoklu örnekle öğrenme problemleri için uzaklık tabanlı öğrenme yaklaşımları

    ÖZGÜR EMRE SİVRİKAYA

    Doktora

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiBoğaziçi Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN

  2. Learning based image and video editing

    Öğrenme temelli görüntü ve video düzenleme

    LEVENT KARACAN

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ERKUT ERDEM

  3. Türkiye'nin farklı bölgelerinden sağlanan susam (Sesamum indicum L.) populasyonlarının agro-morfolojik özellikler bakımından karşılaştırılması

    The assessment of genetic diversity of sesame (Sesamum indicum L.) populations supplied from different regions of Turkey based on agro-morphological traits

    AYNUR BİLMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    ZiraatDicle Üniversitesi

    Tarla Bitkileri Ana Bilim Dalı

    PROF. DR. TAHSİN SÖĞÜT

  4. Türkı̇ye'de ekonomı̇k yapı ve bölgesel dayanıklılık ı̇lı̇şkı̇sı̇

    The relationship between economic structure and regional resilience in Turkey exploring the link between economic structure and regional resilience in Turkey

    ABDURAHMAN MOLU

    Doktora

    Türkçe

    Türkçe

    2024

    CoğrafyaAnkara Üniversitesi

    Coğrafya Ana Bilim Dalı

    PROF. DR. MUTLU YILMAZ

  5. Multi-modal neuroimaging data prediction: Estimation of connectional brain template and multigraph classification with application to gender fingerprinting

    Çoklu modal nörogörüntüleme veri tahmini: Bağlantılı beyin şablonunun tahmini ve cinsiyet parmak izi uygulaması ile çoklu grafik sınıflandırma

    NADA CHAARI

    Doktora

    İngilizce

    İngilizce

    2021

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE CAMGÖZ AKDAĞ

    DR. ÖĞR. ÜYESİ ISLEM REKIK