Using co-training to empower active learning

Aktif öğrenmeyi güçlendirmek için eş-öğrenme kullanılması

PDF İndir

Tez No: 485232
Yazar: PAYAM VAKILZADEH AZAD
Danışmanlar: YRD. DOÇ. DR. YUSUF YASLAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2017
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 61

Özet

Son günlerde, yüksek miktarlarda veri eri¸silebilir hale gelmi¸stir, fakat bunların çok küçük bir kısmı sınıflandırılmı¸s ve etiketlenmi¸stir. Ayrıca, bu yüksek miktardaki veriden bilginin çıkarılması ise oldukça önemlidir. Etiketli ve etiketsiz verinin her ikisinden de faydalanarak etiketleme prosedürünü geli¸stiren bir grup makine ö˘grenmesi algoritması Yarı-Denetimli Ö˘grenme olarak adlandırılmaktadır. Yarı-denetimli ö˘grenme yöntemlerinde, nadir bulunabilen etiketli örnekler üzerinden bir model e˘gitilir ve daha sonra bu model çokça bulunabilen etiketsiz verilerden faydalanarak geni¸sletilir ve iyile¸stirilir. Aktif Ö˘grenme ve E¸s E˘gitim ise üzerine sayısız ve yo˘gun ara¸stırmalar yapılan Denetimli Ö˘grenme algoritmalarından önde gelen iki yöntemdir. Aktif Ö˘grenme ve E¸s-ö˘grenme, bilinen yarı denetimli ö˘grenme yöntemlerindendir ve literatürde bu konular üzerinde çok sayıda çalı¸sma yapılmı¸stır. Ayrıca her iki yöntemi birlikte kullanan farklı ara¸stırmalar da literatürde yer almaktadır. Bu çalı¸smada, bu iki yöntem, iki farklı mimaride birle¸stirelek, Aktif Ö˘grenme ve E¸s-ö˘grenmein en ba¸sarılı uygulamalarından biri olan SSLCA yöntemi ile kar¸sıla¸stırılmı¸stır. Bu çalı¸sma için yeniden geli¸stirilen SSLCA yöntemiyle pek çok farklı senaryoda test edilmi¸s, ba¸sarıları de˘gerlendirilmi¸stir. Aktif Ö˘grenmeyi gerçekle¸stirirken E¸s-ö˘grenmenin de dahil edilmesi ile, üç farklı ¸sekilde yöntemler kar¸sıla¸stırılmı¸stır: 1) mimariye dayalı 2) bölümleme yöntemine dayalı 3) algoritmaya dayalı. Bu çalı¸smadaki temel fikir az sayıda etiketli veri ve çok sayıda etiketsiz verinin bulundu˘gu problemlerde, etiketsiz veri içerisinden ba¸sarımı arttırabilecek örneklerin seçimidir. Yarı-denetime tabi olan bu tür etiketleme sorununa E¸s-ö˘grenme ve aktif ö˘grenmenin birle¸stirilmesiyle çözüm üretilmeye çalı¸sılmı¸stır. Klasik E¸s-ö˘grenme yakla¸sımlarının aksine, tekli görünümlü veri kümeleri üzerinde çalı¸sılmı¸stır. Önerilen yakla¸sım Beklenen Hata Azaltma veya Varyans Azaltma gibi birçok aktif ö˘grenme yakla¸sımlarının aksine, yo˘gun hesaplama ve i¸slem gücü gerektirmemektedir. Belirtilen problemlerdeki ba¸samın incelenmesi için, bu çalı¸smada önerilen E¸s-ö˘grenmeyle Zenginle¸stirilmi¸s Aktif Ö˘grenme (Co-training Enhanced Active Learning - CEAL), daha önceki çalı¸smalarda ba¸sarılı oldu˘gu gösterilen CoActive ve SSLCA olmak üzere üç farklı yöntem kullanılmı¸stır. SSLCA yakın zamanda önerilmi¸s yarı denetimli ö˘grenme problemleri için ba¸sarılı bir algoritma oldu˘gu için bu çalı¸sma referans algoritma olarak kullanılmı¸stır. CoActive yöntemi çalı¸smada hedeflenen tekli görünümlü veri kümeleri üzerinde uygulanamadı˘gı için, bu yöntem de˘gi¸stirilerek probleme uygulanmı¸stır. E¸s-ö˘grenme do˘gası gere˘gi çok görünümlü veri kümeleri ile çalı¸smaya uygundur. Çalı¸smada kullanılan veri kümeleri ise tekli görünümlü oldu˘gundan dolayı bunların iki görünüme ayırılması gerekmektedir. Bu nedenle öncelikle, tekli görünümlü veri kümesi (etiketsiz ve etiketli kümeler), ö˘grenmeye katkılarına dayanarak iki ba˘gımsız öznitelik kümesine ayrılmı¸stır. Ö˘grenme kümesindeki her bir özelli˘gin sahip oldu˘gu bilgi, Bilgi Kazancı (Information Gain), Chi-square, ANOVA ve ReliefF olmak üzere dört farklı metrik ile ölçülmü¸stür. Bilgi kazançları bilgi teorisine dayalı bir yöntemdir. Esas olarak, karar a˘gaçlarının (decision tree) özelliklerini inceleyerek a˘gaç olu¸sumu sırasında dallarda bulunacak öznitelik seçimi için kullanılır. Her bir özelli˘gin ta¸sıdı˘gı bilgi miktarı, sistemin entropisinde neden olaca˘gı de˘gi¸sim oranı ile ilgilidir. Di˘ger yöntemler, Chi-Square (c2) ve ANOVA, öznitelik seçimi için kullanılan yöntemlerdir ve her bir öznitelik ile etiketin arasındaki ili¸skiye dayanarak çalı¸smaktadır. Chi-Square, öznitelik ve etiketler arasındaki ba˘gımlılı˘gı hesaplar, ANOVA ise öznitelikler ve etiketler arasındaki kovaryansı hesaplar. Veri kümelerini bölmek için kullandı˘gımız son yöntem ise di˘ger bir öznitelik seçimi yöntemi olan Relief algoritmasının güncellenmi¸s bir versiyonu olan ReliefF'tir. Bu algoritma yinelemeli bir algoritma olup, özniteliklere a˘gırlık vermekte ve her adımda rastgele seçilen bir örne˘ge en yakın aynı etiketli ve en yakın farklı etiketli örnekleri kullanarak a˘gırlık vektörünü güncellemektedir. Bu metriklerle yapılan ölçümler sonucunda, ö˘grenmeye etkilerine göre öznitelikler her iki kümeye de e¸s oranda da˘gıtılmaya çalı¸sılmı¸stır. Bir di˘ger deyi¸sle, her iki kümenin de e¸sit bir ¸sekilde bilgiye ve güce sahip olması amaçlanmı¸stır. Daha sonra, Gaussian Naive Bayes, K-Nearest Neighbor, Karar A˘gacı, Random Forest ve Çok Katmanlı Algılayıcı (Sinir A˘gı) olmak üzere, bu etiketli görünümler üzerinde çe¸sitli ö˘grenme algoritmaları e˘gitilmi¸stir. Bu algoritmalar tarafından e˘gitilen modeller kullanılarak, etiketlenmemi¸s örneklerin her bir sınıf için o sınıfına ait olma ihtimali bulunmu¸stur. Bu noktadan itibaren üç yöntem birbirlerinden ayrılmaktadır. SSLCA tekrarlayan bir algoritma olup; öncelikli olarak etiketli veri kümesi üzerinde sınıflandırıcı e˘giterek etiketsiz veri üzerindeki en belirsiz ve en çok emin olunan örnekleri bulmaya çalı¸sır. En belirsiz örne˘gi aktif ö˘grenme prosedürüne gönderir ve en emin olunan örne˘gi ise birlikte e˘gitim prosedürüne gönderir. Bu iki algoritmadan gelen yeni verileri etiketli veri kümesine katarak sınıflandırıcıyı günceller. Di˘ger bir yöntem ise CoActive olup; etiketsiz veri kümesi içerisinden örnekler sınıf sayısı kadar demet olu¸sturularak bulunur. Demetler iki farklı sınıflandırıcının kararlarının uyu¸smadı˘gı örnekler üzerinde olu¸sturulur. Her bir demetin medyanına en yakın üye seçilerek etiketlenir ve e˘gitim kümesine katılır. Bu çalı¸smada önerilen CEAL algoritması ise, etiketsiz veri kümesi içerisinde en çok bilgi içeren örnekleri bulmak için bir katkı de˘geri kullanır ve en yüksek katkı de˘gerine sahip etiketsiz veriyi aktif ö˘grenme için etiketleyiciye gönderir. Test sonuçları farklı makine ö˘grenme algoritmaları kullanılarak elde edilmi¸stir. Çalı¸smaya referans olan algoritma, olasılıkları do˘grudan veren, üretken istatistiksel bir model olan Gaussian Naive Bayes'tir. Gaussian Naive Bayes, makine ö˘grenmesi algoritmaları arasında güçlü bir algoritma olarak anılmamaktadır. Bu yüzden Karar A˘gacı, Random Forest ve Çok Katmanlı Perceptron gibi daha güçlü algoritmalar da test edilmi¸stir. Karar A˘gacı ve Random Forest algoritmalarının çıktırlarında bir sınıfa dahil olma olasılık de˘gerlerini elde edebilmek için bu algoritmalar regresyon yapılarak sonuçlar olasılık de˘gerine çevrilmi¸stir. Sinir a˘glarında ise, her sınıfa dahil olma olasılıklarını elde edebilmek için benzer bir kalibrasyon kullanılmı¸stır. Yöntemler üzerindeki ilk kar¸sıla¸stırma, mimari farkı üzerinde yapılmı¸stır. Çalı¸smada referans alınan mimari, Aktif Ö˘grenme ve E¸s-ö˘grenme i¸slevlerini birbirine paralel olarak uygulayan SSLCA'dır ve her yinelemede her ikisini birden kullanmaktadır. Önerilen mimariler ise CEAL ve modifiye edilen CoActive adlı yönteme ait mimarilerdir. CEAL'de sıralı Aktif Ö˘grenme ve E¸s-ö˘grenme kullanılmı¸stır. Fakat SSLCA'da oldu˘gu gibi e¸s-ö˘grenme ö˘grenme sürecinde de˘gil, en iyi sorguyu bulmak için kullanılmı¸stır. CoActive'de ise, etiketlenmemi¸s veri kümeleri arasında en iyi sorguyu bulmak için benzer yöntemler kullanılmı¸s, ancak kümeleme yapılmı¸stır. Di˘ger kar¸sıla¸stırma, bölümleme algoritmalarına dayanarak yapılmı¸stır. E¸s-ö˘grenme, veri kümelerinin özünde iki ba˘gımsız ve kendine yeterli görünüme ayrıldı˘gı varsayımına dayanılarak yürütülmektedir. Dolayısıyla özellikleri iki alt kümeye bölmek amacıyla, en bilgilendirici örnekleri elde etmek ve özniteliklerin alt bölümlere oldukça adil da˘gılmasını sa˘glamak için Bilgi Kazancı, Chi-Square, ANOVA ve ReliefF özellik seçme yöntemleri kullanılmı¸stır ve kar¸sıla¸stırılmı¸stır. Deney sonuçları göstermektedir ki, ço˘gu test ko¸sulunda CEAL di˘ger yöntemlerden üstün gelmektedir ve en iyi bölümleme yöntemi ise az bir fark ile Bilgi Kazancı yöntemidir.

Özet (Çeviri)

A huge amount of data is currently available and it is crucial to extract knowledge using this huge amount of data. However, only small portion of this data is classified and labeled as knowledge. Machine learning algorithms are often used to extract knowledge from these datasets; a family of machine learning algorithms that exploit both labeled and unlabeled data to enhance the labeling procedure is called Semi-Supervised Learning. In semi-supervised methods we develop a model, based on scarce labeled instances then, try to expand and improve it using abundant unlabeled instances. Active Learning and Co-training are two prominent members of Semi-Supervised Learning algorithms on which there has been an extensive amount of research. Co-training is the process of learning labels for unlabeled instances from multiple-view datasets. Co-training learns two different classifiers for two different feature views, then, unlabeled instances are labeled when two classifiers are asserted on the class label of an instance. Some of these labeled instances are selected and added to the training set to enhance the learning model. This process is repeated until termination criteria are reached or a classification accuracy is achieved. Meanwhile, Active Learning is a procedure that uses limited human annotator (oracle) knowledge to improve the models. In these algorithms, a plain model is first trained using a small labeled dataset, then some informative unlabeled instances are iteratively selected and labeled by an oracle to improve the model. The most important challenge at this stage is to find the instances which will make optimal improvement over the whole model by knowing their labels. The proposed algorithms in this thesis use Co-training techniques to detect the optimal queries for Active Learning. However, two challenges arise here. Since Co-training uses two independent feature views, first is a need to split feature sets into two different feature views. The second challenge is to select instances to query from oracle using Co-training results. Co-training works based on assumption of having two or more independent and sufficient views. This means that each view of the dataset should be sufficient to train a model and they should be independent from each other. These assumptions are customarily inconceivable for typical single view datasets. Therefore, the best practice to achieve these assumptions is to split the single feature view into two sets of feature views that have the closest amount of information as much as possible. The amount of information is calculated using four methods that are primarily used for feature selection. Previously, the Semi-Supervised Learning combining Co-training with Active Learning (SSLCA) algorithm is only applied Information Gain to attain different feature views. In this thesis, Chi-Square, Analysis of Variance (ANOVA) and ReliefF algorithms are applied for this purpose in addition to Information Gain. For selecting instances from unlabeled dataset to query labels, two approaches are used. First is to calculate the contribution of the instances based on each instance and its neighbors' uncertainty. Second is to use unsupervised learning and clustering uncertain instances to find the best candidate instances for querying. These two approaches form our proposed methods, namely Co-training Enhanced Active Learning (CEAL) and Co-Active Learning. Co-Active Learning was also recently proposed and applied to two feature views. We have extended that algorithm by applying feature splitting so that it can be used in single feature view datasets. Experimental results are conducted over eight benchmark datasets provided by (University of California, Irvine) UCI Machine Learning Repository. These datasets are very common datasets at machine learning research which have been referred and used by hundreds of research. For training models five machine learning algorithms from different types of algorithms have been used. From statistical methods Gaussian Naive Bayes is used that is a generative algorithm. From tree based algorithms Decision Tree and Random Forest have been used. From Neural Networks, Multilayer Perceptrons and from neighborhood based methods K-Nearest Neighbor have been employed. Gaussian Naive Bayes gave us direct statistical certainties and is an iterative fast algorithm. Multilayer Perceptron also provide certainties at a layer before the last layer (softmax). However, other algorithms have been implemented in regression form and by calibrating regression results to be in the range of 0-1 certainty has been inferred. Several tests are performed to compare partitioning methods, query selection strategies and machine learning methods. Classification accuracies are compared with our implementation of SSLCA, Active Learning and Co-training as baseline algorithms. Experimental results show that in most cases CEAL surpass other methods and the best partitioning method was Information Gain with a very slight margin.

Benzer Tezler

Tez No
956406
Dikkat eksikliği ve hiperaktivite bozukluğu olan çocukların el yazılarının görüntü işleme teknikleri ile analizi
Analysis of handwriting of children with attention deficit hyperactivity disorder using image processing techniques
ÖZLEM YILDIZ BUDAK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED FATİH ADAK
Tez No
350678
Ağ verisi üzerinde ilgili ve rastgele alt uzaylar seçerek birlikte öğrenme
Relevant and random subspaces for co-training in networked data
KADRİYE BAĞLIOĞLU
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE
Tez No
445038
Sleep stage classification using disagreement based co-active learning
Anlaşmazlık tabanlı öğrenme ile uyku evrelerinin sınıflandırılması
AYŞE BETÜL YÜCE
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YUSUF YASLAN
Tez No
315403
Supervised and semi-supervised learning using informative feature subspaces
Bilgi içeren öznitelik alt uzayları ile eğitmenli ve yarı eğitmenli öğrenme
YUSUF YASLAN
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE
Tez No
489395
Co-training using prosodic, lexical and morphological information for automatic sentence segmentation of Turkish spoken language
Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan eş-eğitim ile Türkçe konuşma dilinin otomatik cümle bölütlemesi
DOĞAN DALVA
Doktora
İngilizce
2018
Elektrik ve Elektronik Mühendisliği Işık Üniversitesi
Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT GÜZ
DOÇ. DR. HAKAN GÜRKAN

Geri Dön