Using co-training to empower active learning
Aktif öğrenmeyi güçlendirmek için eş-öğrenme kullanılması
- Tez No: 485232
- Danışmanlar: YRD. DOÇ. DR. YUSUF YASLAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 61
Özet
Son günlerde, yüksek miktarlarda veri eri¸silebilir hale gelmi¸stir, fakat bunların çok küçük bir kısmı sınıflandırılmı¸s ve etiketlenmi¸stir. Ayrıca, bu yüksek miktardaki veriden bilginin çıkarılması ise oldukça önemlidir. Etiketli ve etiketsiz verinin her ikisinden de faydalanarak etiketleme prosedürünü geli¸stiren bir grup makine ö˘grenmesi algoritması Yarı-Denetimli Ö˘grenme olarak adlandırılmaktadır. Yarı-denetimli ö˘grenme yöntemlerinde, nadir bulunabilen etiketli örnekler üzerinden bir model e˘gitilir ve daha sonra bu model çokça bulunabilen etiketsiz verilerden faydalanarak geni¸sletilir ve iyile¸stirilir. Aktif Ö˘grenme ve E¸s E˘gitim ise üzerine sayısız ve yo˘gun ara¸stırmalar yapılan Denetimli Ö˘grenme algoritmalarından önde gelen iki yöntemdir. Aktif Ö˘grenme ve E¸s-ö˘grenme, bilinen yarı denetimli ö˘grenme yöntemlerindendir ve literatürde bu konular üzerinde çok sayıda çalı¸sma yapılmı¸stır. Ayrıca her iki yöntemi birlikte kullanan farklı ara¸stırmalar da literatürde yer almaktadır. Bu çalı¸smada, bu iki yöntem, iki farklı mimaride birle¸stirelek, Aktif Ö˘grenme ve E¸s-ö˘grenmein en ba¸sarılı uygulamalarından biri olan SSLCA yöntemi ile kar¸sıla¸stırılmı¸stır. Bu çalı¸sma için yeniden geli¸stirilen SSLCA yöntemiyle pek çok farklı senaryoda test edilmi¸s, ba¸sarıları de˘gerlendirilmi¸stir. Aktif Ö˘grenmeyi gerçekle¸stirirken E¸s-ö˘grenmenin de dahil edilmesi ile, üç farklı ¸sekilde yöntemler kar¸sıla¸stırılmı¸stır: 1) mimariye dayalı 2) bölümleme yöntemine dayalı 3) algoritmaya dayalı. Bu çalı¸smadaki temel fikir az sayıda etiketli veri ve çok sayıda etiketsiz verinin bulundu˘gu problemlerde, etiketsiz veri içerisinden ba¸sarımı arttırabilecek örneklerin seçimidir. Yarı-denetime tabi olan bu tür etiketleme sorununa E¸s-ö˘grenme ve aktif ö˘grenmenin birle¸stirilmesiyle çözüm üretilmeye çalı¸sılmı¸stır. Klasik E¸s-ö˘grenme yakla¸sımlarının aksine, tekli görünümlü veri kümeleri üzerinde çalı¸sılmı¸stır. Önerilen yakla¸sım Beklenen Hata Azaltma veya Varyans Azaltma gibi birçok aktif ö˘grenme yakla¸sımlarının aksine, yo˘gun hesaplama ve i¸slem gücü gerektirmemektedir. Belirtilen problemlerdeki ba¸samın incelenmesi için, bu çalı¸smada önerilen E¸s-ö˘grenmeyle Zenginle¸stirilmi¸s Aktif Ö˘grenme (Co-training Enhanced Active Learning - CEAL), daha önceki çalı¸smalarda ba¸sarılı oldu˘gu gösterilen CoActive ve SSLCA olmak üzere üç farklı yöntem kullanılmı¸stır. SSLCA yakın zamanda önerilmi¸s yarı denetimli ö˘grenme problemleri için ba¸sarılı bir algoritma oldu˘gu için bu çalı¸sma referans algoritma olarak kullanılmı¸stır. CoActive yöntemi çalı¸smada hedeflenen tekli görünümlü veri kümeleri üzerinde uygulanamadı˘gı için, bu yöntem de˘gi¸stirilerek probleme uygulanmı¸stır. E¸s-ö˘grenme do˘gası gere˘gi çok görünümlü veri kümeleri ile çalı¸smaya uygundur. Çalı¸smada kullanılan veri kümeleri ise tekli görünümlü oldu˘gundan dolayı bunların iki görünüme ayırılması gerekmektedir. Bu nedenle öncelikle, tekli görünümlü veri kümesi (etiketsiz ve etiketli kümeler), ö˘grenmeye katkılarına dayanarak iki ba˘gımsız öznitelik kümesine ayrılmı¸stır. Ö˘grenme kümesindeki her bir özelli˘gin sahip oldu˘gu bilgi, Bilgi Kazancı (Information Gain), Chi-square, ANOVA ve ReliefF olmak üzere dört farklı metrik ile ölçülmü¸stür. Bilgi kazançları bilgi teorisine dayalı bir yöntemdir. Esas olarak, karar a˘gaçlarının (decision tree) özelliklerini inceleyerek a˘gaç olu¸sumu sırasında dallarda bulunacak öznitelik seçimi için kullanılır. Her bir özelli˘gin ta¸sıdı˘gı bilgi miktarı, sistemin entropisinde neden olaca˘gı de˘gi¸sim oranı ile ilgilidir. Di˘ger yöntemler, Chi-Square (c2) ve ANOVA, öznitelik seçimi için kullanılan yöntemlerdir ve her bir öznitelik ile etiketin arasındaki ili¸skiye dayanarak çalı¸smaktadır. Chi-Square, öznitelik ve etiketler arasındaki ba˘gımlılı˘gı hesaplar, ANOVA ise öznitelikler ve etiketler arasındaki kovaryansı hesaplar. Veri kümelerini bölmek için kullandı˘gımız son yöntem ise di˘ger bir öznitelik seçimi yöntemi olan Relief algoritmasının güncellenmi¸s bir versiyonu olan ReliefF'tir. Bu algoritma yinelemeli bir algoritma olup, özniteliklere a˘gırlık vermekte ve her adımda rastgele seçilen bir örne˘ge en yakın aynı etiketli ve en yakın farklı etiketli örnekleri kullanarak a˘gırlık vektörünü güncellemektedir. Bu metriklerle yapılan ölçümler sonucunda, ö˘grenmeye etkilerine göre öznitelikler her iki kümeye de e¸s oranda da˘gıtılmaya çalı¸sılmı¸stır. Bir di˘ger deyi¸sle, her iki kümenin de e¸sit bir ¸sekilde bilgiye ve güce sahip olması amaçlanmı¸stır. Daha sonra, Gaussian Naive Bayes, K-Nearest Neighbor, Karar A˘gacı, Random Forest ve Çok Katmanlı Algılayıcı (Sinir A˘gı) olmak üzere, bu etiketli görünümler üzerinde çe¸sitli ö˘grenme algoritmaları e˘gitilmi¸stir. Bu algoritmalar tarafından e˘gitilen modeller kullanılarak, etiketlenmemi¸s örneklerin her bir sınıf için o sınıfına ait olma ihtimali bulunmu¸stur. Bu noktadan itibaren üç yöntem birbirlerinden ayrılmaktadır. SSLCA tekrarlayan bir algoritma olup; öncelikli olarak etiketli veri kümesi üzerinde sınıflandırıcı e˘giterek etiketsiz veri üzerindeki en belirsiz ve en çok emin olunan örnekleri bulmaya çalı¸sır. En belirsiz örne˘gi aktif ö˘grenme prosedürüne gönderir ve en emin olunan örne˘gi ise birlikte e˘gitim prosedürüne gönderir. Bu iki algoritmadan gelen yeni verileri etiketli veri kümesine katarak sınıflandırıcıyı günceller. Di˘ger bir yöntem ise CoActive olup; etiketsiz veri kümesi içerisinden örnekler sınıf sayısı kadar demet olu¸sturularak bulunur. Demetler iki farklı sınıflandırıcının kararlarının uyu¸smadı˘gı örnekler üzerinde olu¸sturulur. Her bir demetin medyanına en yakın üye seçilerek etiketlenir ve e˘gitim kümesine katılır. Bu çalı¸smada önerilen CEAL algoritması ise, etiketsiz veri kümesi içerisinde en çok bilgi içeren örnekleri bulmak için bir katkı de˘geri kullanır ve en yüksek katkı de˘gerine sahip etiketsiz veriyi aktif ö˘grenme için etiketleyiciye gönderir. Test sonuçları farklı makine ö˘grenme algoritmaları kullanılarak elde edilmi¸stir. Çalı¸smaya referans olan algoritma, olasılıkları do˘grudan veren, üretken istatistiksel bir model olan Gaussian Naive Bayes'tir. Gaussian Naive Bayes, makine ö˘grenmesi algoritmaları arasında güçlü bir algoritma olarak anılmamaktadır. Bu yüzden Karar A˘gacı, Random Forest ve Çok Katmanlı Perceptron gibi daha güçlü algoritmalar da test edilmi¸stir. Karar A˘gacı ve Random Forest algoritmalarının çıktırlarında bir sınıfa dahil olma olasılık de˘gerlerini elde edebilmek için bu algoritmalar regresyon yapılarak sonuçlar olasılık de˘gerine çevrilmi¸stir. Sinir a˘glarında ise, her sınıfa dahil olma olasılıklarını elde edebilmek için benzer bir kalibrasyon kullanılmı¸stır. Yöntemler üzerindeki ilk kar¸sıla¸stırma, mimari farkı üzerinde yapılmı¸stır. Çalı¸smada referans alınan mimari, Aktif Ö˘grenme ve E¸s-ö˘grenme i¸slevlerini birbirine paralel olarak uygulayan SSLCA'dır ve her yinelemede her ikisini birden kullanmaktadır. Önerilen mimariler ise CEAL ve modifiye edilen CoActive adlı yönteme ait mimarilerdir. CEAL'de sıralı Aktif Ö˘grenme ve E¸s-ö˘grenme kullanılmı¸stır. Fakat SSLCA'da oldu˘gu gibi e¸s-ö˘grenme ö˘grenme sürecinde de˘gil, en iyi sorguyu bulmak için kullanılmı¸stır. CoActive'de ise, etiketlenmemi¸s veri kümeleri arasında en iyi sorguyu bulmak için benzer yöntemler kullanılmı¸s, ancak kümeleme yapılmı¸stır. Di˘ger kar¸sıla¸stırma, bölümleme algoritmalarına dayanarak yapılmı¸stır. E¸s-ö˘grenme, veri kümelerinin özünde iki ba˘gımsız ve kendine yeterli görünüme ayrıldı˘gı varsayımına dayanılarak yürütülmektedir. Dolayısıyla özellikleri iki alt kümeye bölmek amacıyla, en bilgilendirici örnekleri elde etmek ve özniteliklerin alt bölümlere oldukça adil da˘gılmasını sa˘glamak için Bilgi Kazancı, Chi-Square, ANOVA ve ReliefF özellik seçme yöntemleri kullanılmı¸stır ve kar¸sıla¸stırılmı¸stır. Deney sonuçları göstermektedir ki, ço˘gu test ko¸sulunda CEAL di˘ger yöntemlerden üstün gelmektedir ve en iyi bölümleme yöntemi ise az bir fark ile Bilgi Kazancı yöntemidir.
Özet (Çeviri)
A huge amount of data is currently available and it is crucial to extract knowledge using this huge amount of data. However, only small portion of this data is classified and labeled as knowledge. Machine learning algorithms are often used to extract knowledge from these datasets; a family of machine learning algorithms that exploit both labeled and unlabeled data to enhance the labeling procedure is called Semi-Supervised Learning. In semi-supervised methods we develop a model, based on scarce labeled instances then, try to expand and improve it using abundant unlabeled instances. Active Learning and Co-training are two prominent members of Semi-Supervised Learning algorithms on which there has been an extensive amount of research. Co-training is the process of learning labels for unlabeled instances from multiple-view datasets. Co-training learns two different classifiers for two different feature views, then, unlabeled instances are labeled when two classifiers are asserted on the class label of an instance. Some of these labeled instances are selected and added to the training set to enhance the learning model. This process is repeated until termination criteria are reached or a classification accuracy is achieved. Meanwhile, Active Learning is a procedure that uses limited human annotator (oracle) knowledge to improve the models. In these algorithms, a plain model is first trained using a small labeled dataset, then some informative unlabeled instances are iteratively selected and labeled by an oracle to improve the model. The most important challenge at this stage is to find the instances which will make optimal improvement over the whole model by knowing their labels. The proposed algorithms in this thesis use Co-training techniques to detect the optimal queries for Active Learning. However, two challenges arise here. Since Co-training uses two independent feature views, first is a need to split feature sets into two different feature views. The second challenge is to select instances to query from oracle using Co-training results. Co-training works based on assumption of having two or more independent and sufficient views. This means that each view of the dataset should be sufficient to train a model and they should be independent from each other. These assumptions are customarily inconceivable for typical single view datasets. Therefore, the best practice to achieve these assumptions is to split the single feature view into two sets of feature views that have the closest amount of information as much as possible. The amount of information is calculated using four methods that are primarily used for feature selection. Previously, the Semi-Supervised Learning combining Co-training with Active Learning (SSLCA) algorithm is only applied Information Gain to attain different feature views. In this thesis, Chi-Square, Analysis of Variance (ANOVA) and ReliefF algorithms are applied for this purpose in addition to Information Gain. For selecting instances from unlabeled dataset to query labels, two approaches are used. First is to calculate the contribution of the instances based on each instance and its neighbors' uncertainty. Second is to use unsupervised learning and clustering uncertain instances to find the best candidate instances for querying. These two approaches form our proposed methods, namely Co-training Enhanced Active Learning (CEAL) and Co-Active Learning. Co-Active Learning was also recently proposed and applied to two feature views. We have extended that algorithm by applying feature splitting so that it can be used in single feature view datasets. Experimental results are conducted over eight benchmark datasets provided by (University of California, Irvine) UCI Machine Learning Repository. These datasets are very common datasets at machine learning research which have been referred and used by hundreds of research. For training models five machine learning algorithms from different types of algorithms have been used. From statistical methods Gaussian Naive Bayes is used that is a generative algorithm. From tree based algorithms Decision Tree and Random Forest have been used. From Neural Networks, Multilayer Perceptrons and from neighborhood based methods K-Nearest Neighbor have been employed. Gaussian Naive Bayes gave us direct statistical certainties and is an iterative fast algorithm. Multilayer Perceptron also provide certainties at a layer before the last layer (softmax). However, other algorithms have been implemented in regression form and by calibrating regression results to be in the range of 0-1 certainty has been inferred. Several tests are performed to compare partitioning methods, query selection strategies and machine learning methods. Classification accuracies are compared with our implementation of SSLCA, Active Learning and Co-training as baseline algorithms. Experimental results show that in most cases CEAL surpass other methods and the best partitioning method was Information Gain with a very slight margin.
Benzer Tezler
- Ağ verisi üzerinde ilgili ve rastgele alt uzaylar seçerek birlikte öğrenme
Relevant and random subspaces for co-training in networked data
KADRİYE BAĞLIOĞLU
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE
- Sleep stage classification using disagreement based co-active learning
Anlaşmazlık tabanlı öğrenme ile uyku evrelerinin sınıflandırılması
AYŞE BETÜL YÜCE
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YUSUF YASLAN
- Supervised and semi-supervised learning using informative feature subspaces
Bilgi içeren öznitelik alt uzayları ile eğitmenli ve yarı eğitmenli öğrenme
YUSUF YASLAN
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE
- Co-training using prosodic, lexical and morphological information for automatic sentence segmentation of Turkish spoken language
Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan eş-eğitim ile Türkçe konuşma dilinin otomatik cümle bölütlemesi
DOĞAN DALVA
Doktora
İngilizce
2018
Elektrik ve Elektronik MühendisliğiIşık ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT GÜZ
DOÇ. DR. HAKAN GÜRKAN
- İnsan ve HIV-1 proteinleri arasındaki etkileşimlerin rastgele orman yöntemi ve birlikte öğrenme yaklaşımı ile tahmin edilmesi
Predicting human-HIV 1 protein-protein interactions using random forests in a co-training approach
İSMAİL BİLGEN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE