Exploiting clustering patterns in training sets to improve classification performance of fully connected layers
Tam bağlantılı katmanların sınıflandırma performansını iyileştirmek için eğitim setlerindeki kümeleme örüntülerinden faydalanma
- Tez No: 836475
- Danışmanlar: DOÇ. DR. UMUT ASAN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Endüstri ve Endüstri Mühendisliği, Computer Engineering and Computer Science and Control, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
- Sayfa Sayısı: 108
Özet
Tam bağlantılı katmanlar, çok katmanlı algılayıcılardan derin sinir ağlarına kadar neredeyse tüm sinir ağı mimarilerinde kullanılır. Bu katmanlar, verilerin yapısı hakkında herhangi bir varsayımda bulunmadan, öznitelikler arasında her türlü etkileşime izin verir. Bu özellik sayesinde, yeterli derinlik ve genişliğin sağlanması kaydıyla, tam bağlantılı katmanların her türlü örüntüyü öğrenmesi beklenir, ancak pratik deneyimler, bu teorik potansiyelin genellikle gerçekleşmediğini ortaya koymuştur. Evrişimli ve yinelemeli katmanların başarısı ve birçok çalışmanın bulguları, bir veri setinin içsel yapısının bir sınıflandırma probleminin başarısını artırmak için büyük bir potansiyele sahip olduğunu kanıtlamıştır. Bu katmanlar temel olarak metin, görüntü, video vb. veri türlerinin uzamsal veya sıralı yapılarına dayanan tümevarımsal yanlılıktan yararlanır. Ayrıca, sınıflandırma problemlerinde bu içsel yapıyı keşfetmek ve kullanmak için kümelemeden yararlanmak çeşitli çalışmaların konusu olmuştur. Bu potansiyel, bu çalışmayı bir eğitim setinin kümelenme bilgisini, tam bağlantılı katmanların çalışma prensibine, bir tür tümevarımsal yanlılık olarak, eklemenin bir yolunu aramaya yöneltti. Bu tezde, bir eğitim veri setindeki gömülü kümeler hakkındaki ön bilgiyi bir tam bağlantılı katmana besleyerek, katmanın sınıflandırma performansını iyileştirmeyi amaçlayan iki farklı yöntem önerilmiştir. İlk yöntem, yüksek varyans durumunda sınıflandırma sonuçlarını iyileştirmeye odaklanan bir düzenlileştirme yöntemidir. İkinci yöntem ise, yüksek yanlılık durumunda daha iyi tahminler yapmaya odaklanan bir yöntemdir. Çalışma boyunca, önerilen yöntemlerin, incelenen problemin türü ve mimarideki tam bağlantılı katmanların sayısından bağımsız olarak, herhangi bir ilave çabaya gerek olmadan uygulanabilir olmasına dikkat edildi. İlk önerilen yöntem, bir eğitim setinin kümeleme bilgisini, çok fazla ek hesaplama maliyetine yol açmadan tam bağlantılı katmanın düğümlerine dahil eder. Yöntem, temel olarak, eğitim aşamasından önce gözlemlerin kümelenmesine ve ardından eğitim sırasında tam bağlantılı katmandaki belirli düğümlerin bu kümelerden birine atanması prensibini benimser. Bu yöntemin ilham noktası, sinir ağları için yaygın olarak kullanılan bir düzenlileştirme tekniği olan“Dropout”yöntemi olmuştur.“Dropout”, eğitim adımları sırasında bazı gizli düğümleri rastgele kapatmak için rassal bir matris kullanmaktadır. Eğitim setindeki farklı kümelerin bilgilerini beslemek için benzer bir matris kullanma fikri, önerilen çözümün ilk adımıdır. Önerilen yöntemdeki matris rassal bir form yerine yapılandırılmış bir forma sahiptir ve eğitim aşamasından önce uygulanan denetimsiz bir kümeleme algoritması ile elde edilir. Bunun için denetimsiz k-ortalamalar ve bulanık c-ortalamalar kümeleme algoritmaları kullanılmış ve sonuçları hem“Dropout”tekniğiyle hem de birbirleriyle karşılaştırılmıştır. Bu denetimsiz fazın çıktısı olan matris, tez boyunca“Küme Bilgi Matrisi”olarak adlandırılmıştır. Burada, bulanık küme bilgi matrisinin aktivasyon değerlerini her zaman ilgili üyelik derecesinin büyüklüğüne göre revize ettiğine, k-ortalama küme bilgisi matrisinin ise bazı aktivasyonları değiştirmeden bıraktığına ve kalanını sıfırladığına dikkat çekmek isteriz. Lakin, bulanık ve K-Ortalama küme bilgi matrislerinin manipülasyon biçimleri arasındaki fark, L1 ve L2 düzenlileştirme teknikleri arasındaki farka benzer. Daha az önemli değişkenlerin ağırlıklarını sıfır olmaya zorlayan L1 düzenlileştirmesinin K-Ortalama küme bilgi matrisi gibi davrandığını, ağırlıkların büyüklüğünü azaltma eğiliminde olan L2 düzenlileştirmesinin ise bulanık küme matrisi gibi davrandığını belirtmek yanlış olmaz. Önerilen ilk yöntemin deneyler bölümünde, veri setinin dengesiz yapısı nedeniyle, eşiksiz bir performans metriği olan“Eğri Altında Kalan Alan”(EAA) hedef metrik olarak seçilmiştir. İlk önerilen yöntemin k-ortalama versiyonu üzerindeki deneyler, çok düşük anlamlılık seviyeleri için bile, önerilen yöntemin, deneylerde kapsanan tüm mimariler için,“Dropout”a kıyasla istatistiksel olarak anlamlı seviyede daha iyi EAA değerleri verdiğini göstermiştir. Bu noktada, sonuçlardaki bu iyileşmelerin gerçekten yöntemin önerdiği gizli düğümlerin kümelere tahsis edilmesi yaklaşımının bir sonucu mu olduğu yoksa küme bilgi matrisi olarak rassal bir matris kullanılarak da aynı iyileşmelerin sağlanıp sağlanamayacağı sorusu da deney sürecinin bir parçası olarak test edilmiştir. Bu amaçla, küme bilgi matrisi rastgele bir 0-1 matris ile değiştirilerek deneyler tekrarlanmıştır. Sonuçlar, önerilen yöntemin gizli düğümlerin kümelere tahsis edilmesi yaklaşımının, elde edilen iyileştirmelerde önemli bir rol oynadığını göstermiştir. Deneyler sırasında, kümelerin farklılığının da sonuçlarda önemli bir rol oynadığı da ayrıca gözlemlenmiştir. Beklendiği gibi, önerilen yöntemin yarattığı farkın, kümelerin ayırt edilebilirliği zayıfladıkça azaldığı gözlenmiştir. Önerilen yöntemin Bulanık C-Ortalamalar versiyonu için yapılan deneylerde, k-ortalamalar versiyonundakiyle aynı deneysel prosedür izlenmiştir. Önerilen yöntemin bulanık c-ortalama versiyonunun, hem k-ortalama versiyonundan hem de“Dropout”dan istatistiksel olarak anlamlı seviyede daha iyi EAA değerleri verdiğini görülmüştür. Önerilen ilk yöntemin temel katkıları dört başlık altında özetlenebilir, (i) gizli düğümleri içerisinde veri kümesindeki içsel kümelenme bilgisini içeren bir tam bağlantılı katman önermektedir, (ii) tam bağlantılı katmanlar için veri setindeki bulanık kümeleri kullanan bir düzenlileştirme tekniği geliştirmiştir (iii)“Dropout”tekniğine kıyasla daha iyi performans gösterdiği deneysel sonuçlar ile ortaya konmuştur ve (iv) tam bağlantılı katmanları içeren herhangi bir sınıflandırma mimarisinde bir revizyona ihtiyaç duymadan kullanılmaya hazır bir yapısı vardır. Önerilen ikinci yöntem, bir tam bağlantılı katmanın oluşturduğu özniteliklerin, veri kümesini orijinal öznitelik uzayındakiyle aynı şekilde kümeleme yeteneğine sahip olmalarını amaçlar ve buna olanak sağlayacak bir eğitim akışı ortaya koymaktadır. Önerilen yöntem, ön eğitim ve eğitim olmak üzere iki ana aşamadan oluşur. Ön eğitim aşamasında, veri seti bulanık c-ortalamalar algoritması kullanılarak kümelenir ve her bir gözlemin her bir kümeye olan üyelik derecelerini içeren bir matris oluşturulur. Ortaya çıkan bu matris, önerilen yöntemin ikinci ana aşamasına girdi olur. Önerilen yöntemin eğitim aşamasında, tam bağlantılı katman, hem sınıflandırma hem de kümeleme maliyetlerini ağırlıklı bir şekilde bir araya getiren birleşik bir maliyet fonksiyonunu minimize edecek şekilde eğitilir. Önerilen ikinci yöntemin deneyler bölümünde, önerilen yöntemle eğitilen tek bir tam bağlantılı katman ile standart bir tam bağlantılı katmanın performansı karşılaştırılmıştır. Benzer çalışmalara paralel olarak test seti üzerindeki doğruluk metriği hedef metrik olarak tanımlanmıştır. Deney sonuçları, önerilen yöntemin, onbir deneyden onunda, tam bağlantılı bir katmana kıyasla çok düşük istatistiksel anlamlılık seviyeleri için bile üstün olduğunu göstermiştir. Deneyler ayrıca, önerilen yöntemin sonuçlarının, standart tam bağlantılı katmanın sonuçlarına kıyasla daha küçük veya en azından eşit standart sapmalara sahip bir aralık içinde dağıldığını göstermiştir. Ayrıca, ikinci yöntemin deneyler bölümünde, art arda bağlanmış birden fazla tam bağlantılı katmanın eğitimi esnasında elde edilen kümeleme maliyetleri değişimi incelenmiştir. Buradaki gözlemler, son katmanlara doğru gidildikçe elde edilen özniteliklerin orijinal öznitelik uzayındaki kümelenme örüntülerini öğrenmesinin zorlaştığı konusunda bir ipucu vermiştir. Birden fazla tam bağlantılı katman içeren bir mimarideki davranışlar gelecek çalışmalara adreslenerek daha fazla detaylandırılmamıştır. Önerilen ikinci yöntemin temel katkıları beş madde altında sıralanabilir: (i) tam bağlantılı katmanların eğitim veri setinin kümeleme yapısından faydalanmasını sağlayan yeni bir eğitim süreci önermektedir (ii) bir veri setini aynı anda sınıflandırma ve kümeleme yeteneğine sahip bir tam bağlantılı bir katman önermektedir; (iii) veri seti içerisinde bulunan küme merkezlerinin öğrenilme sürecinin geri yayılım algoritması içerisine dahil edilmesini sağlayan bir yaklaşım ortaya koymaktadır; (iv) normal tam bağlantılı katmanlara kıyasla, çeşitli test veri setlerinde üstün tahmin performansları gösterdiği deney sonuçları ile ortaya konmuştur ve (v) tam bağlantılı katmanları kullanan herhangi bir sınıflandırma mimarisinde herhangi bir revizyona gerek kalmadan kullanılmaya hazırdır. Günümüz dünyasında makine öğrenimi ve özellikle yapay zeka uygulamaları, yönetim, sağlık, kamu, pazarlama, tarım, imalat, finans ve teknoloji alanlarında karar verme ve otomasyon sistemlerinde önemli bir kullanım alanına sahiptir. Bu endüstrilerde, makine öğrenimi algoritmaları tarafından alınan kararların etkileri çok büyüktür ve çoğunlukla çok önemli sonuçları vardır. Sağlık ve kamu sektörlerindeki etkiler, parayla ölçülmesi zor olan insan refahıyla doğrudan ilgilidir. Öte yandan sektör raporları, makine öğrenimi çözümlerinin tahmini finansal faydalarının özel sektörde ve kamu sektöründe milyonlarca hatta milyarlarca dolarla ölçüldüğünü gösteriyor. Makine öğrenimi uygulamalarının finansal ve sosyal etkilerinin büyüklüğü, makine öğrenimi algoritmalarındaki küçük performans iyileştirmelerinden bile elde edilebilecek marjinal faydaların önemini kanıtlıyor. Bu potansiyel göz önüne alındığında, bu tezde önerilen iki yöntem birçok yapay zeka uygulamasının performans iyileştirmeleri ve dolayısıyla finansal ve sosyal etkileri için önemli bir fırsat yaratmaktadır.
Özet (Çeviri)
Fully connected layers are used in almost all neural network architectures ranging from multilayer perceptrons to deep neural networks. These layers allow any kind of interaction between features without making any assumption about the structure of the data. Thanks to this property, with sufficient complexity, fully connected layers are expected to learn any kind of patterns. Practical experience has revealed that this theoretical potential is often not realized. Success of convolutional and recursive layers and findings of many studies have proven that the intrinsic structure of a dataset holds a great potential to improve the success of a classification problem. These layers basically take advantage of the inductive bias based on spatial or sequential structures of specific data types such as text, image, video etc. Also, leveraging clustering to explore and exploit this intrinsic structure in classification problems has been the subject of various studies. This potential led this study to search for a way to incorporate the clustering information of a training set, as a kind of an inductive bias, into the working mechanism of fully connected layers. In this thesis, two different methods are proposed. Both methods aim to improve the classification performance of fully connected layers by feeding them a prior information about the clustering stucture embedded in the training dataset. The first method is a regularization method that focuses on improving the classification results in case of high variance. The second method concentrates on making better predictions in case of high bias. Throughout the study, it was ensured that the methods suggested were applicable regardless of the type of problem being studied and the number of fully connected layers in the architecture. The first method incorporates clustering information of a training set into fully connected layer's nodes without incurring much additional computational costs. It basically depends on clustering the observations before the training phase and then allocating specific nodes in the fully connected layer to one of these clusters during the training. The point of inspiration for this method was the dropout method which is a widely accepted stochastic regularization technique for neural networks. Dropout is using a totally randomized binary matrix to randomly shut down some of the hidden nodes during training iterations. The idea of using a similar matrix to feed the information of different clusters in the training set is the initial step of the proposed solution. Obviously, this matrix has a structured form rather than a randomized one and is obtained by an unsupervised clustering algorithm applied before the training phase. For this unsupervised phase, K-Means and Fuzzy C-Means clustering algorithms were tried separately and their results are compared to the dropout technique as well as to each other. The output matrix in the unsupervised phase is called“Cluster Info Matrix”throughout the thesis. Here we find it essential to note that the fuzzy cluster info matrix always revises the values of the activations in line with the magnitude of the related degree of membership, whereas the K-Means cluster info matrix leaves some of the activations unchanged and set the rest to zero. The difference between the way of manipulations of the fuzzy and K-Means cluster info matrices resembles the difference between L1 and L2 regularization techniques. It is reasonable to propose that L1 regularization, which forces less important variables' weights to be zero, behaves like the K-Means cluster info matrix, whereas the L2 regularization, which tends to diminish the magnitudes of the weights, behaves like the fuzzy cluster info matrix. In the experiment part for the first proposed method, due to imbalanced structure of the dataset, a threshold free performance metric,“Area Under Curve”(AUC) was defined as the target metric. The experiments on the K-Means version of the first proposed method show that even for very low significance levels, the proposed method gives statistically significant higher AUC values in the test set compared to dropout for all architectures covered in the experiments. At this point, the question of whether these improvements are really a result of the node-to-cluster allocation logic, or the same improvement could be achieved by using an arbitrary binary matrix as the cluster info matrix, was also tested as part of the experiments. With this purpose, experiments were repeated by replacing the cluster info matrix with a random binary matrix. The results showed that the cluster-to-node allocation logic of the proposed method plays a significant role in the improvements achieved. During the experiments, it was also observed that the dissimilarity of the clusters as well play an essential role in the results. As expected, the difference made by the proposed method was observed to decrease as distinguishability of the clusters weakens. In the experiments for the Fuzzy C-Means version, the same experimental procedure as in the k- means version was followed. The Fuzzy C-Means version of the proposed method yielded even better results than the K-Means version and consequently to dropout with statistically significant higher test AUC values. The key contributions of the first proposed method can be summarized under four headings, namely (i) it proposes a fully connected layer which embeds the information on intrinsic clusters in the dataset into its hidden nodes, (ii) develops a fuzzy cluster-aware regularization technique for fully connected layers, (iii) it provides experimental results indicating a better performance of the proposed method in classification problems in comparison to the widely adopted fully connected regularization technique, dropout and (iv) it is compatible with any classification architecture that uses fully connected layers. The second proposed method introduces a new training pipeline for fully connected layers in which the extracted features are expected to have the ability to cluster the dataset in the same way as in the original feature space. The method consists of two main stages which are pre-training and training. In the pre-training stage, the dataset is clustered using Fuzzy C-Means algorithm and then a matrix that contains the fuzzy membership degrees of each observation to each cluster is created. The resulting fuzzy membership degrees matrix becomes an input to the second main stage of the proposed method. In the training stage of the proposed method, the fully connected layer is trained in a way to minimize a combined cost function that includes both classification and clustering costs aggregated in a weighted manner. In the experiments part for the second proposed method, performance of a single fully connected layer, which is trained by the proposed method and a regular single fully connected layer are compared to each other. In line with similar studies, test set accuracy metric is defined as the target metric. The results showed that even for very low significance levels, the proposed method is superior compared to a regular fully connected layer in ten of eleven experiments. The experiments also showed that the results of the proposed method are distributed within a range resulting in smaller or at least equal standard deviations compared to the results of the regular fully connected layer. Moreover, in the experimental part of the second proposed method, the variation of clustering costs obtained during training of multiple fully connected layers was investigated. The observations have provided evidence that it becomes more difficult for the obtained features to learn the clustering patterns in the original feature space as we move towards the last layers. Behaviors in an architecture with more than one fully connected layer are not further elaborated, addressing future work. The key contributions of the second proposed method can be listed under five items: (i) it proposes a new training process which makes fully connected layers benefit from the clustering structure of the training dataset; (ii) it puts forward an enhanced fully connected layer which has the ability to classify and cluster a dataset simultaneously; (iii) it incorporates the learning process of cluster centroids into backpropagation; (iv) it conducts experiments that indicate superior prediction performances of the proposed method in various benchmark datasets compared to regular fully connected layers, and (v) it is ready to be employed, without any revision, in any classification architecture that uses fully connected layers. In today's world, machine learning and particularly artificial intelligence applications have a significant role in decision making and automation systems in management, healthcare, public, marketing, agriculture, manufacturing, finance, and technology fields. In these industries, the impacts of decisions made by machine learning algorithms are huge and mostly have very important consequences. Impacts in healthcare and public industries directly relates to human well-being which is hard to quantify with money. On the other hand, industry reports show that estimated financial benefits of machine learning solutions are measured by millions or even billions of dollars in private and public sector. The magnitudes of financial and social impacts of machine learning use cases prove the importance of marginal benefits that can be derived by even small performance improvements in machine learning algorithms. Considering this potential, two methods which are proposed in this thesis create a significant opportunity for the performance improvements of many artificial intelligence applications and consequently for their financial and social impacts.
Benzer Tezler
- İhracat finansmanının yapısı ve Türkiye'de uygulanan ihracat finansmanı teknikleri
The Financial structure of export and the financial techniques of export used in Turkey
IŞIL AVUNDUK
Yüksek Lisans
Türkçe
1993
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. RAMAZAN EVREN
- Cluster shift keying: A novel chaotic communication scheme
Küme anahtarlama: Yeni bir kaotik iletişim tekniği
ZEKERİYA SARI
Doktora
İngilizce
2024
Elektrik ve Elektronik MühendisliğiDokuz Eylül ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERKAN GÜNEL
- Reordering methods for exploiting spatial and temporal localities in parallel sparse matrix-vector multiplication
Paralel seyrek matris vektör çarpımında uzaysal ve zamansal yerelliği kullanmak için sıralma yöntemleri
NABIL F. T. ABUBAKER
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CEVDET AYKANAT
- En küçük kareler destek vektör mekanizmalarını kullanarak darbeler arası zaman ölçümü ile elde edilen kaotik zaman serilerinin tahmini
Prediction of chaotic time series obtained from inter spike intervals using least squares support vector machines
HALİL ALPASLAN
Yüksek Lisans
Türkçe
2005
Elektrik ve Elektronik MühendisliğiPamukkale ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SERDAR İPLİKÇİ
- Kümeleme yöntemleri ile müşteri kanal göçü analizi
Customer channel migration analysis with clustering methods
GİZEM ÇALIŞKAN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET YASİN ULUKUŞ