Integrating fuzzy logic into deep autoencoders for interpretability and clustering
Yorumlanabilirlik ve öbekleme için bulanık mantığın derin özkodlayıcılara entegre edilmesi
- Tez No: 701473
- Danışmanlar: DOÇ. DR. TUFAN KUMBASAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Kontrol ve Otomasyon Mühendisliği Bilim Dalı
- Sayfa Sayısı: 89
Özet
Makine öğrenmesi son yıllarda büyük bir başarı ve gelişim sergilemektedir. Bir zamanlar çözülemez olduğu düşünülen birçok problem, artık veri tabanlı bir şekilde makine öğrenmesi ile kolayca çözülebilmektedir. Bu, elbette, bilgisayarların katlanarak artan bilgi işleme gücünün, her gün daha da açık kaynak bir şekilde yazılarak kolektif bir şekilde gelişen programlama kütüphanelerinin ve dünyanın dört bir yanından katkı sağlayan on binlerce araştırmacının bilimsel makalelerinin bir sonucudur. Bu gelişmelerin arkasında yatan bir önemli faktör de şüphesiz ki çok büyük ve karmaşık verileri modellemek için muazzam kapasiteleri nedeniyle birçok uygulama alanında kullanılan derin öğrenme mekanizmaları ve bu tip mekanizmaların gerçeklemesini, eğitimini ve performansını optimal hale getirme çabasıdır. Ancak, derin öğrenme mükemmel olmaktan hala çok uzaktır ve üzerine yapılacak daha fazla iyileştirme ve analiz gerektirmektedir. Öte yandan, veri tabanlı modelleme için bulanık kümeler ve bulanık mantık sistemlerinin kullanımının da köklü bir geçmişi ve sağlam teorik temelleri bulunmaktadır. Özellikle son yıllarda bu alanlarda geliştirilen yöntemler ile birlikte bu tipteki modellemelerin derin öğrenme metodolojilerine göre yorumlanabilirlik ve belirsizliği temsil etme gibi çeşitli avantajlara sahip olduğu görülmüştür. Fakat, son yıllarda ivme kazanmış olsa da, derin öğrenme ve bulanık kümeler/sistemler arasındaki etkileşimler üzerine yapılan çalışmalar maalesef oldukça sınırlı kalmıştır. Bu bağlamda ortaya çıkabilecek gelişmeler ve karşılaşılabilecek zorluklar konularında akademik anlamda geniş bir araştırma alanı vardır. Buna dayanarak, bu tezde, geleneksel derin öğrenme metodolojilerini farklı yönlerden geliştirmek için bu iki alanın bir kombinasyonu olan iki farklı yaklaşım önerilmiştir. İlk yaklaşım, temel olarak derin öğrenmedeki yorumlanabilirlik sorunu ile ilgilidir. Yaygın olarak bilindiği gibi, derin öğrenmenin sayısız uygulama alanındaki sürekli başarısı,“Nasıl”lar ve“Neden”ler ile başlayan endişeleri gündeme getirmektedir. Bu sorunlar ancak derin öğrenme modelleri yorumlanabilir olursa ve sonuç olarak bir miktar açıklama sağlarsa çözülebilir. Bu bağlamda oldukça umut vadeden bir mimari de üretkenlik ve verideki dolanıklığı çözme özellikleriyle donatılmış β-varyasyonel özkodlayıcılardır. Spesifik olarak, β-varyasyonel özkodlayıcıların verideki dolanıklığı çözme özelliği yorumlanabilirlik üzerine yapılacak araştırmalar için oldukça iyi bir başlangıç noktası sunmaktadır. Dolayısıyla, bu tezde, yeni bir derin öğrenme tabanlı bulanık sınıflandırıcı tasarlamak için β-varyasyonel özkodlayıcıların veri içerisindeki dolaşıklığı çözme becerisi ve bulanık kümelerin dilsel temsil özelliklerinden yararlanan bir derin öğrenme sistemi geliştirilmiştir. Sınıflandırma amacıyla bir sınıflandırma katmanının takip ettiği bir β-varyasyonel özkodlayıcının kodlayıcı katmanı ve bir bulanık mantık sisteminden oluşan bu sistemi inşa etmek için öncelikle adım adım bir tasarım stratejisi sunulmuştur. Bu stratejinin ilk adımı olarak, bir β-varyasyonel özkodlayıcı, yüksek boyutlu verilerin anlamsal içeriğini yakalamak için eğitime tabi tutulmaktadır. Sonraki adımda ise bulanık kümeleri oluşturmak için β-varyasyonel özkodlayıcının saklı uzayında kodlanmış olarak bulunan veri öbeklenmektedir. Son olaraksa, elde edilen bulanık kümelerin öncüller olarak kullanıldığı bir bulanık mantık sistemi, derin öğrenme teknikleri kullanılarak eğitilmektedir. Tasarım stratejisinin sunumunun ardından, önerilen model ile MNIST veri seti üzerinden yapılan deneyler neticesinde alınan sonuçlar sunulmuştur. Bu deneylerde yüksek boyutlu veri hakkında β-varyasyonel özkodlayıcının saklı uzayında hangi boyutların ne kadar bilgi tuttuğu incelenmiş ve elde edilen sonuçlara göre değişen sayıda giriş miktarı ile ayrı ayrı eğitimler yapılmıştır. Bu eğitimler sonucunda kullanılan saklı uzay boyutuyla performansın nasıl değiştiği raporlanmış ve düşük bilgi taşıyan saklı boyutların performansa etkisinin oldukça düşük olduğu gözlenmiştir. Bununla beraber, çeşitli kural/öbek sayıları için eğitimler yapılmış ve düşük kural/öbek sayısı ile de tatmin edici sonuçlar alınabilidiği gözlenmiştir. Ayrıca, doğrusal bir sınıflandırıcı ve üç adet derin sinir ağı ile de karşılaştırmalı bir deney yapılmıştır. Bu deney, önerilen DL-FC'nin yorumlanabilirlik ve performans arasında bir nokta olarak yorumlanabileceğini göstermiştir. Son olarak, eğitilen bulanık mantık sistemin öncüllerini yorumlayabilmek için her bir saklı boyutta bulunan bulanık kümeler, o boyutlara denk düşen saklı uzay taramaları ve bu taramaları görselleştirmek için bu tezde önerilen ısı haritaları ayrı ayrı incelenmiştir. Sonuçlar, saklı uzayda yüksek bilgi içeren boyutlara ait bulanık mantık sistemi öncüllerini niteleyen bulanık kümelere dilsel değişkenler atanabileceğini göstermiştir. Böylece β-varyasyonel özkodlayıcının saklı uzayını yorumlayabilmek için bulanık kümelerin dilsel değişkenler ile tanımlanabileceği ve bu dilsel değişkenlerin sınfılandırma probleminde kullanılarak derin öğrenmede yorumlanabilirliğe katkı sağlayabileceği gösterilmiştir. Fakat, baştan sona bir yorumlama için ardıl parametrelerin, kural tabanının ve düşük bilgi içeren saklı boyutlardaki öncüllerin de yorumlanablir olması gerekliliği görülmüştür. Derin öğrenme ve bulanık kümelere arasındaki önerilen ikinci etkileşim ise, verilerin özünde bulunan belirsizliğin göz önünde bulundurularak bu belirsizlikten faydalanılmasıyla ilgilidir. Genellikle etiketlenmemiş verilerle çalışmak, özellikle veriler yüksek boyutlu olduğunda, modelleme sırasında olası belirsizliklerin ortaya çıkma riskini taşımaktadır. Bu bağlamda, eğiticisiz bir öğrenme problemi olan öbekleme de bir istisna değildir ve bu nedenle özel olarak üzerinde durulması gerekmektedir. Buna dayanarak, bu tezde aralık değerli tip-2 bulanık kümeler ve derin öğrenme algoritmaları kullanılarak yüksek boyutlu verilerin öbeklenmesi sırasında ortaya çıkan belirsizliklerin modelleme için kullanılması üzerinde durulmaktadır. Burada derin öğrenme algortimaları yüksek boyutlu verileri düşük boyutlu verilerle temsil etme yetenekleri sebebiyle kullanılırken aralık değerli tip-2 bulanık kümeler ise verinin özünde bulunan belirsizliği modellemedeki başarıları sebebiyle tercih edilmiştir. Literatürde aralık değerli tip-2 bulanık kümelerin oluşturulmasıyla ilgili çeşitli yöntemler mevcuttur ve bu tezde de bu yöntemlerden biri olan aralık değerli parametreler kullanılmıştır. Bu aralık değerli parametreler çeşitli öbek benzerlik işlevlerinin içine yedirilmiş ve bu şekilde üretilen öbekler aralık değerli tip-2 bulanık kümeler oluşturabilecek hale getirilmiştir. Dolayısıyla, aralık değerli parametreler verilerin öbeklere atanması sırasında ortaya çıkan belirsizliğinin temsilleri olarak yorumlanabilmektedir. Derin öbekleme için derin gömme öbeklemesi önerilen bu yaklaşımın temeli olarak kullanılmaktadır. Bu derin öğrenme metodolojisi özkodlayıcı tabanlı bir öbekleme modelidir ve yüksek boyutlu veriler için oldukça iyi sonuçlar vermektedir. Dolayısıyla, aralık değerli parametreler aracılığıyla ortaya çıkan aralık değerli tip-2 bulanık öbekleme çıkarım mekanizması, önerilen modelin ve eğitiminin sıkça kullanılan derin öğrenme programlama kütüphaneleri ile gerçeklenmesine olanak sağlayacak şekilde derin gömme öbeklemesine entegre edilmiştir. Buna karşılık, aralık değerli parametrelerle çalışmak çeşitli matematiksel kısıtlamaları da beraberinde getirmektedir. Fakat yaygın derin öğrenme programlama kütüphanelerinin hiçbiri kısıtlı optimizasyona olanak tanımamaktadır. Dolayısıyla, doğrudan bir gerçekleme için, aralık değerli parametrelerin tanımında çeşitli parametrizasyon hileleri kullanılmıştır. Bu hileler sayesinde aralık değerli tip-2 bulanık kümelerdeki kısıtlar yeniden tanımlanmış ve önerilen öbekleme mekanizmasının eğitimi kısıtsız bir optimizasyon problemine dönüştürülmüştür. Son olarak ise çeşitli hiperparametre ve öbek benzerlik işlevi konfigürasyonları ile MNIST, Fashion MNIST ve USPS olmak üzere üç adet yüksek boyutlu veri seti üzerinden çeşitli deneyler yapılmıştır. Raporlanan karşılaştırmalı deney sonuçları, aralık değerli tip-2 bulanık kümeleri kullanarak belirsizlikleri modele dahil etmenin, bu setlerin temel tip-1 emsallerinin kullanıldığı geleneksel yöntemlerden daha iyi bir performans gösterdiğini göstermiştir. Bununla beraber, önerilen yöntemin başarımının daha detaylı bir analizi için eğitim sonucunda elde edilen aralık değerli parametrelerin ve öbeklerin incelenmesi gerekmektedir.
Özet (Çeviri)
Machine learning shows a great success and progress in the last decades. Many problems that were once thought to be unsolvable can now be easily overcome with machine learning in a data-driven manner. This is, of course, the result of the exponentially increasing computing power of computers, programming libraries that are collectively evolving with more and more open-source coding every day, and tens of thousands scientific papers contributing researchers around the world. An important factor behind these developments is undoubtedly the deep learning (DL) mechanisms used in many application areas due to their enormous capacity to model very large and complex data, and the effort to optimize the implementation, training and performance of such mechanisms. However, DL is still far from being perfect and requires further refinement and analysis to be done. On the other hand, the use of fuzzy sets (FSs) and fuzzy logic systems (FLSs) for data-driven modeling has a long history and solid theoretical foundation. Especially with the methods developed in these fields in recent years, it has been seen that this type of modeling has various advantages such as interpretability and representing uncertainty compared to DL methodologies. However, although it has gained momentum in recent years, unfortunately the studies on the interactions between DL and FS/FLSs have been very limited and there is a wide academic field of research for the improvements and challenges that may arise in this context. Based on this, two different approaches have been proposed as a combination of these two fields to improve traditional DL methodologies from different aspects. The first approach mainly deals with the interpretability of DL. As it is commonly known, DL's continuous success in numerous application areas raises concerns that begin with“Hows”and“Why”s. These problems can be overcome if only the DL approaches are interpretable and consequently provide some explanation. A promising architecture in this aspect is β-variational autoencoders (VAEs) which is equipped with generativity and disentanglement. Specifically, the disentanglement feature of β-VAEs offers a great starting point to research on interpretability. Accordingly, in this thesis, a DL framework has been developed that makes use of the benefits of VAEs and FSs, which are disentanglement and linguistic representation, to design a novel DL-based fuzzy classifier (FC). In this aspect, it is first shown a step-by-step design strategy for building the DL-FC, which is built of a β-VAE encoder layer and an FLS, followed by a softmax layer. As the first step of this strategy, β-VAE is trained to capture the semantic content of high-dimensional data. In the next step, the data encoded into the latent space of β-VAE are clustered to create the FSs. Finally, a FLS using the obtained FSs as antecedents was trained using DL techniques. After presenting the design strategy, the results from the experiments carried out on the MNIST data set with the obtained model are presented. In these experiments, it was examined which dimensions hold how much information about high-dimensional data in the latent space of the β-VAE, and separate trainings were made with varying numbers of inputs. As a result of these trainings, it has been reported how the performance changes with the number of latent space dimension used and it has been observed that the effect of the latent dimensions carrying low information on the performance is quite low. Moreover, trainings have been made for various number of rules/clusters and it has been observed that satisfactory results can be obtained with a low number of rules/clusters. In addition, a comparative experiment was conducted with a linear classifier and three deep neural networks. This experiment showed that the proposed DL-FC can be interpreted as a point between interpretability and accuracy. Finally, in order to interpret the trained FLS antecedents, the FSs in each latent dimension, the latent traversals corresponding to those dimensions, and the heat maps proposed in this thesis to visualize these scans were examined separately. The results showed that linguistic variables can be assigned to FSs that characterize FLS antecedents. Thus, it has been shown that FSs can be defined with linguistic variables in order to interpret the latent space of β-VAE and these linguistic variables can contribute to interpretability in DL by using them in the classification problem. However, for a complete interpretation, it has been seen that the antecedents extracted from the latent dimensions with low information, consequent parameters and the rule base must also be interpretable. The second interaction between DL and FSs that is proposed deals with the exploitation of the uncertainty inherited in data. Often working with unlabeled data runs the risk of introducing potential uncertainties during modeling, especially when the data are high-dimensional. In this context, clustering, which is an unsupervised learning problem, is not an exception and therefore deserves special attention. Based on this, this thesis focuses on modeling the uncertainties that arise during clustering of high-dimensional data using interval type-2 (IT2) FSs and DL methods. Here, DL methods are used because of their ability to represent high-dimensional data in low-dimension, while IT2-FSs are preferred because of their success in modeling the uncertainty inherent in the data. In order to combine these two concepts, it is needed to generate IT2-FSs in a systematical manner. There are various methods for the generation of IT2-FSs in the literature, and in this thesis, interval-valued parameters (IVPs) are used from these methods. These IVPs were embedded into various cluster similarity functions (CSFs) and, thus, the generated clusters with these functions were capable of forming IT2-FSs. These IVPs are therefore interpreted as representations of the uncertainty that arises when data are assigned to clusters. For deep clustering, deep embedding clustering (DEC) is used as the basis of the proposed approach. This DL methodology is an autoencoder-based clustering model and gives very promising results for high-dimensional data. Accordingly, the IT2 fuzzy clustering inference mechanism, which is emerged through IVPs, is integrated into the DEC, allowing the proposed model and its training to be implemented with the frequently used DL programming libraries. However, working with IVPs comes with several mathematical constraints. Yet, none of the common DL programming libraries allow for constrained optimization. Therefore, for a seamless implementation, various parameterization tricks are used in IVPs. Thanks to these tricks, the constraints in IT2-FS are redefined and the training of the proposed clustering mechanism is transformed into an unconstrained optimization problem. Lastly, various experiments were conducted on three high-dimensional datasets, MNIST, Fashion MNIST, and USPS, with various configurations of hyper-parameters and CSFs. Reported comparative test results have shown that overcoming uncertainties using IT2-FSs outperforms conventional methods using baseline type-1 counterparts of these sets. However, for a more detailed analysis of the performance of the proposed method, it is necessary to examine the interval valued parameters and clusters obtained as a result of the training.
Benzer Tezler
- Design and deployment of deep learning based fuzzy logicsystems
Derin öğrenme tabanlı bulanık sistemlerin geliştirilmesi ve uygulanması
AYKUT BEKE
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR
- How supply chain is digitalizing and integration of artificial intelligence
Başlık çevirisi yok
MÜGE PAMUKÇU
Yüksek Lisans
İngilizce
2019
Endüstri ve Endüstri MühendisliğiUniversità Ca' Foscari VeneziaPROF. GİOVANNİ VAİA
- Leveraging ai in construction management
İnşaat proje yönetiminde yapay zekadan faydalanma
BARAN AKOL
Yüksek Lisans
İngilizce
2024
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. FATMA PINAR ÇAKMAK
- Likert tipi verilerde bulanık mantık ve derin öğrenme entegrasyonu
Fuzzy logic and deep learning integration in likert type data
ZEYNEP ÜNAL
- Tip-3 bulanık mantık kontrollörü ile bağımsız hibrit mikroşebeke frekans regülasyonu
Type-3 fuzzy-based frequency regulation of an islanded microgrid
İSMAİL TÜRK
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiDicle ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HEYBET KILIÇ