Codebook learning: Challenges and applications in image representation learning
Kod kitabı öğrenimi: Görüntü temsili öğrenimindeki zorluklar ve uygulamaları
- Tez No: 917960
- Danışmanlar: PROF. DR. GÖZDE ÜNAL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 136
Özet
Görüntü üretme, görüntüde nesne tanıma ve görüntü sınıflandırma gibi bilgisayarlı görü problemleri, temelde görüntü temsili öğrenimi ile çözülebilecek problemlerdir. Görüntü temsili öğrenimi, çok boyutlu görüntülerin düşük boyutlu uzaylardaki karşılıklarını öğrenme sürecidir. Makine Öğrenmesi (ML) ve Yapay Zeka (AI) alanlarındaki ilerlemeler, teoriyle desteklenebilecek ve pratik olarak elde edilebilecek anlamlı temsillerin öğrenilmesini sağlamış; bu da çoğu bilgisayarlı görü probleminin çözümünde önemli bir ilerleme kaydedilmesine olanak tanımıştır. Düşük boyutlu uzayların nasıl tasarlandığı, bu problemlerin çözümündeki ilk önemli adımlardan biridir.“Kod defteri öğrenme”teknikleri, görüntü temsili öğreniminde yenilikçi ve faydalı yaklaşımların kapısını aralamıştır. Kod defteri, verinin temel özelliklerini temsil edebilen vektörlerden oluşur. Bu tezde ele alınan veri tipi görüntü olduğundan, bir görüntüdeki temel özellikleri nesneler, renkler, açılar ve ışıklandırma gibi detaylısından yüzeyseline çeşitli açılardan örnekleyebiliriz. Kod defterindeki vektörler, bir AI modelinin eğitimi sırasında öğrenilir.“Kod defteri öğrenimi”ise sürekli verilerin bir dizi kuantize edilmiş veya ayrık vektöre eşlenmesine olanak tanıyan modeller içinde bu ayrık temsillerin eğitilmesi sürecidir. Vektörlerin sayısı ve boyutları gibi sorular, daha iyi performans elde etmek için yanıtlanması gereken önemli noktalardır. Kod defterindeki vektörlerin sayısı ve boyutları eğitim sırasında sabit kalır, ve eğitim sonunda bu vektörlerin kombinasyonları, görüntülerin düşük boyutlu uzaydaki karşılıkları haline gelir. Kod defteri kullanılarak elde edilen görüntü temsilleri, görüntü sınıflandırma ve görüntü üretme gibi farklı problemler için kullanılabilir. Kod defterindeki vektörlere, kullanılacakları görüntü temsili öğrenme problemine bağlı olarak“kod kelimeleri”,“gömüler”veya“prototipler”de denebilir. Bu tez, kod defteri öğreniminin zorluklarını, bu zorlukların nasıl aşılabileceğini ve öğrenilen kod defterlerinin çeşitli görüntü temsili öğrenme görevlerinde nasıl kullanılabileceğini kapsamlı bir şekilde anlatmayı amaçlamaktadır. Bu bağlamda, kod defteri öğreniminin matematiksel temellerini detaylı bir şekilde ele alırken, tez kapsamında yayınlanan üç temel çalışmayı da okuyucuya sunarak kod defteri öğreniminin görüntü temsili öğrenimi için ne kadar önemli olabileceğini vurgulamaktadır. Kod defterleri, görüntü üretme ve sınıflandırma gibi farklı problemlerin çözümü için eğitilen AI modellerinin eğitim sürecinde öğrenilebilir. Örneğin, kod defterleri Değişimsel Otokodlayıcılar (VAE) gibi modellerin eğitimi sırasında öğrenilir ve bilgilerin daha verimli bir şekilde kodlanıp çözülmesine olanak sağlar. Ayrıca, prototip tabanlı görüntü sınıflandırma modelleri eğitimi sırasında da kod defterleri öğrenilebilir. Kod defteri, veri kümesindeki farklı sınıfları temsil eden prototiplerden oluşur ve bu prototipler, daha doğru sınıf tahminleri yapılmasını sağlar. Kod defteri öğreniminin çeşitli amaçlarla ve farklı şekillerde kullanılabilmesi, görüntü temsili öğrenme tekniklerinin ilerletilmesinde önemli bir rol oynadığını ve oynayabileceğini göstermektedir. Tezde ele alınan çalışmalarda öğrenilen kod defterleri, hem görüntü üretme hem de görüntü sınıflandırma amaçlarına hizmet eden AI modelleriyle elde edilmiştir. Bazı çalışmalarda odak noktası, kod defteri öğrenimi sürecindeki zorluklar ve bu zorluklara yönelik çözümler olurken, diğer çalışmalarda ise kod defteri öğreniminin farklı görüntü temsili öğrenme görevlerindeki kritik problemlerin çözümüne nasıl katkı sağladığı incelenmektedir. İlk çalışmada, kod defteri öğreniminin VAE eğitimi sırasında gerçekleştiği durumlarda meydana gelebilen“kod defteri çöküşü”sorununu ele alıyoruz. Bu sorun, kod defterinde yer alan sınırlı sayıdaki vektörün görüntü temsili için kullanılmasına yol açar. Eğitilmeyen ve kullanılmayan vektörlerin sayısının fazla olması, kod defterinin verinin çeşitliliğini yeterince temsil edememesi, yani temsil gücünün kaybolması anlamına gelir. Bu çalışmada, kod defteri çöküşünün asıl sebeplerini araştırıp literatürde bu sorun üzerine yapılan çalışmaları inceliyoruz. Yaptığımız deneyler, kod defteri çöküşünün temel nedeninin, kod defterinden seçilecek vektörlerin hangi olasılık dağılımına göre seçileceğini belirleyen olasılıksal ağırlıkların hesaplanma yöntemi olduğunu ortaya koymakta. Bu sebeple, ilk çalışmamızda hiyerarşik bir Bayes modellemesi kullanarak olasılık dağılımının daha yüksek entropili bir dağılım haline getirilmesini öneriyoruz. Bu sayede, kod defterinden seçilen vektörleri daha çeşitli hale getirip önceki yöntemlere göre daha iyi sonuçlar elde edebiliyoruz. Sonuç olarak, bu çalışmamızla teorik içgörüler sunmakla kalmayıp, aynı zamanda önerdiğimiz çözümünün deneysel olarak üstünlüğünü de gösteriyoruz. VAE eğitimi sırasında kod defteri öğreniminin zorluklarını ele aldığımız ilk çalışmamızın ardından, ikinci ve üçüncü çalışmalarda kod defteri öğreniminin çeşitli görüntü temsili öğrenme görevlerinde nasıl kullanılabileceğine odaklanıyoruz. İkinci çalışmamızda, derin üretici modellerin, özellikle difüzyon modellerinin eğitim süresi sorununu ele alıyoruz. Derin üretici modeller, gerçeğe yakın görüntüler üretmeyi hedefler; ancak bu modellerin istenilen kalitede görüntüler üretebilmesi için uzun süreler eğitilmeleri gerekmektedir. Bu durum, araştırmacıları eğitimin daha erken aşamalarında istenilen kalitede görüntülerin üretilebilmesi için çözümler bulmaya teşvik etmiştir. Difüzyon modelleri de bu süreçte sık kullanılan modeller olup, eğitiminin uzun sürmesi önemli bir problemdir. Hipotezimiz, difüzyon modeli eğitimi sırasında veri hakkında bilgilendirici sinyaller eklenmesinin modelin daha kısa sürede istenilen performansa ulaşmasını sağlayacağı yönündedir. Ancak bu bilgilendirici sinyallerin, başka bir modeli uzun süre eğitmeden kısa sürede elde edilmesi gerekmektedir. Bu amaçla, sınıflandırıcı bir AI modelini kısa sürede eğitip, verideki sınıfları temsil eden prototipleri içeren bir kod defteri öğreniyoruz. Öğrendiğimiz bu prototipleri, difüzyon modeline eğitimi sırasında ek bilgi olarak ekleyip daha kısa sürede istenilen performansa ulaşıyoruz. Ayrıca bu yöntemle, prototipler kullanarak eğittiğimiz modelin performansının, klasik difüzyon modelinden daha iyi sonuçlar verdiğini gösteriyoruz. Üçüncü çalışmamızın motivasyonu, çözümleme adı verilen başka bir önemli temsil öğrenme sorununu aşmaktır; bu, karmaşık veri yapılarının anlaşılması ve temsil edilmesinde önemli bir unsurdur. Çözümleme, verideki temel varyasyon faktörlerini ayırma ve manipüle etme yeteneğini ifade etmektedir ve bu, özellik görüntü manipülasyonu ve kontrollü görüntü üretimi gibi görevler için kritik öneme sahiptir. Üretici faktörlere, daha önce de bahsedilen temel özellikler, yani nesneler, renkler, açılar, ışıklandırma vb. faktörler örnek olarak verilebilir. Örneğin renklerden bahsedecek olursak renkleri birbirinden farklı değerlerle ifade edebiliriz, ve bu değerlerin birbirleriyle ilişkisi bulunmak zorunda değildir. Bu durum, reklerin kategorik doğasına bir örnektir ve bir görüntüyü oluşturan çoğu üretici faktör de aynı kategorik doğaya sahiptir. Ancak literatüre baktığımızda, çözümleme amacıyla önerilen modellerin çok büyük çoğunluğunun sürekli temsiller öğrenmeye odaklanan VAE tabanlı modeller olduklarını görebiliriz. Bu durum, üretici faktörlerin kategorik doğasıyla çelişmektedir. Hipotezimiz, kategorik üretici faktörleri temsil etmek için ayrık temsillerin daha uygun olacağı ve bu temsillerin çözümleme problemine katkı sağlayabileceği yönündedir. Bu nedenle üçüncü çalışmamızda yer alan yöntemde, ayrık VAE eğitimi sırasında öğrendiğimiz bir kod defterinden gelen ayrık temsillerle görüntü temsili oluşturmayı ve ayrık VAE eğitimine, çözümlemeyi destekleyen optimizasyon tabanlı düzenleyicileri dahil etmeyi öneriyoruz. Çalışmamız, ayrık temsil öğrenimi ile optimizasyon tabanlı düzenleyicileri literatürde ilk kez birleştiren bir yöntem öneriyor ve bulgularımız gösteriyor ki bu yaklaşımımız, çözümleme anlamında en iyi performansı elde etmemize olanak sağlıyor. Bu çalışma sayesinde literatürde ilk kez kod defteri öğrenimi ile çözümleme arasındaki yakın ilişkiyi vurguluyoruz, ve bu iki olgunun birleştirilmesinin görüntü temsil öğrenimini ilerletme amacıyla daha fazla çalışılması gerektiğini belirtiyoruz. Bu üç çalışmanın incelenmesi, kod defteri öğrenimi ile ilgili kritik zorlukları ve avantajları gözler önüne sermektedir. İlk çalışma, kod defteri çöküşü gibi temel bir sorunu ele alarak tezin temellerini atarken, sonraki çalışmalar kod defteri öğreniminin görüntü üretimi ve çözümleme gibi farklı bağlamlardaki uygulanabilirliğini göstermektedir. Bu çalışmalar bir arada değerlendirildiğinde, kod defteri öğreniminin doğru anlaşılmasının yalnızca görüntü üretimi ve çözümleme gibi görevlerde değil, birçok görüntü temelli görevin çözümünde de katkı sağlayabileceği görülmektedir. Sonuç olarak, bu tez kod defteri öğrenimi üzerine büyüyen literatüre, kod defteri öğreniminin zorluklarını ve uygulamalarını içeren ayrıntılı bir genel bakış sağlayarak katkıda bulunmaktadır. Bulgular, kod defteri öğreniminin pratik uygulamalarda avantajlarından yararlanırken, kod defteri öğrenimi sırasında karışılaşılan zorlukların aşılmasının da büyük önem taşıdığını vurgulamaktadır. Tezde sunduğumuz bilgiler, deneyler ve elde ettiğimiz sonuçlar, sadece mevcut modellerin performansını artırmayı değil, aynı zamanda görüntü temsili öğreniminde gelecekteki yeniliklere ilham vermeyi de amaçlamaktadır.
Özet (Çeviri)
The rapid advancement of Machine Learning (ML) and Artificial Intelligence (AI) has paved the way for novel approaches in image representation learning for Computer Vision (CV), particularly through the utilization of codebook learning techniques. A codebook consists of representative vectors, also known as codewords, embeddings, or prototypes based on the context, that capture the essential features of the data. Codebook learning involves training these discrete representations within models, allowing the mapping of continuous data into a set of quantized or discrete vectors. This thesis studies codebook learning in two different contexts: the exploration of its challenges and the exploitation of the learned codebook in various tasks, including image generation and disentanglement. By examining three key studies, this thesis aims to provide a comprehensive understanding of how the challenges of codebook learning can be mitigated and how the learned codebook can be leveraged to enhance various image representation learning tasks. Codebook learning is beneficial in various applications, including image generation and classification tasks. It can be integrated into models like discrete Variational Autoencoders (VAEs), where it allows for efficient encoding and decoding of information, thereby improving performance in generative tasks. Additionally, in prototype based classification, codebooks consist of prototypes that characterize distinct classes within a dataset, enabling more accurate predictions. The versatility of codebook learning across different frameworks underscores its significance in advancing techniques for representation learning. The studies in this thesis perform codebook learning within different frameworks, and focus on the challenges of codebook learning along with the codebook incorporation to solve the significant problems of different image representation learning tasks. The first study addresses the challenge of codebook collapse where the codebook learning is performed within a discrete VAE framework. This phenomenon occurs when the learned codebook fails to capture the diversity of the input data as the multiple inputs get mapped to a limited number of codewords, leading to redundancy and a loss of representational power. This issue particularly arises in models such as Vector Quantized Variational Autoencoders (VQ-VAEs) and discrete VAEs, which rely on discrete representations for effective learning. The proposed solution involves a hierarchical Bayesian modeling to mitigate the codebook collapse. This work contributes significantly to the field by providing empirical evidence and theoretical insights into the root cause of codebook collapse, overcoming this collapse, thereby enhancing the representational power of discrete VAEs. After the first study that focuses on exploring the challenges of codebook learning within a VAE framework, the second and the third work focus on the problems of various image representation learning tasks where codebook learning can be exploited. In the second study, the focus shifts to the computational time problem of deep generative models, especially diffusion models. Diffusion models require relatively longer times for convergence, and our hypothesis is that incorporating informative signals about the data during the training of diffusion model might reduce the convergence time. However, the critical thing to manage is obtaining these informative signals in negligibly short time so that reducing the training time of the diffusion model also reduces the overall computational time. To learn such informative signals, we perform codebook learning within a framework of training a classifier, and the learned codebook consists of prototypes that represent the classes in the data. The second study in this thesis shows that using the class prototypes that are learned in a short time as the informative signals during the training of the diffusion model leads to better generative performance in the early stages of training, and eliminate the need for longer training. The third study's motivation is to overcome another important representation learning problem called disentanglement—a key aspect in understanding and representing complex data structures. Disentanglement refers to the ability to separate and manipulate the underlying factors of variation in the data, which is crucial for tasks such as attribute manipulation and controlled generation. On the grounds of the categorical nature of the underlying generative factors, our hypothesis is that using discrete representations that are well suited for the categorical data might aid disentanglement in the image representation. Therefore, we build a novel framework to learn a codebook within the framework of discrete VAEs, and propose an original optimization based regularization to further assist the disentanglement. The findings of this study demonstrate that using discrete representations and optimization based regularizers leads to significant improvements in terms of disentanglement. This research emphasizes the synergy between codebook learning and disentanglement, advocating for further exploration of their combined potential in advancing image representation learning. The exploration of these three studies reveals the critical challenges and advantages associated with codebook learning. The first study lays the groundwork by addressing the fundamental issue of codebook collapse, while the subsequent studies demonstrate the applicability of codebook learning in diverse contexts such as image generation and disentanglement. Together, these works illustrate that a robust understanding of codebook learning can lead to significant advancements in image generation and disentanglement. In summary, this thesis contributes to the growing literature on codebook learning by providing a detailed overview that includes its challenges and applications. The findings highlight the importance of addressing inherent challenges while leveraging the benefits of codebook learning for practical applications. Insights gained from this research aim not only to enhance the performance of existing models but also to inspire future innovations in image representation learning.
Benzer Tezler
- Structural scene analysis of remotely sensed images using graph mining
Uydu görüntülerinin çizge madenciliği ile yapısal sahne analizi
BAHADIR ÖZDEMİR
Yüksek Lisans
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELİM AKSOY
- Practical implementation and real-world validation of reconfigurable intelligent surfaces
Yeniden yapılandırılabilir akıllı yüzeylerin pratik uygulaması ve gerçek dünya doğrulaması
SEFA KAYRAKLIK
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERTUĞRUL BAŞAR
- Code excited linear predictive coding of speech wing source-filter interrelation extracted by self organising maps
Kaynak-süzgeç ilişkisinin kendinden düzenlemeli haritalarda kullanılması ile kod uyarımlı doğrusal öngörü kodlayıcılarının niteliğinin artırılması
GÖKHAN AVKAROĞULLARI
Yüksek Lisans
İngilizce
1998
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA ÇİLOĞLU
- Image annotation with semi-supervised clustering
Yarı denetimli kümeleme ile görüntü etiketleme
AHMET SAYAR
Doktora
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATOŞ T. YARMAN VURAL
- Visual product recognition from retail scenes
Perakende ̇ımgelerinden görsel ürün tanınması
ALPER AYDIN
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. BURAK ACAR
DR. CEYHUN BURAK AKGÜL