Comressıon of convolutıonal neural networks vıa hıgh dımensıonal model representatıon
Yüksek boyutlu model gösterilimi aracılığıyla evrişimsel sinir ağlarının sıkıştırılması
- Tez No: 954464
- Danışmanlar: DR. ÖĞR. ÜYESİ SÜHA TUNA
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
- Bilim Dalı: Hesaplamalı Bilim ve Mühendislik Bilim Dalı
- Sayfa Sayısı: 87
Özet
Son yıllarda derin öğrenme alanında yaşanan gelişmeler, özellikle görüntü sınıflandırma gibi görevlerde evrişimli sinir ağlarının (CNN) yaygınlaşmasına yol açmıştır. Bu ağlar yüksek doğruluk oranları sunmalarına karşın, sahip oldukları yüksek parametre sayısı, büyük bellek gereksinimi ve uzun işlem süreleri gibi nedenlerle kaynak kısıtlı sistemlerde dağıtım açısından önemli engeller oluşturmaktadır. VGG ve ResNet gibi derin mimariler bu bağlamda sıklıkla tercih edilse de, modellerin yerleşik sistemlere entegre edilmesi ve gerçek zamanlı çalıştırılması, ancak model sıkıştırma tekniklerinin kullanılmasıyla mümkün hale gelebilmektedir. Bu çalışmada, söz konusu mimarilerin parametre boyutlarını ve hesaplama yükünü azaltmak amacıyla Tensor Train (TT) ayrıştırması ve High Dimensional Model Representation (HDMR) yöntemleri kullanılarak yapılan sıkıştırma stratejileri detaylı olarak incelenmiştir. Ayrıca, bu iki yöntemin birleştirilerek uygulandığı TT->HDMR ve HDMR->TT hibrit yaklaşımlar da çalışmanın önemli bir parçasını oluşturmaktadır. Tensor Train ayrıştırması, çok boyutlu tensörleri düşük dereceli çekirdek tensörlerine bölerek temsil eder. Özellikle CNN mimarilerinde yer alan 4-boyutlu evrişim ağırlık tensörleri (filtre sayısı, kanal sayısı, yükseklik, genişlik) önce yeniden boyutlandırılarak (reshaping) bir vektöre dönüştürülmüş, ardından bu vektör uygun şekilde bölünerek ardışık matris çarpımlarına indirgenmiştir. Bu işlem sonucunda elde edilen TT çekirdekleri, orijinal tensörün yaklaşık temsili olup çok daha az sayıda parametreye sahiptir. TT, evrişim katmanlarının doğrudan sıkıştırılmasına olanak tanırken, modelin yapısal bütünlüğünü korur ve ileri geçiş zamanında da önemli ölçüde iyileşme sağlar. HDMR ise fonksiyonel bir ayrıştırma yöntemidir. Çok değişkenli bir fonksiyonu artan boyutlardaki bileşenlerine ayırır. Bu bileşenler sırasıyla sabit terim (f_0), tek değişkenli (f_i), ikili (f_{ij}), üçlü (f_{ijk}) gibi terimlerden oluşur. Bu çalışmada, HDMR yöntemi doğrudan CNN ağırlık tensörlerine uygulanmıştır. Uygulamada, her ağırlık tensörü bir fonksiyon olarak ele alınmış ve bileşenleri ayrıştırılmıştır. Yalnızca 0., 1., 2. ve 3. mertebeden (order) bileşenler dikkate alınarak, daha yüksek mertebeler hesaplanmamıştır. Bu seçim, hesaplama maliyetini kontrol altında tutarken yeterli açıklayıcılığı sağlamayı amaçlamaktadır. 0. order bileşen ortalama değeri temsil ederken, 1. order bileşen her değişkenin ayrı etkisini; 2. ve 3. order bileşenler ise değişkenler arası karşılıklı etkileşimleri modellemektedir. HDMR'nin doğrudan uygulanması bazı durumlarda modelin doğruluk performansında artış sağlasa da, oluşturulan alt bileşenlerin sayısı nedeniyle toplam parametre sayısında TT'ye kıyasla anlamlı bir azalma elde edilememiştir. Özellikle VGG19 gibi derin yapılı mimarilerde HDMR'nin temsil gücünü artırmak adına oluşturulan çok sayıda univaryant ve bivaryant bileşen, toplam model boyutunu arttırmıştır. Hibrit yöntemlerden biri olan TT->HDMR, ağırlık tensörleri üzerinde önce TT ayrıştırmasının uygulanması ve ardından elde edilen TT çekirdek tensörlerine HDMR uygulanması ile gerçekleştirilmiştir. Bu yöntemde, HDMR her bir TT çekirdeğine ayrı ayrı uygulanmıştır. Burada dikkat edilmesi gereken önemli bir husus, HDMR'nin yalnızca 0., 1. ve 2. mertebeden bileşenlerle sınırlı tutulmuş olmasıdır. Bu sınırlama, hesaplama yükünü düşürürken çekirdeklerin yapısal anlamda sadeleştirilmesine imkân tanımıştır. TT'nin uygulandığı ilk adımda model parametre sayısı önemli ölçüde azaldığı için, HDMR uygulaması bu sadeleştirilmiş yapılar üzerinde işlevsel düzeyde daha az sayıda önemli bileşenle temsil sağlamıştır. Bu sıralama, modelin hem yapısal hem de fonksiyonel düzeyde sadeleştirilmesini mümkün kılarak yüksek sıkıştırma oranı ve tatmin edici doğruluk performansı ile dikkat çekmiştir. Özellikle ResNet18 ve ResNet34 mimarileri üzerinde TT->HDMR yaklaşımı, baz modelden daha yüksek test doğruluğu ve daha küçük model boyutları ile öne çıkmıştır. Diğer hibrit yaklaşım olan HDMR->TT ise önce orijinal ağırlık tensörlerine HDMR uygulanarak yalnızca anlamlı etkileşimlerin modellenmesi hedeflenmiş, ardından bu yapı TT ayrıştırmasına tabi tutulmuştur. Ancak bu sıralamada HDMR'nin çıkardığı etkileşimler (özellikle 3. order bileşenlerin varlığı) model yapısını TT için uygunsuz hale getirmiştir. Bu nedenle TT ayrıştırmasının etkinliği azalmış ve çoğu durumda parametre sayısında artış gözlenmiştir. Ayrıca, HDMR->TT yönteminde de HDMR sırasında 0., 1., 2. ve 3. mertebeden bileşenler hesaplanmıştır. Bu hibrit sıranın, hem doğruluk performansını hem de sıkıştırma verimliliğini olumsuz etkilediği gözlemlenmiştir. Tüm yöntemler CIFAR-10 veri kümesi üzerinde eğitilen VGG16, VGG19, ResNet18 ve ResNet34 modellerine uygulanmıştır. Eğitim süreci 10 epoch ile sınırlandırılmış ve tüm deneyler beş tekrar üzerinden ortalama alınarak karşılaştırılmıştır. Değerlendirme metrikleri olarak test doğruluğu, parametre sayısı ve inference süresi dikkate alınmıştır. Deneysel sonuçlar, en iyi performansın genellikle TT->HDMR yönteminde elde edildiğini ortaya koymuştur. TT yöntemi yüksek sıkıştırma oranı sunarken, HDMR yöntemi belirli veri yapılarında genelleme kabiliyetini artırıcı bir etki yaratmıştır. Hibrit yapının doğru sıralaması (TT->HDMR), bu iki avantajı bir araya getirerek özellikle kaynak kısıtlı ortamlarda dağıtım için elverişli modellerin oluşturulmasını sağlamıştır. Elde edilen sonuçlar, yalnızca hangi yöntemlerin kullanıldığını değil; bu yöntemlerin hangi sırayla uygulandığını ve HDMR içinde hangi mertebeden terimlerin dahil edildiğini de model performansı üzerinde belirleyici kılmıştır. Özellikle TT->HDMR yönteminde, öncelikle model parametreleri TT ile önemli ölçüde sadeleştirildikten sonra, her bir çekirdek tensöre yalnızca 0., 1. ve 2. mertebeden HDMR bileşenleri uygulanmış; bu sayede hesaplama yükü azaltılırken fonksiyonel temsilde anlamlı bileşenler korunmuştur. Bu yapılandırma, modelin parametre sayısını ciddi şekilde azaltırken test doğruluğunu da korumayı başarmıştır. Buna karşın HDMR->TT yaklaşımında, HDMR doğrudan orijinal ağırlık tensörlerine uygulanmış ve 0., 1., 2. ve 3. mertebeden terimler hesaba katılmıştır. Üçüncü mertebeden etkileşimler, özellikle derin mimarilerde (örneğin VGG19) bileşen sayısını ciddi biçimde artırarak toplam parametre sayısında beklenen sıkıştırmanın tersine bir etki yaratmış ve model boyutunu artırmıştır. Ayrıca, bu daha karmaşık yapılar TT ayrıştırması için uygun olmayan şekillerde temsil edildiğinden, TT uygulamasının sıkıştırma verimliliği de düşmüştür. Dolayısıyla, HDMR'nin hangi sırada uygulandığı ve kaçıncı mertebeden terimlerin dahil edildiği, modelin sıkıştırma oranı ve doğruluk performansı üzerinde doğrudan etkili olmaktadır. Bu gözlem, sıkıştırma sürecinde yalnızca algoritma seçiminin değil; aynı zamanda bu algoritmaların konfigürasyonlarının da dikkatli şekilde belirlenmesi gerektiğini ortaya koymaktadır. Gelecekteki çalışmalar kapsamında, bu tezde önerilen TT->HDMR yönteminin yalnızca evrişimli sinir ağlarında değil, aynı zamanda transformer tabanlı mimariler gibi daha karmaşık yapılarda da denenmesi önem arz etmektedir. Özellikle doğal dil işleme, zaman serisi tahmini ve çok modlu öğrenme gibi farklı veri türleri ve görevler üzerinde bu yaklaşımın performansını analiz etmek, yöntemin genellenebilirliğini test etmek açısından faydalı olacaktır. Ayrıca, federated learning gibi modelin hem sıkıştırılması hem de iletişim maliyetlerinin azaltılması gereken senaryolarda bu tür hibrit sıkıştırma stratejileri büyük potansiyel taşımaktadır. HDMR'nin açıklanabilirlik sunan yapısı, model kararlarının yorumlanabilirliğini artırarak özellikle güvenilir yapay zeka (trustworthy AI) uygulamalarında kullanılabilirliği genişletebilir. Son olarak, farklı sıralama kombinasyonları, alternatif tensör ayrıştırma yöntemleri (örneğin Tucker veya CP ayrıştırması) ile HDMR'nin birlikte kullanımı da araştırılarak, sıkıştırma ve doğruluk dengesi daha da optimize edilebilir. Bu çalışmalar, hem derin öğrenme modellerinin donanımsal sınırlamalara uygun hale getirilmesi hem de açıklanabilir yapay zeka yönünde ilerlemek açısından değerli katkılar sunacaktır. Sonuç olarak, bu çalışmada TT ve HDMR yöntemlerinin CNN mimarilerine nasıl entegre edilebileceği sistematik olarak analiz edilmiş ve bu yöntemlerin tekil veya hibrit uygulamalarının güçlü ve zayıf yönleri belirlenmiştir. HDMR'nin sinir ağlarında nadir rastlanan doğrudan uygulaması, açıklanabilirlik açısından yeni bir pencere açmış; TT ile birlikte kullanımı ise fonksiyonel ve yapısal sıkıştırmayı bütüncül bir biçimde gerçekleştirmiştir. Elde edilen bulgular, yalnızca en iyi yöntemi belirlemeyi değil; aynı zamanda bu yöntemlerin sıralaması ve parametrik tercihlerinin nihai model başarısı üzerindeki etkilerini de gözler önüne sermektedir. Bu bağlamda çalışma, gelecekte açıklanabilir ve sadeleştirilmiş derin öğrenme modellerine yönelik araştırmalar için sağlam bir temel teşkil etmektedir.
Özet (Çeviri)
In recent years, the growing complexity of deep learning architectures—particularly convolutional neural networks (CNNs)—has introduced substantial challenges related to model size, computational overhead, and real-time deployability on resource-limited platforms. Although architectures such as ResNet and VGG have set new benchmarks in image classification tasks by leveraging deep and expressive structures, their significant number of parameters and high inference latency present obstacles when deploying these models on edge devices, embedded systems, or mobile applications. These challenges underscore the necessity of effective model compression techniques that maintain accuracy while reducing computational and memory demands. This thesis addresses these limitations by systematically exploring tensor-based model compression strategies for CNNs, with a specific focus on Tensor Train (TT) decomposition and High Dimensional Model Representation (HDMR). TT decomposition is a powerful low-rank tensor factorization technique that compresses high-dimensional weight tensors into a sequence of interconnected low-rank cores, significantly reducing the parameter count while preserving the structural hierarchy of convolutional layers. HDMR, in contrast, is a functional decomposition approach that approximates a multivariate function as a hierarchical sum of univariate and multivariate component functions, each capturing individual or interactive effects of input variables. While TT operates on the structural representation of tensors, HDMR operates in the functional domain, enabling interpretability and capturing non-linear interactions. Beyond analyzing these techniques in isolation, the study also introduces and evaluates two hybrid compression strategies: (1) TT->HDMR, where TT decomposition is first applied to CNN weight tensors, followed by HDMR analysis on the resulting TT cores, and (2) HDMR->TT, where HDMR is initially used to functionally decompose the weight tensors, and TT is subsequently applied to compress the resulting components. These methods are integrated into four popular CNN architectures—ResNet-18, ResNet-34, VGG16, and VGG19—and evaluated on the CIFAR-10 dataset. Experimental results reveal that TT->HDMR consistently achieves favorable compression-accuracy trade-offs. This strategy leads to up to 6.31× parameter reduction in certain configurations (e.g., ResNet-34) while preserving or even improving the classification accuracy. In contrast, HDMR->TT often results in increased parameter counts and degraded performance due to the high number of interaction terms generated during HDMR expansion (especially when higher-order terms such as 3rd-order components are included). When HDMR is applied directly, a moderate compression is observed, but this comes at the cost of increased inference time and memory due to the expansion of functional components. These findings highlight the importance of decomposition order and the selection of HDMR truncation order in determining the efficiency and effectiveness of hybrid compression strategies. Furthermore, the thesis shows that TT alone is highly effective in compressing convolutional layers while maintaining a balanced performance profile. It is particularly well-suited for models with redundant parameter structures such as VGG19. HDMR, while not inherently a tensor-based method, introduces new perspectives in interpretable compression, although its direct integration into deep networks must be done cautiously to avoid parameter inflation. In conclusion, this study does not merely promote one optimal solution but instead explores a space of tensor-based and function-based compression methods with the aim of discovering whether more efficient decompositions can be achieved without sacrificing accuracy. The results demonstrate that hybrid methods—when applied with the right sequence and order truncation—can uncover more compact and accurate representations of deep CNNs, suitable for real-world deployment. These findings offer valuable guidance for future research, including potential adaptations of TT and HDMR techniques to transformer-based architectures, federated learning settings, or multi-modal models where compression, communication cost, and interpretability are all critical factors.
Benzer Tezler
- Derin öğrenme tabanlı süper çözünürlük teknikleri kullanarak JPEG sıkıştırma kaybının iyileştirilmesi
Recovering JPEG compression loss via deep learning-based super resolution techniques
MUHAMMET BOLAT
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. LÜTFİYE DURAK ATA
DR. NURULLAH ÇALIK
- Meme kanseri tespiti için sentetik mikrodalga görüntülerinin derin öğrenme odaklı segmentasyonu
Driven segmentation of synthetic microwave images for breast cancer detection
ÖZLEM BAHAR
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET ÇAYÖREN
- Compressed domain image classification with sub-band data fusion
Sıkıştırılmış düzlemde alt-bant bileşen harmanlama yöntemi ile görüntü sınıflandırma
BERK ARICAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
DR. LEVENT ÇARKACIOĞLU
- Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi
Classification and analysis of employee feedback with deep learning algorithms
GÖKHAN YİĞİDEFE
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN
- Image compression method based on learned lifting-based DWT and learned zerotree-like entropy model
Öğrenilmiş kaldıraç tabanlı DWT ve öğrenilmiş zerotree-benzeri entropi modeline dayalı görüntü sıkıştırma yöntemi
UĞUR BERK ŞAHİN
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. FATİH KAMIŞLI