Efficient pretraining of vision transformers: A layer-freezing approach with local masked image modeling
Görsel dönüştürücülerin verimli ön eğitimi: Yerel maskeli görüntü modelleme ile katman dondurma yaklaşımı
- Tez No: 899655
- Danışmanlar: DOÇ. DR. ERDEM AKAGÜNDÜZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Çokluortam Bilişimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 67
Özet
Bu tez, yerel maskeli görüntü modelleme ile aşamalı katman dondurmanın entegrasyonu yoluyla kendi kendine denetimli öğrenme için Görüntü Dönüştürücülerin (ViT'ler) ön eğitimini hızlandırmayı araştırmaktadır. Çalışma, özellikle maskeli görüntü modelleme gibi kendi kendine denetimli yöntemler kullanıldığında, ViT'lerin eğitiminde mevcut olan önemli hesaplama gereksinimlerini ve uzun eğitim sürelerini ele almayı amaçlamaktadır. Bu araştırmanın ana katkısı, eğitim sırasında belirli katmanları stratejik noktalarda sistematik olarak dondurarak eğitim verimliliğini artıran FreezeOut yönteminin LocalMIM mimarisine uygulanmasında yatmaktadır. FreezeOut yönteminin, öğrenme oranı planlamasının optimize ediciye bağımlı olduğunu kabul ederek, farklı optimize edicilerde, orijinal makalede önerildiği kadar etkili olup olmadığını değerlendiriyoruz. Deneysel sonuçlarımız, önerilen yaklaşımın eğitim süresini yaklaşık %12,5 oranında azaltabileceğini ve top-1 doğrulukta yalnızca %0,6'lık bir düşüşle minimal bir kayba yol açtığını göstermektedir. Ayrıca, ViT'ler için uyarlanmış yeni bir öğrenme oranı planlama yöntemini tanıtıyor ve doğruluyoruz; bu yöntem, %0,1'lik daha önemsiz bir doğruluk düşüşü ile %83,1 top-1 doğruluğa ulaşmaktadır. Eğitim dönemlerinin sayısının ve veri kümesi karmaşıklığının FreezeOut yönteminin etkinliği için önemli faktörler olduğunu gösteriyor ve bu yöntemin daha uzun eğitim dönemlerinde veya daha basit veri kümelerinde daha iyi performans gösterdiğini kanıtlıyoruz. Özel olarak tasarlanmış öğrenme oranı planlama yöntemimiz, daha az sayıda eğitim dönemi ve daha karmaşık veri kümelerine karşı daha büyük bir dayanıklılık göstermiş ve bu da 100 dönemlik IN-1K eğitim kurulumundaki üstün sonuçlarını açıklamaktadır. Bu araştırma, ViT ön eğitimini hızlandırmak için bir çözüm sunarak, kendi kendine denetimli öğrenmeyi sınırlı hesaplama kaynaklarına sahip ortamlarda daha erişilebilir hale getirmektedir. Bulgular, aşamalı katman dondurma ve uyarlamalı öğrenme oranı planlamasının ViT eğitim süreçlerini optimize etmedeki potansiyelini vurgulayarak bilgisayarla görü alanına katkılar sağlamaktadır. Projenin kaynak koduna buradan ulaşabilirsiniz: https://github.com/utkutpcgl/ViTFreeze.
Özet (Çeviri)
This thesis explores the acceleration of pre-training Vision Transformers (ViTs) for self-supervised learning by integrating progressive layer freezing with local masked image modeling. The study aims to address the significant computational demands and lengthy training times inherent in training ViTs when employing self-supervised methods like masked image modeling. The core contribution of this research lies in integrating the FreezeOut method into the LocalMIM architecture, enhancing training efficiency by systematically freezing specific layers at strategic points during training. We evaluate whether the FreezeOut method is as effective as proposed in the original paper across different optimizers, acknowledging that learning rate scheduling is optimizer-dependent. Our experimental results demonstrate that the proposed approach can reduce training time by approximately 12.5% with a minimal drop in top-1 accuracy (0.6%). Furthermore, we introduce and validate a novel learning rate scheduling method tailored for ViTs, which achieves an even more negligible accuracy drop of 0.1% with an 83.1% top-1 accuracy. We demonstrate that the number of training epochs and dataset complexity are critical factors for the effectiveness of the FreezeOut method and show that it performs even better with longer training epochs or simpler datasets. Our specially designed learning rate scheduling method showed greater robustness to fewer training epochs and more complex datasets, explaining its superior results in the 100 epoch IN-1K training setup. This research offers a solution for enhancing the efficiency of ViT pre-training, making self-supervised learning more accessible in environments with constrained computational resources. The findings contribute to the broader field of computer vision by highlighting the potential of progressive layer freezing and adaptive learning rate scheduling in optimizing training processes for ViTs. The implementation of our approach is accessible here: https://github.com/utkutpcgl/ViTFreeze.
Benzer Tezler
- Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
ZİŞAN YALÇINKAYA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
- Evrişimsel sinir ağlarının FPGA üzerindehızlı ve kaynak verimli kısmi yapılandırma tabanlı gerçeklenmesi
Fast and resource efficient implementation of convolutional neural networks on FPGA based on partial reconfiguration
HADEE MAD-A-DUM
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YAŞAR BECERİKLİ
- Üç boyutlu yazıcıların eğitimde kullanımı: Öğrenciler üzerine bir uygulama
Usage of three-dimensional printers in education: An application on students
SEZGİN KÜÇÜKSOLAK
Yüksek Lisans
Türkçe
2019
Bilim ve TeknolojiAksaray ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. HÜLYA BAKIRTAŞ
- Avrupa Birliği'nde iyi yönetim ve iyi yönetim ışığında yönetimde demokrasi
Good administartion and administrative democracy in the light of good administration in the European Union
ALİ DEMİREĞEN
- Sınıf öğretmenlerinin mesleki sosyalleşme süreçleri
Professional socialization processes of classroom teachers
CANAN KÜÇÜKBAYRAM
Yüksek Lisans
Türkçe
2015
Eğitim ve ÖğretimGazi ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. AYŞE DEMİRBOLAT