Geri Dön

Efficient pretraining of vision transformers: A layer-freezing approach with local masked image modeling

Görsel dönüştürücülerin verimli ön eğitimi: Yerel maskeli görüntü modelleme ile katman dondurma yaklaşımı

  1. Tez No: 899655
  2. Yazar: UTKU MERT TOPÇUOĞLU
  3. Danışmanlar: DOÇ. DR. ERDEM AKAGÜNDÜZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Çokluortam Bilişimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 67

Özet

Bu tez, yerel maskeli görüntü modelleme ile aşamalı katman dondurmanın entegrasyonu yoluyla kendi kendine denetimli öğrenme için Görüntü Dönüştürücülerin (ViT'ler) ön eğitimini hızlandırmayı araştırmaktadır. Çalışma, özellikle maskeli görüntü modelleme gibi kendi kendine denetimli yöntemler kullanıldığında, ViT'lerin eğitiminde mevcut olan önemli hesaplama gereksinimlerini ve uzun eğitim sürelerini ele almayı amaçlamaktadır. Bu araştırmanın ana katkısı, eğitim sırasında belirli katmanları stratejik noktalarda sistematik olarak dondurarak eğitim verimliliğini artıran FreezeOut yönteminin LocalMIM mimarisine uygulanmasında yatmaktadır. FreezeOut yönteminin, öğrenme oranı planlamasının optimize ediciye bağımlı olduğunu kabul ederek, farklı optimize edicilerde, orijinal makalede önerildiği kadar etkili olup olmadığını değerlendiriyoruz. Deneysel sonuçlarımız, önerilen yaklaşımın eğitim süresini yaklaşık %12,5 oranında azaltabileceğini ve top-1 doğrulukta yalnızca %0,6'lık bir düşüşle minimal bir kayba yol açtığını göstermektedir. Ayrıca, ViT'ler için uyarlanmış yeni bir öğrenme oranı planlama yöntemini tanıtıyor ve doğruluyoruz; bu yöntem, %0,1'lik daha önemsiz bir doğruluk düşüşü ile %83,1 top-1 doğruluğa ulaşmaktadır. Eğitim dönemlerinin sayısının ve veri kümesi karmaşıklığının FreezeOut yönteminin etkinliği için önemli faktörler olduğunu gösteriyor ve bu yöntemin daha uzun eğitim dönemlerinde veya daha basit veri kümelerinde daha iyi performans gösterdiğini kanıtlıyoruz. Özel olarak tasarlanmış öğrenme oranı planlama yöntemimiz, daha az sayıda eğitim dönemi ve daha karmaşık veri kümelerine karşı daha büyük bir dayanıklılık göstermiş ve bu da 100 dönemlik IN-1K eğitim kurulumundaki üstün sonuçlarını açıklamaktadır. Bu araştırma, ViT ön eğitimini hızlandırmak için bir çözüm sunarak, kendi kendine denetimli öğrenmeyi sınırlı hesaplama kaynaklarına sahip ortamlarda daha erişilebilir hale getirmektedir. Bulgular, aşamalı katman dondurma ve uyarlamalı öğrenme oranı planlamasının ViT eğitim süreçlerini optimize etmedeki potansiyelini vurgulayarak bilgisayarla görü alanına katkılar sağlamaktadır. Projenin kaynak koduna buradan ulaşabilirsiniz: https://github.com/utkutpcgl/ViTFreeze.

Özet (Çeviri)

This thesis explores the acceleration of pre-training Vision Transformers (ViTs) for self-supervised learning by integrating progressive layer freezing with local masked image modeling. The study aims to address the significant computational demands and lengthy training times inherent in training ViTs when employing self-supervised methods like masked image modeling. The core contribution of this research lies in integrating the FreezeOut method into the LocalMIM architecture, enhancing training efficiency by systematically freezing specific layers at strategic points during training. We evaluate whether the FreezeOut method is as effective as proposed in the original paper across different optimizers, acknowledging that learning rate scheduling is optimizer-dependent. Our experimental results demonstrate that the proposed approach can reduce training time by approximately 12.5% with a minimal drop in top-1 accuracy (0.6%). Furthermore, we introduce and validate a novel learning rate scheduling method tailored for ViTs, which achieves an even more negligible accuracy drop of 0.1% with an 83.1% top-1 accuracy. We demonstrate that the number of training epochs and dataset complexity are critical factors for the effectiveness of the FreezeOut method and show that it performs even better with longer training epochs or simpler datasets. Our specially designed learning rate scheduling method showed greater robustness to fewer training epochs and more complex datasets, explaining its superior results in the 100 epoch IN-1K training setup. This research offers a solution for enhancing the efficiency of ViT pre-training, making self-supervised learning more accessible in environments with constrained computational resources. The findings contribute to the broader field of computer vision by highlighting the potential of progressive layer freezing and adaptive learning rate scheduling in optimizing training processes for ViTs. The implementation of our approach is accessible here: https://github.com/utkutpcgl/ViTFreeze.

Benzer Tezler

  1. Endüstriyel çalışma ortamlarında otomatik aydınlık kontrolü

    Automatic lighting control on industry

    METİN ORTATAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Mühendislik BilimleriBozok Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ORHAN ER

  2. Buji ile ateşlemeli bir motorda Miller çevrimi uygulaması, performans ve emisyon karakteristiklerinin incelenmesi

    Application of Miller cycle in a spark ignition engine and the investigation of performance and emission characteristics

    OĞUZ KÜRŞAT DEMİRCİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Teknik EğitimGazi Üniversitesi

    Makine Eğitimi Ana Bilim Dalı

    DOÇ. DR. CAN ÇINAR

  3. Zaman yönetiminin hemşirelerin iş verimine etkisi (İzmir Dr. Behçet Uz Çocuk hastalıkları ve cerrahisi eğitim ve araştırma hastanesi örneği)

    Effects of time management on nurses job efficiency (İzmir Dr. Behçet Uz Pediatric Desase and Surgery Training and Research Hospital Sample)

    ELİF DALKIRAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    HastanelerBeykent Üniversitesi

    İşletme Yönetimi Ana Bilim Dalı

    YRD. DOÇ. DR. ŞEFİKA DEMİRKAN

  4. The calculation debate in socialist economies

    Sosyalist ekonomilerde hesaplama tartışması

    SERCAN KARADOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Ekonomiİstanbul Bilgi Üniversitesi

    Uluslararası Ekonomi Politikası Ana Bilim Dalı

    PROF. DR. ERTUĞRUL TONAK

  5. Kardiyopulmoner bypass ile açık kalp cerrahisi uygulanan hastalarda orta ve hafif hipotermik bypass yöntemlerinin neutrophıl gelatınase assocıated lıpocalın (NGAL), cystatın c ve near ınfrared spectroscopy (NIRS) yöntemi ile ölçülen renal perfüzyon üzerine etkilerinin karşılaştırılması

    Comparing the effects of mild and moderate hypothermia on renal perfusion evaluated with neutrophil gelatinase associated lipocalin, cystatin c and near-infrared spectroscopy in patients undergoing cardiopulmonary bypass graft surgery

    SERKAN YILDIRIM

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2014

    Göğüs Kalp ve Damar CerrahisiSelçuk Üniversitesi

    Kalp ve Damar Cerrahisi Ana Bilim Dalı

    DOÇ. DR. MEHMET ALKILIÇ HORASANI ÖÇ