Geri Dön

The reusability prior in deep learning models

Derin öğrenme modellerinde yeniden kullanılabilirlik önseli

  1. Tez No: 828731
  2. Yazar: AYDIN GÖZE POLAT
  3. Danışmanlar: PROF. DR. FERDA NUR ALPASLAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 205

Özet

Çeşitli seçimler, derin öğrenme (DÖ) modellerinin performansını etkileyebilir. Örneğin, katmanlar arası parametre paylaşımı, evrişimli katmanlarö ve atlama bağlantıları yoluyla bir modelde elde edilen tekrarlamalar, DÖ modellerindeki bileşenlerin yeniden kullanılabilirliğini etkileyerek parametre verimliliğini etkiler. Bu çalışmada, bu tür tekrarlamalar açısından farklı tasarım seçimlerinin model performansını nasıl etkilediğini araştırmak için üç farklı çözüm önerildi. İlk olarak, bir DÖ modelleri popülasyonunu eğitirken yeniden kullanılabilir modülleri veya model bileşenlerini analiz etmek için yeni bir kitaplık olan Revolver önerildi. Deneyler sırasında modeller arasında modüllerin yeniden kullanılması, tüm model popülasyonunun tek bir GPU üzerinde eğitilmesini ve en yüksek puanı alan paylaşılan modüller hakkında istatistiklerin toplanabilmesini sağladı. İkincisi, yeniden kullanılabilirlik önseli şu şekilde önerildi: model bileşenleri, yalnızca eğitim koşulları ve düzenlileştirme seçenekleri nedeniyle değil, aynı zamanda model tasarımı nedeniyle de farklı bağlamlarda çalışmaya zorlanır. Bu önsele dayanarak, öğrenilebilir her parametre için bağlam sayısını ölçebilen saymaya dayalı bir grafik analizi önerildi. Deneylerde, bu yöntem, herhangi bir eğitime dayanmadan, ilk-1 doğruluk açısından analiz edilen birçok modelin sıralamasına ilişkin performansı doğru bir şekilde tahmin edebildi. Son olarak, istatistiksel mekanikten ilham alan genelleştirilmiş bir yaklaşım önerildi; burada bağlama dayalı sayma yönteminin, T=-1 mutlak sıcaklığına sahip modelleri tanımladığı anlaşıldı. Genelleştirilmiş yaklaşım, kısıtlamaları ve varsayımları parametre düzeyinde enerji şeklinde kodlayarak önerilen sayma yönteminin ötesine geçmeye izin verdi. Sonuç olarak, önerilen bu çözümler, model analizi ve karşılaştırması üzerine araştırmalara veya nöral mimari araştırması için pratik uygulamalara imkan sağlayabilir.

Özet (Çeviri)

Various choices can affect the performance of deep learning (DL) models. For instance, repetitions in a model via cross-layer parameter sharing, using convolutional layers, and relying on skip connections affect the reusability of components in DL models, impacting parameter efficiency. In this work, three different approaches are proposed to investigate how different design choices in terms of such repetitions affect model performance. First, a new library, Revolver, is proposed to analyze reusable modules or model components while training a population of DL models. Reusing modules across models enabled training an entire population of models on a single GPU and collecting statistics about top scoring shared modules. Second, the reusability prior is proposed as follows: model components are forced to function in diverse contexts not only due to the training data, augmentation, and regularization choices but also due to the model design itself. Based on this prior, a counting-based graph analysis approach that can quantify the number of contexts for each learnable parameter is proposed. In the experiments, this approach was able to correctly predict the ranking of several analyzed models in terms of top-1 accuracy without relying on any training. Third, a generalized framework inspired by statistical mechanics is proposed, where the context-based counting approach describes models with absolute temperature T=-1. The generalized framework allowed going beyond the proposed counting approach by encoding the constraints and assumptions in the form of energy at the parameter level. Overall, these approaches may open up avenues for research on model analysis and comparison or lead to practical applications for neural architecture search.

Benzer Tezler

  1. Advanced MRI reconstruction and detection techniques for meniscal tear diagnosis at high acceleration factors

    Yüksek hızlandırma faktörlerinde menisküs yırtığı teşhisi için gelişmiş manyetik rezonans görüntüleme (MRG) geriçatım ve tespit teknikleri

    FATMA HARMAN

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik MühendisliğiDokuz Eylül Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA ALPER SELVER

  2. Enhancing reliability in semantic communication: A stochastic approach to semantic-graph modeling

    Anlamsal iletişimde güvenilirliğiarttırma: Anlamsal-grafik modellemesine stokastik yaklaşım

    SADIK YAĞIZ YETİM

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ORHAN ARIKAN

  3. Dinamik olmayan stokastik rezonans yöntemi kullanılarak su altı görüntülerinin iyileştirilmesi

    Underwater image enhancement using non-dynamic stochastic resonance

    RUSTAM SALIMOV

    Doktora

    Türkçe

    Türkçe

    2024

    Fizik ve Fizik MühendisliğiSakarya Üniversitesi

    Fizik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HACI AHMET YILDIRIM

  4. A complementary study on European Portfolio for student teachers of languages in relation to the European Profiling Grid

    Dil öğretmen adaylarına yönelik Avrupa Portfolyosu üzerine Avrupa Profil Belirleme Gridi ile ilişkili tamamlayıcı bir çalışma

    AYFER SU BERGİL

    Doktora

    İngilizce

    İngilizce

    2015

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DOÇ. DR. ARİF SARIÇOBAN

  5. Elektron ışın kaynağı ve otomotiv endüstrisindeki uygulamaları

    Başlık çevirisi yok

    ERCAN CİHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. SELAHATTİN ANIK