Conditional computation techniques in deep neural networks with conditional information gain

Derin sinir ağlarında koşullu bilgi kazanımı ile koşullu hesaplama yöntemleri

PDF İndir

Tez No: 882889
Yazar: UFUK CAN BİÇİCİ
Danışmanlar: PROF. DR. LALE AKARUN ERSOY
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 199

Özet

Son zamanlarda derin sinir ağları, özellikle evrişimli sinir ağları, görüntü işleme, nesne algılama ve anlamsal bölümleme gibi birçok bilgisayarlı görme probleminde büyük performans elde etmiştir. Bu ağlar, yüksek sayıda katman ve birçok öğrenilebilir parametre kullanarak bu performans seviyesine ulaşabilmektedir. Bu durum, bu ağların uç cihazlar gibi sınırlı bilgi işlem kapasitesine sahip ortamlarda kullanımı gerektiğinde, verimli çıkarım için sorunlar yaratır. Literatürde bu konuyu ele alan çok sayıda benzer yaklaşım arasında koşullu hesaplama, girdinin özelliklerine bağlı olarak derin bir sinir ağının bazı bölümlerinin kullanıldığı veya atlandığı bir verimli çıkarım yöntemidir. Bu tezde iki ana koşullu hesaplama yaklaşımı geliştirdik: Birincisi, bir sinir ağının ağaç şeklinde tasarlandığı ve örneklerin bilgi kazanımıyla eğitilmiş ağ elemanlarına göre yönlendirildiği“Koşullu Bilgi Kazanım Ağları”yöntemidir. İkincisi ise yine bilgi kazanım hedefleri doğrultusunda eğitilmiş yönlendirme birimlerinin kararlarına dayalı olarak örneklerin yönlendirilmesine olanak sağlayan kafes şeklinde bir ağı tanımlayan“Koşullu Bilgi Kazanımı Kafesi”yöntemidir. Her iki model için de kayıp fonksiyonları ve eğitim algoritmaları geliştiriyoruz. Her iki model için de örneklerin bu ağlarda birden fazla rota üzerinden yönlendirilmesine izin veren çıkarım metodolojileri geliştiriyoruz ve burada ek model performansı ile ekstra hesaplama yükü arasında bir denge kurmaya çalışıyoruz.“Uzmanların Seyrek Karışımı”çıkarımı olarak adlandırdığımız bu çok yollu yönlendirme yaklaşımları, Bayesci Optimizasyon, Çapraz Entropi Entropi ile Arama ve Pekiştirmeli Öğrenme gibi algoritmalar kullanılarak uygulanmaktadır. Bu model tasarımlarının sonuçlarını çeşitli deneylerle gösteriyoruz.

Özet (Çeviri)

Recently, deep neural networks, particularly convolutional neural networks, have excelled in computer vision tasks such as image classification, object detection, and semantic segmentation. Their high performance stems from numerous layers and learnable parameters. However, this complexity poses challenges for efficient inference, especially on devices with limited computing power, like edge devices. Among numerous similar approaches in the literature to address this issue, conditional computing is an efficient inference method where parts of a deep neural network are used or skipped based on the properties of the input. In this thesis, we develop two main conditional computing approaches:“Conditional Information Gain Networks”, where a neural network is designed in the shape of a tree, and the samples are routed based on network elements that are trained with information gain. The second one is the“Conditional Information Gain Trellis”, which describes a trellis-shaped network that again allows the routing of the samples based on the decisions of routing units trained by information gain objectives. We develop loss functions, training methodologies, and regularizers for both models. For both models, we develop inference methodologies that allow the routing of samples over more than one route in these networks, where we try to achieve a balance between additional model performance and extra computational burden. These multiple-path routing approaches, which we call“Sparse Mixture of Experts”inference, are implemented using algorithms such as Bayesian Optimization, Cross-Entropy Entropy Search, and Reinforcement Learning. We show the results of these model designs with various experiments.

Benzer Tezler

Tez No
857941
Accelerating molecular docking using machine learning methods
Kenetleme hesaplarının makine öğrenme metotları ile hızlandırılması
ABDULSALAM YAZID BANDE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
Assist. Prof. Dr. SEFER BADAY
Tez No
935752
Gerçek zaman-imge işleme temelli kumaş kalite kontrol sistemi
Real time-image processing based fabric quality control system
MEHMET ERDOĞAN
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA DOĞAN
Tez No
697344
Yeni nesil haberleşme sistemlerinde derin öğrenme tabanlı sezici tasarımı ve başarım analizi
Deep learning based detector design and performance analysis in new genration communication systems
AHMET EMİR
Doktora
Türkçe
2021
Elektrik ve Elektronik Mühendisliği Zonguldak Bülent Ecevit Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAKAN KAYA
Tez No
947971
Kanal tabanlı özellik temsili ve derin öğrenmeye dayalı uykululuk sınıflandırması
Drowsiness classification based on channel-based feature representation and deep learning
MUSTAFA RIFAT ÇELİK
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ZÜMRAY ÖLMEZ
Tez No
571244
Makine öğrenmesi yardımıyla zincir restoran gıda satışlarının tahmin edilmesi ve hava durumunun etkisinin incelenmesi
Forecasting food sales on chain restaurant and investigating weather effect on sales by using machine learning methods
SEZGİ ŞENER
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAŞAR ÖZTAYŞİ

Geri Dön