Continual learning with sparse progressive neural networks
Seyrek ilerlemeli sinir ağları ile sürekli öğrenme
- Tez No: 639233
- Danışmanlar: DOÇ. DR. BEHÇET UĞUR TÖREYİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 73
Özet
Biyolojik zeka öğrenilmiş becerileri yeni karşılaşılan görevlere transfer edebilmekte, bu girişleri, zamana bağlı, öncül bilgi cinsinden ifade ederek öğrenebilmektedir. Daha önce öğrenilen beceriler, yeni öğrenilen becerilerin performansını artırmakta, yeni öğrenilen beceriler de, geçmiş becerilerin pekişmesini sağlamaktadır. Yapay sinir ağları son yıllarda birçok görsel, işitsel ve sekans verilerinde başarım göstermiştir ancak bir dizi görev üzerinde performans sağlamak konusunda yetersizdir. Yapay Sinir Ağları optimizasyona dayalı doğaları nedeni ile birbiriyle ilişkili veya ilişkisiz bir dizi görev ile karşılaştıklarında“yıkıcı unutkanlık”problemi ile karşılaşmaktadırlar. Eğitim yapılmış bir model başka bir görev için eğitildiğinde daha önce öğrenilen görevlerde ciddi performans düşüşü yaşamaktadır. Bu problem yapay genel zeka yolundaki en büyük engellerden biridir. Yıkıcı unutkanlık problemi ve görsel verilerde sınıflandırma yapay zekanın ve bilgisayarla görü alanının üzerinde yoğun derecede çalıştığı alanlardır. Bir sürekli öğrenme senaryosunun amacı, art arda gelen görev dizisini yıkıcı unutkanlık problemiyle karşılaşmadan çözebilmek, ileri ve geri bilgi transferini arttırmaktır. Amaç, geçmişte öğrenilen becerilerin gelecekteki görev başarımını ve verimliliğini, yeni öğrenilen becerilerin geçmiş görevlerde verimliliği arttırmasıdır. Eldeki görev öğrenilirken, daha önce karşılaşmış görevlerin dağılımlarına erişim yoktur ve bu durum problemi zorlaştırmaktadır. Varolan yöntemler üç ana gruba ayrılmaktadır: model yapısının değişmesine dayalı yöntemler, tekrarlama mantığına dayalı yöntemler ve regülarizasyona dayalı yöntemler. İlerlemeli Sinir Ağları, sürekli öğrenme için pekiştirmeli öğrenme problemleri üzerinde denenmiş model değişimine dayanan yöntemlerden biridir. Yeni görevler ile birlikte bu görevlere özel parametreler tanımlanır ve daha önce öğrenilen görevlere ait parametrelerin güncellenmesi durdurulur. Bu model yapısı gereği, yıkıcı unutkanlık problemine bağışıktır. Geleneksel İlerlemeli Sinir Ağları'nın pekiştirmeli öğrenme problemlerinde başarımı gösterilmiştir. Bir eksiği ise parametre sayısının görev sayısıyla beraber karesel artmasıdır. Yanal bağlantılar ile her görev için yeni bir parametre kümesi öğrenmek eğitim örnek setinin ezberlenme riskini arttırmakta, matris çarpımlarını pahalılaştırmakta, ihtiyaç duyulan güç ve hafızayı arttırmaktadır. Yapay sinir ağlarında ve sürekli öğrenme problemlerinde görevin zorluğuna bağlı olarak farklı boyutta modeller gerekebilir. Yapay sinir ağlarında seyreklik modellerin regülarizasyonu amacıyla kullanılmaktadır. Seyreklik sayesinde matris çarpımları daha hızlı gerçekleştirilebilmekte ve sinir ağı modelleri seyrek matrisler kullanılarak daha verimli depolanabilmektedirler. Seyreklik nöron seviyesinde ya da ağırlık seviyesinde sağlanabilmektedir. Regülarizasyon katkıları ve hız-depolama verimliliğiini arttırmaları, biyolojik sinir ağlarına yakınlıkları ve gürültüye karşı dayanıklılıkları nedeni ile sinir ağlarında seyreklik çokça çalışılmış ve çalışılmakta olan bir alandır. Özellikle gürültünün fazla olduğu çerçevelerde ezberlemenin önüne geçen seyreklik ağırlık ya da nöron seviyesinde farklı yöntemlerle elde edilebilmektedir. Bunlardan biri, bağlantının şiddetiyle ilişkili olarak ağırlık budama veya maskelemedir. Bunların yanı sıra regülarizasyon terimi ile seyreklik elde eden çalışmalar da vardır. En Küçük Mutlak Daralma ve Seçme Operatorü regülarizasyonu bunların bir örneğidir. Literatürdeki mevcut çalışmalar ağırlıkları sıfıra iterek ezberlemeyi azaltmaktadırlar. Bu tezde, model yapısının değişmesine bağlı yöntemler grubuna ait, yanal bağlantıları kullanan, İlerlemeli Sinir Ağları modelinin birkaç çeşidi bir dizi görsel sınıflandırma problemleri üzerinde denenmiştir. Daha önce pekiştirmeli öğrenme probleminde kullanılan İlerlemeli Sinir Ağlarının görsel sınıflandırma görevlerindeki başarımı ve ileri transfer yeteneği FMNIST, KMNIST ve MNIST ve CIFAR-100 veritabanları kullanılarak ölçülmüştür. İlerlemeli Sinir Ağlarının verimini arttırmak amacıyla aktivasyon ve ağırlık seyrekliğine gidilmiştir, bunun için maskeleme ve hata fonksiyonunun regülarizasyonu incelenmiştir. Maskeleme yönteminde, aktivasyonlar veya ağırlıklar sıralanmış ve en yüksek değere sahip K nöron dışındaki aktivasyonlar veya ağırlıklar sıfıra eşitlenmiştir. Hata fonksiyonuna terim ekleyerek yapılan regülarizasyonda Grup Seyrek LASSO regülarizasyonu kullanılmıştır. Grup seyrek LASSO regülarizasyonu bir nöronun bağlantılarının grup olarak sıfıra gitmesini sağlar. Bu regülarizasyonun geleneksel ağırlık regülarizasyonu $l_p$ normlarından farkı, grup bazında seyreklik ile bir nöronun modelden tamamen çıkarılmasını sağlayabilmektir. Her iki seyreklik yöntemi ile beraber, öznitelik uzaylarının birbirinden farklı olmasını teşvik edici izdüşüm regülarizasyon terimi eklenmiş ve etkisi incelenmiştir. Maskeleme yönemi ile elde edilen seyrek ilerlemeli sinir ağları incelemesinde FMNIST, KMNIST VE MNIST veri setleri kullanılmıştır. Model farklı sıralarda üç verisetiyle eğitilmiş, görev sırasının, yanal bağlantıların ve regülarizasyon terimlerinin performansa etkisi raporlanmıştır. Bu deneylerde tam bağlantılı katmanlar ve konvolüsyonel katmanların kullanıldığı iki farklı ilerlemeli sinir ağı modeli kullanılmıştır. Seyrek Grup LASSO regülarizasyonu ile elde edilen ilerlemeli sinir ağlarında da hem çok katmanlı tam bağlantılı sinir ağı hem de konvolüsyonel sinir ağlarında MNIST verisetinin piksellerinin rastgele yer değiştirilmesiyle elde edilen permutedMNIST veriseti kullanılmıştır. Maskeleme ile seyreklikte olduğu gibi burada da öznitelik artıklığını önlemek için projeksiyon regülarizasyonu uygulanmıştır. Bu sistemde kullanılan ilerlemeli sinir ağı modelinde ağırlıkları seyrekleştirerek de makul performanslara ulaşılabildiği; öznitelik artıklığı için kullanılan bu regülarizasyonun, seyrekleştirmenin getirdiği performans düşüşünü büyük ölçüde önlediği ve yeni göreve özel öğrenilen ağırlık sayısını azalttığı görülmüştür. Art arda gelen görevleri içeren sürekli öğrenme sisteminde görev sırasının etkisini anlamak için CIFAR-100 verisetinin çeşili alt kümeleri (insan, ev mobilyaları, orta boyutlu memeliler, araçlar 1) seçilerek farklı sıralarda ilerlemeli sinir ağlarıyla eğitim yapılmıştır. Bu deneylerde tam bağlantılı ve konvolüsyonel ilerlemeli sinir ağları kullanılmıştır. Burada, konvolüsyonel katmanların yanal bağlantılardan gelen girişleri yinelemeli olarak yığınlanmış, tam bağlantılı katmanı, geleneksel ilerlemeli sinir ağlarından farklı bir ileri fonksiyon kullanılmıştır. Her görev için özel öğrenilen filtrelerle elde edilen aktivasyon haritaları yinelemi olarak yığınlanmıştır. Kullanılan ilerleme fonksiyonunda gereken parametre sayısı literatürden daha azdır. Öncül görevin şu anki görevle olan ilişkisinin performans üzerindeki etkisi incelenmiştir. Yapılan analizlerin permutedMNIST veriseti ile çok katmanlı sinir ağları kullanılan kısmında elde edilen sonuçlarda, İlerlemeli Sinir Ağları'nda seyrek grup regülarizasyonu kullanmak, beklenildiği gibi ortalama performansı düşürmektedir. Bu düşüş örtüşmeyen ağırlık matrisleri öğrenmeye zorlanılarak büyük ölçüde engellenebilmektedir. Her görev için örtüşmeyen ağırlık matrislerini öğrenmek ve yanal bağlantıları kullanmak, göreve özel öğrenilen aktif bağlantı sayısını azaltmakta, ileri transfer sağlanmaktadır. Görev sırası ile ilişkin CIFAR-100 alt kümeleri ile yapılan deneylerde elde edilen sonuçlar ilerlemeli sinir ağlarının görsel sınıflandırma dizisinde yıkıcı unutkanlık sorunuyla karşılaşmadan ileri bilgi transferini yakaladığını ve bunun görev sırasıyla ilişkili olduğunu göstermiştir. Kullanılan seyreklik yöntemleri ile yüksek seyreklik oranları elde edilmiş, benzer zorluktaki görevlerde görev sırasıyla doğru orantılı olarak ihtiyaç olan nöron sayısı azalmıştır. Konvolüsyonel İlerlemeli Sinir Ağları ile yapılan deneylerde hem seyrek hem de seyrek olmayan durumlarda yanal bağlantıların ileri transferi sağladığı görülmüştür.
Özet (Çeviri)
Artificial Neural Networks address major problems of computer vision, natural language processing and data science in the last decade with the increasing computational power and amount of data. Despite its popularity and success, when presented with a sequence of tasks with only having access to current task's data, neural networks fail to preserve its performance on previously learned tasks. This problem is called catastrophic forgetting and one of the biggest obstacle on the way of artificial general intelligence. Continual Learning is defined as the research field of learning a collection of tasks sequentially without suffering from catastrophic forgetting while improving the forward and the backward transfer across tasks. Human brain does not suffer from catastrophic forgetting because each task builds on top of the anterior tasks by effectively integrating skills and fine tuning. Inspired by human intelligence, this thesis builds on top of progressive neural networks. In this study, to continuously learn a visual classification task sequence, several progressive neural network models that exploits weight spaces with lateral connections are investigated. There are three main purposes of this thesis. First, sparsification of the progressive neural networks, second, decreasing the redundancy of weight spaces and investigating the effect of task order on performance. Number of parameters of a Progressive Neural Network increases with the arrival of a new task. Therefore, in order to increase the efficiency of PNNs, the first part of this thesis focuses on sparsification. To achieve this, two methods are investigated: binary masks and sparse group Least Absolute Schrinkage and Selection Operator (LASSO) regularization. These methods are used for sparsifying the weights and activations of a PNN. Furthermore, in order to decrease the feature redundancy, projection of current tasks' weight matrix to parameters of previous tasks and mean squared error are employed as additional terms to the loss. The goal is to employ relevant features from previously trained tasks and create compact progressive neural networks. Lastly, the effect of various prior tasks on current task's performance is analyzed. Experiments are carried out on KMNIST, FMNIST, MNIST, permutedMNIST and selected subtasks from CIFAR-100 dataset. In all scenarios a multi-head output settings are considered where a new classification layer is initialized within the arrival of a new task. We show that encouraging feature novelty on Progressive Neural Networks (PNN) prevents major performance decrease on sparsification. Results demonstrated that sparsification of a PNN produces fair results and decreases the number of learned task-specific parameters on novel tasks. Moreover, in progressive settings, type of the prior task affects the performance of current task. A similar task prior task boosts accuracy while a dissimilar task harms the performance.
Benzer Tezler
- Sparse coding based ensemble classifiers combined with active learning framework for data classification
Veri sınıflandırma için aktif öğrenme çerçevesi ile birleştirilmiş ayrık kodlama tabanlı sınıflandırıcı toplulukları
GÖKSU TÜYSÜZOĞLU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YUSUF YASLAN
- Seyrek işaret işlemede sınıflandırma uygulamaları ve çekirdek tabanlı yaklaşımlar
Classification applications of sparse signal processing and kernel based methods
ABDURRAHMAN YEŞİLOĞLU
Yüksek Lisans
Türkçe
2015
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. ENDER METE EKŞİOĞLU
- Active learning based human in the loop deep object detectionfor scalable data annotation
Ölçeklenebilir veri etiketlenmesi için aktif öğrenme tabanlı insan katılımlı derin nesne tespiti sistemi
ATABERK ARMAN KAYHAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
- Echo state network ile sistemlerin modellenmesi
System modeling using echo state network
SELİN YAMAN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ENGİN YEŞİL
- Görüntü işlemede yama sıralama tabanlı yaklaşımlar
Patch ordering based approaches for image processing
ÖZDEN ÇOLAK
Doktora
Türkçe
2021
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU