Geri Dön

A memory and meta learning based solution in graph continual learning

Çizgelerdeki sürekli öğrenme probleminde hafıza ve meta öğrenme temelli çözüm

  1. Tez No: 876166
  2. Yazar: ALTAY ÜNAL
  3. Danışmanlar: PROF. DR. GÖZDE ÜNAL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Regresyon ve sınıflandırma gibi çeşitli işlerde derin öğrenme modellerinin başarılı şekilde performans gösterdiği ispatlanmıştır. Ancak yeni bir iş geldiğinde daha önceden öğrendikleri işlerde gösterdikleri performansı koruyarak bu işi öğrenmeleri beklenirken bu modeller önceden öğrenilen işleri unutma eğilimindedirler. Bu fenomene yıkıcı unutma denir ve bu fenomen sürekli öğrenme alanındaki ana zorluktur. Yıkıcı unutma durumu aşağıdaki senaryoda açıklanmaktadır. Bir derin öğrenme modeli bir takım işlerde eğitilmiş ve iyi performans göstermektedir. Sıradaki iş için eğitilirken önceden öğrendiği işleri“unutur”ve bu işlerde performans kaybı yaşanır. Önceki işlerde performans kaybı yaşanırken model bu esnada kendi parametrelerini aktif olarak öğrendiği işte performans gösterecek şekilde ayarlar. Sürekli öğrenmede amaç bu senaryonun gerçekleşmesini önleyerek bir modeli birden fazla işte performans gösterecek şekilde eğitmektir. Birden fazla iş için birden fazla model eğitmek oldukça verimsizdir çünkü hem derin öğrenme modellerinin eğitimi uzun vakit alır hem de bu modelleri barındırmak çok ciddi cihaz hafızası gerektirir. Dolayısıyla sürekli öğrenme bu sorunları çözmek üzere geliştirilmiş bir konsepttir. Yıkıcı unutmanın yanı sıra kapasite doyumunda sürekli öğrenmede odaklanılan başka bir zorluktur. Kapasite doyumunda derin öğrenme modellerinin mimarisi incelenir ve model mimarisinin birden fazla iş öğrenimindeki etkisi araştırılır. Kapasitesi belli olan bir modelin performansı gelen iş sayısı arttıkça sabitlenecek ve model parametreleri doymuş olacaktır. Bu durum sağlamlık esneklik ikilemine yol açmaktadır, bir model yeterince esnek olursa gelen her işi öğrenebilir ancak sağlam olmadığı için önceden öğrenilen işlerle alakalı bilgilerini yitirerek sürekli öğrenmeyi yerine getiremeyecektir. Sürekli öğrenme araştırmalarında genel olarak üç çeşit yaklaşım ön plana çıkmaktadır. Bunlar parametre izolasyon temelli metotlar, arabellek temelli metotlar ve regülarizasyon temelli metotlardır. Parametre izolasyonu temelli metotlarda işlerde özel olarak ön plana çıkan parametreler belirlenerek bu parametrelerin bir sonraki işlerde güncellenmesi önlenir, bu sayede öğrenilen bilgilerin kaybolmaması amaçlanır. Regülarizasyon temelli metotlarda yitim fonksiyonuna eklenen bir terim ile modelin unutmasının önüne geçilmesi hedeflenirken arabellek temelli metotlarda amaç modele ek olarak bir arabellek tanımlanarak bu arabelleğin modelin eğitiminde rol oynayarak modelin önceki işleri unutmasının önüne geçmesini sağlamaktır. Sürekli öğrenmede amaç önceki işlere ilişkin bilgiyi korumak olduğu için amaç bir manada model parametrelerinin o işler için optimal olan parametrelerinden uzaklaştırmadan yeni bir işi öğretmektir. Bu noktada da meta öğrenme konsepti sürekli öğrenme ile kesişmektedir. Meta öğrenmede amaç modelin gelen işleri genelleştirmesini sağlamaktır, modele gelen işi nasıl öğreneceği öğretilir. Böylelikle model gelen işleri uygun şekilde genelleştirerek hepsinde performans gösterebilecek şekilde parametrelerini uyarlar. Meta öğrenmenin bu yönü sürekli öğrenme ile benzerlikler taşıdığı için sürekli öğrenmeye katkı sağlayabilir. Sürekli öğrenme an itibariyle yükselişte olan bir araştırma konusudur çünkü derin öğrenme modellerinin birden fazla işte performans göstermeleri sorunsuz şekilde gündelik uygulamalara uyarlanmak istenmektedir. Ancak sürekli öğrenme çalışmaları genel olarak görsel veri üzerinden ilerlemektedir. Dolayısıyla çizge verisi üzerine odaklanan sürekli öğrenme ya da sürekli çizge öğrenmesi önü oldukça açık bir araştırma alanıdır. Bununla beraber çizge verisinin görsel veriye göre farklı özellikleri olduğundan bu özellikler de değerlendirmeye alınmalıdır. Çizge verisi Öklid dışı geometriye sahip bir veridir. Dolayısıyla düzlemsel olarak değerlendirilemez. Çizge verisinde düğümler ve bu düğümleri birbirine bağlayan kenarlar bulunmaktadır. Çizge verisinin derin öğrenme modelleri tarafından öğrenilmesi sırasında düğüm özellikleri dikkate alınır. Buna ek olarak düğümleri birbirine bağlayan kenarlar da değerlendirmeye alınır. Çizge verisinde düğümler birbirleri ile olan ilişkilerine göre kenarlarla bağlandığı için derin öğrenme modelinin bu ilişkileri keşfetmesi gerekmektedir. Aksi takdirde çizge verisi ve o veriyi oluşturan düğümlerin ilişkisi anlaşılamaz, bu da çizge verisinin öğrenilememesine yol açar. Çizge verisinde sürekli öğrenme ya da sürekli çizge öğrenmesi keşfedilecek pek çok yönü olan bir araştırma alanıdır. Çizge verisinin yaygın hale gelmesiyle beraber çizge verisi üzerinde makine öğrenmesinin yaygınlaşmasına ek olarak çizge verisinin sürekli güncellenen bir veri tipi olması sürekli çizge öğrenmesini yükselişte olan bir araştırma alanı haline getirmiştir. Alıntı ağları veya sosyal ağlar göz önüne alındığında sürekli çizge öğrenmesinin önemi görülecektir. Bu gibi ağlar çizge olarak ifade edilmektedir ve bu ağlarda günümüzde sıklıkla yeni sınıflar oluşmaktadır. Dolayısıyla çizge verisi üzerinde eğitilen modellerin ortaya çıkan yeni sınıfları öğrenmesi gerekmektedir. Aksi takdirde bu modellerin tekrar eğitilmesi gerekmektedir. Bu teze konu olan çalışmada sürekli çizge öğrenmesi alanına odaklanılmıştır ve“tekrar arabelleği”ile“meta öğrenme”konseptleri kullanılarak sürekli çizge öğrenmesini yerine getiren bir model eğitilmiştir. Bu konseptlerin kullanılma amacı sürekli çizge öğrenmesini yerine getirebilmek için hafıza temelli ve parametre temelli iki konseptin en iyi yanlarının birleştirilmesidir. Söz konusu modelin eğitimi aşağıdaki şekildedir. Öncelikle aktif iş verisi üzerinde model parametreleri hesaplanır. Ardından, önceki işlerden arabellekte depolanan örneklerle aktif işin verisi birleştirilir ve model parametreleri bu birleşik veri kullanılarak güncellenir. Bu sayede model parameterelerinin aktif iş için optimal olan parametrelere yakınsaması önlenirken aynı zamanda önceki işlerin öğrenimi sırasında edinilen bilgilerin korunması sağlanır. Yukarıda açıklanan şekilde eğitilen bu modelin yapılan deneylerde temel olarak alınan sürekli öğrenme modelleri ve sürekli çizge öğrenmesi modellerine göre daha iyi performans gösterdiği deneysel olarak gösterilmiştir. Deneylerde Citeseer, Corafull, Arxiv ve Reddit gibi yaygın çizge verileri kullanılmıştır. Bu deneylere ek olarak hesaplama bedeli deneyi ile arabellek ve meta öğrenmeye odaklanan ablasyon deneyleri de yapılarak kullanılan konseptlerin modelin eğitiminde olan etkileri gösterilmiştir. Bu deneyler sonucunda hem meta öğrenmenin hem tekrar arabelleğinin modelin performansına yaptığı katkılar görülmüştür. Buna ek olarak tekrar arabelleğinde tutulan örnek sayısının etkileri de araştırılmış ve sürekli öğrenmeye olan etkileri de görülmüştür.

Özet (Çeviri)

Deep learning models have proven to perform successfully at different tasks such as classification and regression. Continual learning (CL) aims for a model to learn various tasks sequentially. However, when the models are expected to adapt to incoming tasks without maintaining their performance on previous tasks, they tend to forget the previous tasks. This phenomenon is called catastrophic forgetting and catastrophic forgetting is the main challenge in the CL area. Catastrophic forgetting refers to the scenario where a model tends to forget the previous tasks it had been trained on and adjusts its parameters to perform the task it is actively being trained on. Since it is inefficient to train multiple models to perform multiple tasks, CL aims to train a single model such that it can perform on multiple tasks without losing information during the training process. In addition to catastrophic forgetting, CL also focuses on capacity saturation which is another challenge focusing on the effects of the model architecture on learning. CL is currently an emerging research field topic. However, the CL studies mainly focus on image data and there is much to discover in CL research focusing on graph-structured data or graph continual learning (GCL). The proposed solutions for GCL are mainly adapted from the general CL solutions, therefore, there is much to discover in GCL field. However, since the graph-structured data has different properties compared to image data, the graph properties need to be considered when GCL is studied. In this thesis, we focus on continual learning on graphs. We devise a technique that combines two uniquely important concepts in machine learning, namely“replay buffer”and“meta learning”, aiming to exploit the best of two worlds to successfully achieve continual learning on graph structured data. In this method, the model weights are initially computed by using the current task dataset. Next, the dataset of the current task is merged with the stored samples from the earlier tasks, and the model weights are updated using the combined dataset. This aids in preventing the model weights converging to the optimal parameters of the current task and enables the preservation of information from earlier tasks. We choose to adapt our technique to graph data structure and the task of node classification on graphs and introduce our method, MetaCLGraph. Experimental results show that MetaCLGraph shows better performance compared to both baseline CL methods and developed GCL techniques. The experiments were conducted on various graph datasets including Citeseer, Corafull, Arxiv, and Reddit.

Benzer Tezler

  1. Enriching predictive models using graph embeddings

    Tahminleme modellerinin çizge gömmeleri kullanılarak zenginleştirilmesi

    YAREN YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  2. Çapraz e-ticaret pazarlarında hibrit öneri sistemi

    Hybrid recommendation system at cross e-commerce markets

    EMRE KÖSE

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  3. Şızofreninin negatif ve pozitif belirtili alt gruplarındaki bellek profili

    Memory patterns of negative and positive subgroups of schizophrenia

    MERAL KEİGHOBADİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    PsikolojiHacettepe Üniversitesi

    Psikoloji Ana Bilim Dalı

    PROF. DR. SİREL KARAKAŞ

  4. Comparison of Entropy and Ensemble-based feature selection through network analysis of Alzheimers disease-associated variants

    Alzheimer ile ilişkili varyantların ağ analizi üzerinden Entropy ve Ensemble bazlı değişken seçiminin karşılaştırılması

    SEVDA RAFATOV

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    BiyoistatistikOrta Doğu Teknik Üniversitesi

    Sağlık Bilişimi Ana Bilim Dalı

    DOÇ. DR. YEŞİM AYDIN SON

  5. Exploring mini-batch sample selection strategies for deep learning based speech recognition

    Derin öğrenme tabanlı ses tanıma için mini-yığın örnek seçim stratejilerinin araştırılması

    YEŞİM DOKUZ

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEKERİYA TÜFEKCİ