Geri Dön

Addressing encoder-only transformer limitations with graph neural networks for text classification

Yalnızca kodlayıcı kullanan dönüştürücülerin metin sınıflandırmasındaki sınırlamalarının çizge sinir ağları ile aşılması

  1. Tez No: 918321
  2. Yazar: ARDA CAN ARAS
  3. Danışmanlar: DR. AYKUT KOÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 103

Özet

Son yıllarda Doğal Dil İşleme (DDİ) alanındaki gelişmeler, sıralı verilerde bağlamsal bilgiyi yakalayabilen dönüştürücü tabanlı modeller tarafından yönlendirilmiş ve metin sınıflandırma ile doğal dil anlama gibi görevlerde devrim yaratmıştır. Paralel olarak, Çizge Sinir Ağları (GNNs), çizge temsillerini kullanarak varlıklar arasındaki küresel ilişkileri modelleyebilen güçlü araçlar olarak ortaya çıkmıştır. Ancak, bu alanların kesişiminde, mevcut modellerin etkinliğini ve ölçeklenebilirliğini sınırlayan önemli zorluklar devam etmektedir. Bu zorluklar arasında bağlamsal ve yapısal bilgiyi sorunsuz bir şekilde entegre edememe, statik grafik oluşturma ve transdüktif öğrenmeyle ilişkili hesaplama verimsizlikleri ve düşük etiketli veri senaryolarında modellerin yetersiz performansı yer almaktadır. Bu tez, dönüştürücü ve GNN algoritmalarının birbirini tamamlayan güçlü yönlerinden yararlanarak bu zorlukları ele alan yenilikçi metodolojiler geliştirmektedir. İlk katkı, GRTE, önceden eğitilmiş dönüştürücü modelleri ile heterojen ve homojen grafik temsillerini birleştirerek metin sınıflandırmasını hem indüktif hem de transdüktif ortamlarda iyileştiren bir mimari sunmaktadır. GRTE, mevcut en gelişmiş modellerle karşılaştırıldığında, eğitim yükünü 100 kat oranında azaltarak önemli ölçüde hesaplama verimliliği sağlamaktadır. İkinci katkı, Text-RGNN, heterojen metin çizgeler için ilişkisel bir modelleme çerçevesi önermekte ve düğümler arasındaki çeşitli etkileşimlerin incelikli bir şekilde temsil edilmesini sağlayarak, özellikle düşük etiketli veri senaryolarında mevcut modellere göre %10.61 oranına kadar doğruluk artışı göstermektedir. Son olarak, üçüncü katkı olan VISPool, dönüştürücü çıktılarından dinamik olarak vektör görünürlük çizgeleri oluşturan ölçeklenebilir bir mimari sunmakta ve çizge tabanlı akıl yürütmeyi dönüştürücü iş akışlarına sorunsuz bir şekilde entegre ederken GLUE gibi DDİ veri kümelerinde belirli görevlerde %13 oranına kadar performans iyileştirmeleri sağlamaktadır. Kapsamlı deneyler ve mevcut en gelişmiş modellerle yapılan karşılaştırmalı değerlendirmeler yoluyla, bu tez önerilen metodolojilerin etkinliğini ortaya koymaktadır. Sonuçlar, performans iyileştirme, ölçeklenebilirlik ve DDİ ile GNN entegrasyonundaki uzun süredir devam eden zorlukları ele alma potansiyelini göstermektedir. Bu tez, çizge tabanlı ve dönüştürücü tabanlı yaklaşımların kesişiminde gelecekteki araştırmalar ve uygulamalar için sağlam bir temel oluşturarak metin temsili ve sınıflandırmasında alanın en ileri düzeyine önemli bir katkı sağlamaktadır.

Özet (Çeviri)

Recent advancements in NLP have been primarily driven by transformer-based models, which capture contextual information within sequences, revolutionizing tasks such as text classification and natural language understanding. In parallel, GNNs have emerged as powerful tools for modeling structured data, leveraging graph representations to capture global relationships across entities. However, significant challenges persist at the intersection of these fields, limiting the efficacy and scalability of existing models. These challenges include the inability to seamlessly integrate contextual and structural information, computational inefficiencies associated with static graph construction and transductive learning, and the underperformance of models in low-labeled data scenarios. This thesis explores and addresses these challenges by developing novel methodologies that unify transformers and GNNs, leveraging their complementary strengths. The first contribution, GRTE, introduces an architecture that combines pre-trained transformer models with heterogeneous and homogeneous graph representations to enhance text classification in both inductive and transductive settings. Compared to state-of-the-art models, GRTE achieves significant computational efficiency, reducing training overhead by up to 100 times. The second contribution, Text-RGNN, proposes a relational modeling framework for heterogeneous text graphs, enabling the nuanced representation of diverse interactions between nodes and demonstrating substantial accuracy improvements of up to 10.61% over existing models, particularly in low-labeled data settings. Finally, the third contribution, VISPool, introduces a scalable architecture that dynamically constructs vector visibility graphs from transformer outputs, enabling seamless integration of graph-based reasoning into transformer pipelines while improving performance on NLP benchmarks such as GLUE, with performance improvements of up to 13% in specific tasks. Through comprehensive experimentation and benchmarking against state-of-the-art models, this thesis establishes the efficacy of these proposed methodologies. The results demonstrate the potential for improved performance, scalability, and the ability to address long-standing challenges in NLP and GNN integration. These contributions lay a robust foundation for future research and applications at the intersection of graph-based and transformer-based approaches, advancing the state of the art in text representation and classification.

Benzer Tezler

  1. Sosyal mühendislikte komplo tabanlı içeriklerin yapay zekâ ile analizi

    Analysis of conspiracy-based content in social engineering with artificial intelligence

    EMEL KOÇYİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FATİH ÇALLI

  2. Denetimsiz derin öğrenme kullanılarak dijital meme tomosentezi görüntülerinde bulanıklığın giderilmesi

    Unsupervised deblurring of digital breast tomosynthesis images using deep learning

    MÜBERRA AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İSA YILDIRIM

  3. Improved bone marrow cell classification using enhanced capsnet and enhanced U-net: Addressing data imbalance and large-scale data

    Geliştirilmiş kapsül ağı ve U-net kullanarak kemik iliği hücrelerinin iyileştirilmiş sınıflandırılması: Veri dengesizliği ve büyük ölçekli veri sorunlarına çözüm

    AMINA FARIS ABDULLAH AL-RAHHAWI

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NESRİN AYDIN ATASOY

  4. Spatiotemporal series analysis and forecasting: New deep learning architectures on weather and crime forecasting

    Uzay-zamansal serilerde analiz ve tahminleme: Hava durumu ve suç tahmininde yeni derin öğrenme mimarileri

    SELİM FURKAN TEKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN SERDAR KOZAT

  5. Improving sample efficiency in reinforcement learning control using autoencoders

    Pekiştirmeli öğrenme kontrolde otokodlayıcılar ile örnekleme verimliliğini arttırma

    BURAK ER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA DOĞAN