Improving generalization in natural language inference by joint training with semantic role labeling

Başlık çevirisi mevcut değil.

PDF İndir

Tez No: 648236
Yazar: CEMİL CENGİZ
Danışmanlar: PROF. DR. DENİZ YURET
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: İngilizce
Üniversite: Koç Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 55

Özet

Son zamanlarda, uçtan uca modeller, doğal dil çıkarımı (NLI) veri kümelerinde insan seviyesine yakın bir performans sergilemiştir. Bununla birlikte, eğitim veri setlerindeki meyiller nedeniyle sığ sezgisellikler öğrenme eğiliminde oldukları için dağıtım dışı değerlendirme setlerinde düşük genelleme gösteriyorlar. Bir araya getirilebilirlik veya basit sezgiselliklere karşı dayanıklılığı ölçen tanı kümelerinde performans önemli ölçüde düşmektedir. Bu soruna yönelik mevcut çözümlerde, eğitim veri kümesini, değerlendirilen çekişmeli kategorilerden örneklerle genişleterek veri kümesi genişletmesi kullanılmaktadır. Fakat, bu yaklaşımın sadece sınırlı bir dizi çekişmeli sınıf için geçerli olmasının yanı sıra, en kötü ihtimalde genişletme setinde yer almayan diğer çekişmeli örnekler üzerindeki performansı zedelemesi gibi dezavantajları bulunmaktadır. Bunun yerine önerdiğimiz çözüm, açık olarak anlamsallığın ortak öğrenimi ile cümle anlayışını (dolayısıyla dağıtım dışı genellemeyi) geliştirmektir. Bu tezde, İngilizce anlamsal rol etiketleme (SRL) ve NLI ile ortaklaşa eğitilen BERT tabanlı bir modelin, genelleme performansını ölçen dış değerlendirme setlerinde önemli ölçüde daha yüksek performans elde ettiğini gösteriyoruz.

Özet (Çeviri)

Recently, end-to-end models have achieved near-human performance on natural language inference (NLI) datasets. However, they show low generalization on out-ofdistribution evaluation sets since they tend to learn shallow heuristics due to the biases in the training datasets. The performance decreases dramatically on diagnostic sets measuring compositionality or robustness against simple heuristics. Existing solutions for this problem employ dataset augmentation by extending the training dataset with examples from the evaluated adversarial categories. However, that approach has the drawbacks of being applicable to only a limited set of adversaries and at worst hurting the model performance on other adversaries not included in the augmentation set. Instead, our proposed solution is to improve sentence understanding (hence out-of-distribution generalization) with joint learning of explicit semantics. In this thesis, we show that a BERT based model trained jointly on English semantic role labeling (SRL) and NLI achieves signiﬁcantly higher performance on external evaluation sets measuring generalization performance.

Benzer Tezler

Tez No
947073
Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi
Classification and analysis of employee feedback with deep learning algorithms
GÖKHAN YİĞİDEFE
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN
Tez No
885675
On real-world face super-resolution and face image synthesis evaluation
Gerçek dünya yüz süper çözünürlüğü ve yüz görüntüsü sentezi değerlendirmesi üzerine
ERDİ SARITAŞ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL
Tez No
768837
Deep learning-based building segmentation using high-resolution aerial images
Yüksek çözünürlüklü hava görüntüleri kullanarak derin öğrenme temelli bina bölütlemesi
BATUHAN SARITÜRK
Doktora
İngilizce
2022
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
Geomatik Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
Tez No
931408
Avrupa insan hakları mahkemesi yargı kararlarının tahmin edilmesi
Predicting the judgments of the european court of human rights
NAGİHAN ÜNAL
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Adli Bilişim Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ
Tez No
964704
Sosyal mühendislikte komplo tabanlı içeriklerin yapay zekâ ile analizi
Analysis of conspiracy-based content in social engineering with artificial intelligence
EMEL KOÇYİĞİT
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATİH ÇALLI

Geri Dön