Hierarchical multitask learning for language modeling with transformers
Hiyerarşik çoklu görev öğrenimi yaklaşımı ile dönüştürücülerde dil modelleme
- Tez No: 652353
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Mühendislik Bilimleri, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 79
Özet
Son çalışmalar kelimelerin bağlamsal gömmelerini kullanmanın alt görevler için faydalı olduğunu göstermiştir. Bu yaklaşımın başarılı bir örneği Dönüştürücülerden Çift yönlü Gizyazar Gösterimi'dir (DÇGG). DÇGG bağlamsal gömmeleri maskelenmiş dil modeli (maskelenmiş DM) ve sonraki cümle tahmini (SCT) olan iki görevi birlikte çözerek öğrenir. Bu işlem ön eğitim olarak adlandırılır. DÇGG'nin ön eğitimi aynı zamanda çoklu görev öğrenimi olarak da tasarlanabilir. Bu tezde, DÇGG'nin ön eğitimi için hiyerarşik çoklu görev öğrenimi yaklaşımları uygulanmıştır. Ön eğitim görevleri son katman yerine farklı katmanlarda çözülür ve SCT görevindeki bilgiler maskelenmiş DM görevine aktarılır. Ayrıca, iki-gram yerini değiştirme görevi ek bir ön eğitim görevi olarak kelimelerin dizilimine ait bilgileri kodlamak için önerilmiştir. Oluşturulan gömmeleri test etmek için iki farklı alt görev seçilmiştir. Bunlardan biri cümle düzeyinde gömmeler gerektiren metinsel gerektime problemidir. Diğeri ise kelime düzeyinde bağlamsal gömme gerektiren soru cevaplama problemidir. Hesaplama kısıtlamaları nedeniyle, önerilen modellerin ön eğitimi büyük veri seti yerine alt görev verileri kullanılarak yapılmıştır. Öğrenilen gömmeleri analiz etmek ve yorumlamak için tasarlanan çeşitli irdeleme problemlerinde bu gömmelerin performansları incelenmiştir. Sonuçlar, ön eğitimde görev hiyerarşisi uygulanmasının gömmelerin performansını arttırdığını göstermektedir.
Özet (Çeviri)
Recent works show that learning contextualized embeddings for words is beneficial for natural language processing (NLP) tasks. Bidirectional Encoder Representations from Transformers (BERT) is one successful example of this approach. It learns embeddings by solving two tasks, which are masked language model (masked LM) and the next sentence prediction (NSP). This procedure is known as pre-training. The pre-training of BERT can also be framed as a multitask learning problem. In this thesis, we adopt hierarchical multitask learning approaches for BERT pre-training. Pre-training tasks are solved at different layers instead of the last layer, and information from the NSP task is transferred to the masked LM task. Also, we propose a new pre-training task, bigram shift, to encode word order information. To evaluate the effectiveness of our proposed models, we choose two downstream tasks, one of which requires sentence-level embeddings (textual entailment), and the other requires contextualized embeddings of words (question answering). Due to computational restrictions, we use the downstream task data instead of a large dataset for the pre-training to see the performance of proposed models when given a restricted dataset. We test their performance on several probing tasks to analyze learned embeddings. Our results show that imposing a task hierarchy in pre-training improves the performance of embeddings.
Benzer Tezler
- Yerel görünüm ve derin modeller kullanarak hibrit bir yüz tanıma yaklaşımı
A hybrid face recognition approach using local appearance and deep models
MERT ARI
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL
- Deep learning applied to remote sensing image sequence analysis
Uzaktan algılanmış görüntü dizgilerinin derin öğrenme ile çözümlenmesi
MELİKE İLTERALP
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ERCHAN APTOULA
- İki serbestlik dereceli hareket kontrolü için zihinsel görev sınıflandırma tabanlı beyin- bilgisayar arayüzü tasarımı
Mental task classification based brain-computer interface design for 2 dof movement control
ÇAĞLAR UYULAN
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar ÜniversitesiNörobilim Ana Bilim Dalı
YRD. DOÇ. DR. TÜRKER TEKİN ERGÜZEL
- Representation of human brain by mesh networks
İnsan beyninin örgü ağları ile gösterimi
ITIR ÖNAL ERTUĞRUL
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATOŞ TUNAY YARMAN VURAL
- Ölçeklenebilir video kodlayıcı/çözümleyici ile çok katmanlı görevdeş ağlarda video akışlandırma
Hierarchical peer-to-peer video streaming with scalable video codec
MÜGE SAYIT
Doktora
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
PROF. DR. E. TURHAN TUNALI