Learning visually-grounded representationsusing cross-lingual multimodal pre-training

Çok dilli çok kipli ön öğrenme ile görsel tabanlı temsillerin öğrenilmesi

PDF İndir

Tez No: 651296
Yazar: MENEKŞE KUYU
Danışmanlar: DOÇ. DR. MEHMET ERKUT ERDEM
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: İngilizce
Üniversite: Hacettepe Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 81

Özet

Son yıllarda veri sayısındaki artış ve hesaplama gücündeki gelişmeler ile birlikte Doğal Dil İşleme alanında ön eğitimli model yaklaşımları ortaya çıkmıştır. Bu yaklaşımlar başta sadece tek dili kapsayacak şekilde olsa da, ardından çok dilli ve multimodal yapılar önerilmiştir. Çok kipli ön eğitimli modeller, Doğal Dil işleme ve Bilgisayarlı Görü alanlarının ikisini de kapsıyor olup görsel ve metinsel bilgiyi birleştirerek aynı uzayda ifade edilmesini hedef alır. Bu çalışmada, görsel temelli kelime gösterimlerini öğrenmek için diller arası ve çok kipli ön eğitim yaklaşımları birlikte kullanılmıştır. Çalışmamız, makine çevirisi ve diller arası sınıflandırma gibi çeşitli alt görevlerde başarı gösteren, diller arası ön eğitim modeli XLM tabanlıdır. Bu tez kapsamında, görsel temelli kelime vektörlerini öğrenmek için görsel içerik ve doğal dili birleştiren Görsel Çeviri Dili Modellemesi adı verilen yeni bir ön eğitim hedef önerildi. Bu amaçla, ön eğitimde gerekli olan diller arası çok kipli bir veri kümesi oluşturmak için son yıllarda önerilen en başarılı açık kaynak çeviri modelini kullanarak, büyük ölçekli bir görüntü altyazılama veri kümesi olan Conceptual Captions'ı, yeni bir dil; Almanca olarak genişlettik. Önerilen ön eğitimli model, Multi30k veri kümesini kullanarak Makine Çevirisi (MÇ) ve Çok Kipli Makine Çevirisi (ÇMÇ) görevlerinde ince ayar yapılmıştır. Hem MÇ hem de ÇMÇ görevleri için Multi30k test2016 setinde literatürdeki en başarılı sonuçlar elde edilmiştir. Ek olarak, önerilen modelin görsel içerik üzerinde nasıl çalıştığını analiz etmek için dikkat ağırlıkları görselleştirilmiştir.

Özet (Çeviri)

In recent years, pre-training approaches in the field of NLP have emerged with the increase in the number of data and developments in computational power. Although these approaches initially included only pre-training a single language, cross-lingual and multimodal approaches were proposed which employs multiple languages and modalities. While cross-lingual pre-training focuses on representing multiple languages, Multimodal pre-training integrates Natural Language Processing and Computer Vision areas and fuse visual and textual information and represent it in the same embedding space. In this work, we combine cross-lingual and multimodal pre-training approaches to learn visually-grounded word embeddings. Our work is based on cross-lingual pre-training model XLM which has shown success on various downstream tasks such as machine translation and cross-lingual classification. In this thesis, we proposed a new pre-training objective called Visual Translation Language Modeling (vTLM) which combines visual content and natural language to learn visually-grounded word embeddings. For this purpose, we extended the large-scale image captioning dataset Conceptual Captions to another language—German using state-of-the art translation system to create a cross-lingual multimodal dataset which is required in pretraining. We finetuned our pre-trained model on Machine Translation (MT) and Multimodal Machine Translation (MMT) tasks using Multi30k dataset. We obtained state-of-the-results on Multi30k test2016 set for both MT and MTT tasks. We also demonstrated attention weights of the model to analyze how it operates over the visual content.

Benzer Tezler

Tez No
847321
Learning to assemble furniture from their 2D drawings
2B çizimden mobilya montajı öğrenme
DENGE UZEL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
DOÇ. AHMET BUĞRA KOKU
PROF. SİNAN KALKAN
Tez No
722393
Çocuk kitabı karakter tasarımı üsluplarının bireyler üzerindeki etkisinin incelenmesi
An investigation of the effects of character design style of children's book on individuals
CEMRE ASLAN
Yüksek Lisans
Türkçe
2022
Güzel Sanatlar Kütahya Dumlupınar Üniversitesi
Sanat ve Tasarım Ana Sanat Dalı
PROF. DR. LEVENT MERCİN
Tez No
305069
The perceptions and experiences of students and teachers in formal and informal learning settings that uses muves: Quest atlantis case
Çok kullanıcılı sanal ortam kullanan formal ve informal eğitim ortamlarında öğrenci ve öğretmenlerin algıları ve deneyimleri: Quest atlantis durum çalışması
AYŞEGÜL BAKAR ÇÖREZ
Doktora
İngilizce
2011
Eğitim ve Öğretim Orta Doğu Teknik Üniversitesi
Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
DOÇ. DR. HAKAN TÜZÜN
DOÇ. DR. KÜRŞAT ÇAĞILTAY
Tez No
402789
Letter reversals in adults when learning Braille visually or tactually
Başlık çevirisi yok
BEGÜM ATAY
Yüksek Lisans
İngilizce
2015
Eğitim ve Öğretim Kingston University
DR. FIONA BARLOW BROWN
Tez No
458738
6. sınıf görme engelli öğrencilere maddenin tanecikli yapısıyla ilgili kavramların öğretimi
Teaching the concepts in particulate nature of matter to 6th grade visually impaired students
SERACEDDİN LEVENT ZORLUOĞLU
Doktora
Türkçe
2017
Eğitim ve Öğretim Atatürk Üniversitesi
Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
PROF. DR. MUSTAFA SÖZBİLİR
YRD. DOÇ. DR. SALİH ÇAKMAK

Geri Dön