Learning visually-grounded representationsusing cross-lingual multimodal pre-training
Çok dilli çok kipli ön öğrenme ile görsel tabanlı temsillerin öğrenilmesi
- Tez No: 651296
- Danışmanlar: DOÇ. DR. MEHMET ERKUT ERDEM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
Son yıllarda veri sayısındaki artış ve hesaplama gücündeki gelişmeler ile birlikte Doğal Dil İşleme alanında ön eğitimli model yaklaşımları ortaya çıkmıştır. Bu yaklaşımlar başta sadece tek dili kapsayacak şekilde olsa da, ardından çok dilli ve multimodal yapılar önerilmiştir. Çok kipli ön eğitimli modeller, Doğal Dil işleme ve Bilgisayarlı Görü alanlarının ikisini de kapsıyor olup görsel ve metinsel bilgiyi birleştirerek aynı uzayda ifade edilmesini hedef alır. Bu çalışmada, görsel temelli kelime gösterimlerini öğrenmek için diller arası ve çok kipli ön eğitim yaklaşımları birlikte kullanılmıştır. Çalışmamız, makine çevirisi ve diller arası sınıflandırma gibi çeşitli alt görevlerde başarı gösteren, diller arası ön eğitim modeli XLM tabanlıdır. Bu tez kapsamında, görsel temelli kelime vektörlerini öğrenmek için görsel içerik ve doğal dili birleştiren Görsel Çeviri Dili Modellemesi adı verilen yeni bir ön eğitim hedef önerildi. Bu amaçla, ön eğitimde gerekli olan diller arası çok kipli bir veri kümesi oluşturmak için son yıllarda önerilen en başarılı açık kaynak çeviri modelini kullanarak, büyük ölçekli bir görüntü altyazılama veri kümesi olan Conceptual Captions'ı, yeni bir dil; Almanca olarak genişlettik. Önerilen ön eğitimli model, Multi30k veri kümesini kullanarak Makine Çevirisi (MÇ) ve Çok Kipli Makine Çevirisi (ÇMÇ) görevlerinde ince ayar yapılmıştır. Hem MÇ hem de ÇMÇ görevleri için Multi30k test2016 setinde literatürdeki en başarılı sonuçlar elde edilmiştir. Ek olarak, önerilen modelin görsel içerik üzerinde nasıl çalıştığını analiz etmek için dikkat ağırlıkları görselleştirilmiştir.
Özet (Çeviri)
In recent years, pre-training approaches in the field of NLP have emerged with the increase in the number of data and developments in computational power. Although these approaches initially included only pre-training a single language, cross-lingual and multimodal approaches were proposed which employs multiple languages and modalities. While cross-lingual pre-training focuses on representing multiple languages, Multimodal pre-training integrates Natural Language Processing and Computer Vision areas and fuse visual and textual information and represent it in the same embedding space. In this work, we combine cross-lingual and multimodal pre-training approaches to learn visually-grounded word embeddings. Our work is based on cross-lingual pre-training model XLM which has shown success on various downstream tasks such as machine translation and cross-lingual classification. In this thesis, we proposed a new pre-training objective called Visual Translation Language Modeling (vTLM) which combines visual content and natural language to learn visually-grounded word embeddings. For this purpose, we extended the large-scale image captioning dataset Conceptual Captions to another language—German using state-of-the art translation system to create a cross-lingual multimodal dataset which is required in pretraining. We finetuned our pre-trained model on Machine Translation (MT) and Multimodal Machine Translation (MMT) tasks using Multi30k dataset. We obtained state-of-the-results on Multi30k test2016 set for both MT and MTT tasks. We also demonstrated attention weights of the model to analyze how it operates over the visual content.
Benzer Tezler
- Learning to assemble furniture from their 2D drawings
2B çizimden mobilya montajı öğrenme
DENGE UZEL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. AHMET BUĞRA KOKU
PROF. SİNAN KALKAN
- Çocuk kitabı karakter tasarımı üsluplarının bireyler üzerindeki etkisinin incelenmesi
An investigation of the effects of character design style of children's book on individuals
CEMRE ASLAN
Yüksek Lisans
Türkçe
2022
Güzel SanatlarKütahya Dumlupınar ÜniversitesiSanat ve Tasarım Ana Sanat Dalı
PROF. DR. LEVENT MERCİN
- The perceptions and experiences of students and teachers in formal and informal learning settings that uses muves: Quest atlantis case
Çok kullanıcılı sanal ortam kullanan formal ve informal eğitim ortamlarında öğrenci ve öğretmenlerin algıları ve deneyimleri: Quest atlantis durum çalışması
AYŞEGÜL BAKAR ÇÖREZ
Doktora
İngilizce
2011
Eğitim ve ÖğretimOrta Doğu Teknik ÜniversitesiBilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
DOÇ. DR. HAKAN TÜZÜN
DOÇ. DR. KÜRŞAT ÇAĞILTAY
- 6. sınıf görme engelli öğrencilere maddenin tanecikli yapısıyla ilgili kavramların öğretimi
Teaching the concepts in particulate nature of matter to 6th grade visually impaired students
SERACEDDİN LEVENT ZORLUOĞLU
Doktora
Türkçe
2017
Eğitim ve ÖğretimAtatürk ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
PROF. DR. MUSTAFA SÖZBİLİR
YRD. DOÇ. DR. SALİH ÇAKMAK