Geri Dön

Learning visually-grounded representationsusing cross-lingual multimodal pre-training

Çok dilli çok kipli ön öğrenme ile görsel tabanlı temsillerin öğrenilmesi

  1. Tez No: 651296
  2. Yazar: MENEKŞE KUYU
  3. Danışmanlar: DOÇ. DR. MEHMET ERKUT ERDEM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 81

Özet

Son yıllarda veri sayısındaki artış ve hesaplama gücündeki gelişmeler ile birlikte Doğal Dil İşleme alanında ön eğitimli model yaklaşımları ortaya çıkmıştır. Bu yaklaşımlar başta sadece tek dili kapsayacak şekilde olsa da, ardından çok dilli ve multimodal yapılar önerilmiştir. Çok kipli ön eğitimli modeller, Doğal Dil işleme ve Bilgisayarlı Görü alanlarının ikisini de kapsıyor olup görsel ve metinsel bilgiyi birleştirerek aynı uzayda ifade edilmesini hedef alır. Bu çalışmada, görsel temelli kelime gösterimlerini öğrenmek için diller arası ve çok kipli ön eğitim yaklaşımları birlikte kullanılmıştır. Çalışmamız, makine çevirisi ve diller arası sınıflandırma gibi çeşitli alt görevlerde başarı gösteren, diller arası ön eğitim modeli XLM tabanlıdır. Bu tez kapsamında, görsel temelli kelime vektörlerini öğrenmek için görsel içerik ve doğal dili birleştiren Görsel Çeviri Dili Modellemesi adı verilen yeni bir ön eğitim hedef önerildi. Bu amaçla, ön eğitimde gerekli olan diller arası çok kipli bir veri kümesi oluşturmak için son yıllarda önerilen en başarılı açık kaynak çeviri modelini kullanarak, büyük ölçekli bir görüntü altyazılama veri kümesi olan Conceptual Captions'ı, yeni bir dil; Almanca olarak genişlettik. Önerilen ön eğitimli model, Multi30k veri kümesini kullanarak Makine Çevirisi (MÇ) ve Çok Kipli Makine Çevirisi (ÇMÇ) görevlerinde ince ayar yapılmıştır. Hem MÇ hem de ÇMÇ görevleri için Multi30k test2016 setinde literatürdeki en başarılı sonuçlar elde edilmiştir. Ek olarak, önerilen modelin görsel içerik üzerinde nasıl çalıştığını analiz etmek için dikkat ağırlıkları görselleştirilmiştir.

Özet (Çeviri)

In recent years, pre-training approaches in the field of NLP have emerged with the increase in the number of data and developments in computational power. Although these approaches initially included only pre-training a single language, cross-lingual and multimodal approaches were proposed which employs multiple languages and modalities. While cross-lingual pre-training focuses on representing multiple languages, Multimodal pre-training integrates Natural Language Processing and Computer Vision areas and fuse visual and textual information and represent it in the same embedding space. In this work, we combine cross-lingual and multimodal pre-training approaches to learn visually-grounded word embeddings. Our work is based on cross-lingual pre-training model XLM which has shown success on various downstream tasks such as machine translation and cross-lingual classification. In this thesis, we proposed a new pre-training objective called Visual Translation Language Modeling (vTLM) which combines visual content and natural language to learn visually-grounded word embeddings. For this purpose, we extended the large-scale image captioning dataset Conceptual Captions to another language—German using state-of-the art translation system to create a cross-lingual multimodal dataset which is required in pretraining. We finetuned our pre-trained model on Machine Translation (MT) and Multimodal Machine Translation (MMT) tasks using Multi30k dataset. We obtained state-of-the-results on Multi30k test2016 set for both MT and MTT tasks. We also demonstrated attention weights of the model to analyze how it operates over the visual content.

Benzer Tezler

  1. Learning to assemble furniture from their 2D drawings

    2B çizimden mobilya montajı öğrenme

    DENGE UZEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DOÇ. AHMET BUĞRA KOKU

    PROF. SİNAN KALKAN

  2. Çocuk kitabı karakter tasarımı üsluplarının bireyler üzerindeki etkisinin incelenmesi

    An investigation of the effects of character design style of children's book on individuals

    CEMRE ASLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Güzel SanatlarKütahya Dumlupınar Üniversitesi

    Sanat ve Tasarım Ana Sanat Dalı

    PROF. DR. LEVENT MERCİN

  3. The perceptions and experiences of students and teachers in formal and informal learning settings that uses muves: Quest atlantis case

    Çok kullanıcılı sanal ortam kullanan formal ve informal eğitim ortamlarında öğrenci ve öğretmenlerin algıları ve deneyimleri: Quest atlantis durum çalışması

    AYŞEGÜL BAKAR ÇÖREZ

    Doktora

    İngilizce

    İngilizce

    2011

    Eğitim ve ÖğretimOrta Doğu Teknik Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    DOÇ. DR. HAKAN TÜZÜN

    DOÇ. DR. KÜRŞAT ÇAĞILTAY

  4. Letter reversals in adults when learning Braille visually or tactually

    Başlık çevirisi yok

    BEGÜM ATAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Eğitim ve ÖğretimKingston University

    DR. FIONA BARLOW BROWN

  5. 6. sınıf görme engelli öğrencilere maddenin tanecikli yapısıyla ilgili kavramların öğretimi

    Teaching the concepts in particulate nature of matter to 6th grade visually impaired students

    SERACEDDİN LEVENT ZORLUOĞLU

    Doktora

    Türkçe

    Türkçe

    2017

    Eğitim ve ÖğretimAtatürk Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    PROF. DR. MUSTAFA SÖZBİLİR

    YRD. DOÇ. DR. SALİH ÇAKMAK