Geri Dön

Multimodal Machine Translation

Başlık çevirisi mevcut değil.

  1. Tez No: 622480
  2. Yazar: OZAN ÇAĞLAYAN
  3. Danışmanlar: PROF. DR. DANIŞMAN YOK
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Le Mans Universite
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: Belirtilmemiş.
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 141

Özet

Machine translation aims at automatically translating documents from one language to another without human intervention. With the advent of deep neural networks (DNN), neural approaches to machine translation started to dominate the €eld, reaching stateof- the-art performance in many languages. Neural machine translation (NMT) also revived the interest in interlingual machine translation due to how it naturally €ts the task into an encoder-decoder framework which produces a translation by decoding a latent source representation. Combined with the architectural ƒexibility of DNNs, this framework paved the way for further research in multimodality with the objective of augmenting the latent representations with other modalities such as vision or speech, for example. ‘is thesis focuses on a multimodal machine translation (MMT) framework that integrates a secondary visual modality to achieve be‹er and visually grounded language understanding. I speci€cally worked with a dataset containing images and their translated descriptions, where visual context can be useful for word sense disambiguation, missing word imputation, or gender marking when translating from a language with gender-neutral nouns to one with grammatical gender system as is the case with English to French. I propose two main approaches to integrate the visual modality: (i) a multimodal a‹ention mechanism that learns to take into account both sentence and convolutional visual representations, (ii) a method that uses global visual feature vectors to prime the sentence encoders and the decoders. ‘rough automatic and human evaluation conducted on multiple language pairs, the proposed approaches were demonstrated to be bene€cial. Finally, I further show that by systematically removing certain linguistic information from the input sentences, the true strength of both methods emerges as they successfully impute missing nouns, colors and can even translate when parts of the source sentences are completely removed.

Özet (Çeviri)

Özet çevirisi mevcut değil.

Benzer Tezler

  1. Learning visually-grounded representationsusing cross-lingual multimodal pre-training

    Çok dilli çok kipli ön öğrenme ile görsel tabanlı temsillerin öğrenilmesi

    MENEKŞE KUYU

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ERKUT ERDEM

  2. Derin öğrenmeden büyük dil modellerine: Soru cevaplama sistemleri için yenilikçi çözümler

    From deep learning to large language models: Novel solutions for question answering systems

    GÜLSÜM YİĞİT

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET FATİH AMASYALI

  3. Semi-automatic multimodal web content retargeting system

    Yarı-otomatik çok-kipli internet içeriği çeviri sistemi

    CANSU ŞEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. TEVFİK METİN SEZGİN

  4. Deep learning-based and cost-aware fraud detection system using multi-modal profiling approach to detect fraud attempts in airline ticket sales

    Havayolu bilet satış işlemleri için derin öğrenme tabanlı maliyet bilinçli ve çok modlu profilleme yaklaşımını benimseyen sahtekarlık tespit sistemi

    MEHMED TAHA ARAS

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET AMAÇ GÜVENSAN

  5. Multimodal machine comprehension of how-to instructions with images and text

    Görüntü ve metin içeren çok kipli nasıl yapılır talimatlarının makine ile kavranması

    SEMİH YAĞCIOĞLU

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ERKUT ERDEM

    DOÇ. DR. İBRAHİM AYKUT ERDEM