Geri Dön

Comparison of whole scene image caption models

Fotoğraftaki bütün imgeleri altyazılayan modellerin incelenmesi

  1. Tez No: 665550
  2. Yazar: TUĞRUL GÖRGÜLÜ
  3. Danışmanlar: PROF. DR. İLKAY ULUSOY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 106

Özet

İmge altyazılama derin öğrenme alanının en zorlayıcı konularından biri olup amacı fotoğraf içeriğini dil bilgisi kuralarına dikkat ederek kelimeler ile ifade etme işidir. Bu alanda sürekli yayınlanan yeni makaleler metotların gelişmesini sağlamaktadır. Ancak modelleri inceleyen bir çok makale sadece yüzeysel ayrıntıları incelemektedir ve genellikle bilinen çalışmaları açıklamaktadır. Bu yüzden bu tezin amacı 6 farklı modeli programda çalıştırarak sonuçları yeniden üreterip algoritmaları ayrıntılı incelemektir. Bunun yanında seçilen modellerin çoğu sadece MsCoco datasetini kullanmaktadır. Daha sağlıklı bir karşılaştırma yapabilmek sonuçları olmayan bazı modeller Flickr30k datasetinde de eğitilip test edilmiştir. Seçilen modeller Self-critical Sequence Training for Image Captioning, Neural Baby Talk, Top-Down Attention for Image Captioning and Visual Question Answering, Unsupervised Image Caption, Meshed Memory Transformer for Image Caption ve Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning makalelerindeki modellerdir. Modeller çalıştırılarak altyazılar tekrar elde edilmiş olup metrik sonuçları makalelerdeki sonuçlar ile karşılaştırırmıştır. Ayrıca popüler metriklere ek olarak WMD ve BERT gibi metrikler ile de üretilen cümlelerin değerlendirmesi yapılmıştır. Buna göre Neural baby talk ve Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering makaleleri başarılı sonuçlar elde etsede Meshed Memory Transformer for Image Caption makalesi en başarılı sonuçları göstermiştir. Bunun yanın da Unsupervised Image Caption en kötü sonucu göstermiştir.

Özet (Çeviri)

Image captioning is one of the most challenging processes in deep learning area which automatically describes the content of an image by using words and grammar. In recent years, studies are published constantly to improve the quality of this task. However, a detailed comparison of all possible approaches has not been done yet and we cannot know comparative performances of the proposed solutions in the literature. Thus, this thesis aims to redress this problem by making a comparative analysis among six different models by implementing them. The selected models are generally trained only for the MsCOCO dataset in the literature. In order to make a more objective comparison, they are also trained for the Flickr30k dataset in this study. The selected models are as follows: Self-critical Sequence Training for Image Captioning, Neural Baby Talk , Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering, Unsupervised Image Caption, Meshed Memory Transformer for Image Caption, and Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning. First, the captions from all these models are extracted and the results are compared with the ones in their respective papers. In addition to popular metrics usually used in the papers, the captions from models are also evaluated by Word Mover's Distance and BERT metrics. The findings of this thesis demonstrate that even though Bottom-up and Top-down attention and Neural Baby Talk can generate highly proper captions, Meshed Memory Transformer for Image Caption generally provides more promising results than the rest. Unsupervised Image Caption, on the other hand, is a far less successful algorithm since it does not use the direct relationship between images and their descriptions during the training stage.

Benzer Tezler

  1. Dense depth map estimation for object segmentation in multi-view video

    Çok görüntülü videoda nesne bölütlemesi için sık derinlik haritası kestirimi

    CEVAHİR ÇIĞLA

    Yüksek Lisans

    İngilizce

    İngilizce

    2007

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. A. AYDIN ALATAN

  2. Kameraların sınırlı alan derinliğini artırmak için metasezgisel algoritmalar kullanılarak çok odaklı görüntülerin birleştirilmesi

    Fusing multi-focus images using metaheuristic algorithms to increase the limited depth of field of cameras

    FATMA ÇAKIROĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik MühendisliğiKayseri Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ DURMUŞ

    DR. ÖĞR. ÜYESİ RİFAT KURBAN

  3. Storefront logo recognition and stereo vision based distance estimation

    Mağaza logosu tanıma ve stereo görüntü tabanlı mesafe kestirimi

    MEHMET BİBERCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  4. Efficient visual loop closure detection via localized moment descriptors

    Hızlı ve verimli çalışan yerelleştirilmiş görsel moment tanımlayıcılarıyla çevrim kapamaların saptanması

    CAN ERHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HAKAN TEMELTAŞ

  5. Deep convolutional neural network based representations for person re-identification

    Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller

    ALPER ULU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL