Comparison of whole scene image caption models
Fotoğraftaki bütün imgeleri altyazılayan modellerin incelenmesi
- Tez No: 665550
- Danışmanlar: PROF. DR. İLKAY ULUSOY
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 106
Özet
İmge altyazılama derin öğrenme alanının en zorlayıcı konularından biri olup amacı fotoğraf içeriğini dil bilgisi kuralarına dikkat ederek kelimeler ile ifade etme işidir. Bu alanda sürekli yayınlanan yeni makaleler metotların gelişmesini sağlamaktadır. Ancak modelleri inceleyen bir çok makale sadece yüzeysel ayrıntıları incelemektedir ve genellikle bilinen çalışmaları açıklamaktadır. Bu yüzden bu tezin amacı 6 farklı modeli programda çalıştırarak sonuçları yeniden üreterip algoritmaları ayrıntılı incelemektir. Bunun yanında seçilen modellerin çoğu sadece MsCoco datasetini kullanmaktadır. Daha sağlıklı bir karşılaştırma yapabilmek sonuçları olmayan bazı modeller Flickr30k datasetinde de eğitilip test edilmiştir. Seçilen modeller Self-critical Sequence Training for Image Captioning, Neural Baby Talk, Top-Down Attention for Image Captioning and Visual Question Answering, Unsupervised Image Caption, Meshed Memory Transformer for Image Caption ve Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning makalelerindeki modellerdir. Modeller çalıştırılarak altyazılar tekrar elde edilmiş olup metrik sonuçları makalelerdeki sonuçlar ile karşılaştırırmıştır. Ayrıca popüler metriklere ek olarak WMD ve BERT gibi metrikler ile de üretilen cümlelerin değerlendirmesi yapılmıştır. Buna göre Neural baby talk ve Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering makaleleri başarılı sonuçlar elde etsede Meshed Memory Transformer for Image Caption makalesi en başarılı sonuçları göstermiştir. Bunun yanın da Unsupervised Image Caption en kötü sonucu göstermiştir.
Özet (Çeviri)
Image captioning is one of the most challenging processes in deep learning area which automatically describes the content of an image by using words and grammar. In recent years, studies are published constantly to improve the quality of this task. However, a detailed comparison of all possible approaches has not been done yet and we cannot know comparative performances of the proposed solutions in the literature. Thus, this thesis aims to redress this problem by making a comparative analysis among six different models by implementing them. The selected models are generally trained only for the MsCOCO dataset in the literature. In order to make a more objective comparison, they are also trained for the Flickr30k dataset in this study. The selected models are as follows: Self-critical Sequence Training for Image Captioning, Neural Baby Talk , Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering, Unsupervised Image Caption, Meshed Memory Transformer for Image Caption, and Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning. First, the captions from all these models are extracted and the results are compared with the ones in their respective papers. In addition to popular metrics usually used in the papers, the captions from models are also evaluated by Word Mover's Distance and BERT metrics. The findings of this thesis demonstrate that even though Bottom-up and Top-down attention and Neural Baby Talk can generate highly proper captions, Meshed Memory Transformer for Image Caption generally provides more promising results than the rest. Unsupervised Image Caption, on the other hand, is a far less successful algorithm since it does not use the direct relationship between images and their descriptions during the training stage.
Benzer Tezler
- Dense depth map estimation for object segmentation in multi-view video
Çok görüntülü videoda nesne bölütlemesi için sık derinlik haritası kestirimi
CEVAHİR ÇIĞLA
Yüksek Lisans
İngilizce
2007
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. A. AYDIN ALATAN
- Kameraların sınırlı alan derinliğini artırmak için metasezgisel algoritmalar kullanılarak çok odaklı görüntülerin birleştirilmesi
Fusing multi-focus images using metaheuristic algorithms to increase the limited depth of field of cameras
FATMA ÇAKIROĞLU
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiKayseri ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALİ DURMUŞ
DR. ÖĞR. ÜYESİ RİFAT KURBAN
- Storefront logo recognition and stereo vision based distance estimation
Mağaza logosu tanıma ve stereo görüntü tabanlı mesafe kestirimi
MEHMET BİBERCİ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
- Efficient visual loop closure detection via localized moment descriptors
Hızlı ve verimli çalışan yerelleştirilmiş görsel moment tanımlayıcılarıyla çevrim kapamaların saptanması
CAN ERHAN
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN TEMELTAŞ
- Deep convolutional neural network based representations for person re-identification
Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller
ALPER ULU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAZIM KEMAL EKENEL