Geri Dön

Revisiting image captioning structures based on CNN and RNN, and improving the performance using modified decoders with residual connections

Evrişimli sinir ağı ve tekrarlayan sinir ağı tabanlı tanım oluşturma yapılarını yeniden değerlendirmek ve artık bağlantıları olan kod çözücüler kullanarak performansı artırmak

  1. Tez No: 792425
  2. Yazar: SİNAN SARAÇOĞLU
  3. Danışmanlar: PROF. DR. EMİN ANARIM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 86

Özet

Bu tezde, kodlayıcı olarak bir Evrişimli Sinir Ağı (CNN) ve kod çözücü olarak Tekrarlayan Sinir Ağından (RNN) oluşan tanım oluşturma yapısı yeniden ziyaret edilerek, farklı görüntü özellik çıkarıcılarının, farklı RNN hücrelerinin, farklı kelime gömme türlerinin ve artık bağlantıların kullanımının etkileri karşılaştırıp değerlendirildi. Tanım oluşturma araştırma alanında oldukça popüler olan ``Show, Attend and Tell" modelinde, RNN hücreleri arasına artık bağlantılar eklendi, ek olarak hem kodlayıcı hem de kod çözücü üzerinde değişiklikler yapılarak, modelin tanım oluşturma görevindeki performansı iyileştirildi. Ayrıca, önceden eğitilmiş 3 farklı kelime gömme içeren modeller eğitildi ve bunların faydaları araştırıldı. En iyi modelde, baz olarak alınan modele kıyasla 34 BLEU-4 puanı ve 15 SPICE puanı gelişme elde edildi. Ayrıca, en yüksek performans gösteren model, uzamsal alanda temsil edilen görüntüler yerine, frekans alanında temsil edilen görüntülerle eğitildi, etkileri araştırıldı ve bu yaklaşımın, modelin performansını artıramayacağı sonucuna varıldı. Deneylerin sonuçları, önerilen değişikliklerin etkinliğini göstermekte ve artık bağlantıların potansiyeline ilişkin içgörü sağlamaktadır.

Özet (Çeviri)

In this thesis, the image captioning structure consisting of a Convolutional Neural Network (CNN) as the encoder and a Recurrent Neural Network (RNN) as the decoder is visited by comparing and evaluating the effects of different image feature extractors, different RNN cells, different types of word embeddings, and the involvement of residual connections between the RNN cells. The famous ``Show, Attend and Tell" model is modified by adding residual connections between the RNN cells and adding other modifications on both the encoder and the decoder side, which improved the performance of the model on the image captioning task. Furthermore, models were trained by implementing 3 different pre-trained word embeddings and their benefits were explored. With the best model, 34 BLEU-4 points and 15 SPICE points improvement were achieved compared with the base model. The effects of training our best model with the images transformed into the frequency domain rather than the images represented in the spatial domain are investigated and it is concluded that this approach cannot enhance the performance of the model. The results of the experiments demonstrate the effectiveness of the proposed modifications and provide insights into the potential of residual connections.

Benzer Tezler

  1. Text and image in dialogue: Revisiting iron age Neo-Hittite stelae

    Metin ve imgenin diyaloğu: Demir çağı Neo-Hitit stellerinin yeni bir açıdan incelenmesi

    SAİT KUTAY ŞEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    ArkeolojiBoğaziçi Üniversitesi

    Tarih Ana Bilim Dalı

    PROF. DR. ASLI ÖZYAR MİZRAHİ

  2. Revisiting Interbau exhibition 1957 in Berlin, from the city of stone to the city of tomorrow

    Berlı̇n'de Interbau 1957 sergı̇sı̇, taş kentten yarının kentı̇ne

    KAMRAN FARSHCHI

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    MimarlıkOrta Doğu Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. AYDAN BALAMİR

  3. Destinasyon imajı, bütüncül imaj ve kişisel normatif inançların yeniden ziyaret etme niyeti üzerindeki etkisi: Siirt ili örneği

    The effect of destination image, holistic image and personal normative beliefs on revisiting intention: Siirt city example

    SERKAN GÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Gastronomi ve Mutfak SanatlarıMardin Artuklu Üniversitesi

    Gastronomi ve Mutfak Sanatları Ana Bilim Dalı

    DOÇ. DR. LOKMAN TOPRAK

  4. Müzelerdeki nostaljik duygunun destinasyon imajı ve davranışsal niyetler üzerindeki etkisi

    The effect of nostalgic emotion at museums on the destination image and behavioural intentions

    İZZET ÖNAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    TurizmGebze Teknik Üniversitesi

    Strateji Bilimi Ana Bilim Dalı

    PROF. DR. HALİT KESKİN

  5. Yinelenen bellek: Hayal kırıklığını imgeye dönüştürmek

    Repeating memory: Turning disappointment into image

    SEBAHATTİN YÜCE

    Doktora

    Türkçe

    Türkçe

    2023

    Güzel SanatlarHacettepe Üniversitesi

    Resim Ana Sanat Dalı

    PROF. HÜSNÜ DOKAK