Revisiting image captioning structures based on CNN and RNN, and improving the performance using modified decoders with residual connections
Evrişimli sinir ağı ve tekrarlayan sinir ağı tabanlı tanım oluşturma yapılarını yeniden değerlendirmek ve artık bağlantıları olan kod çözücüler kullanarak performansı artırmak
- Tez No: 792425
- Danışmanlar: PROF. DR. EMİN ANARIM
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 86
Özet
Bu tezde, kodlayıcı olarak bir Evrişimli Sinir Ağı (CNN) ve kod çözücü olarak Tekrarlayan Sinir Ağından (RNN) oluşan tanım oluşturma yapısı yeniden ziyaret edilerek, farklı görüntü özellik çıkarıcılarının, farklı RNN hücrelerinin, farklı kelime gömme türlerinin ve artık bağlantıların kullanımının etkileri karşılaştırıp değerlendirildi. Tanım oluşturma araştırma alanında oldukça popüler olan ``Show, Attend and Tell" modelinde, RNN hücreleri arasına artık bağlantılar eklendi, ek olarak hem kodlayıcı hem de kod çözücü üzerinde değişiklikler yapılarak, modelin tanım oluşturma görevindeki performansı iyileştirildi. Ayrıca, önceden eğitilmiş 3 farklı kelime gömme içeren modeller eğitildi ve bunların faydaları araştırıldı. En iyi modelde, baz olarak alınan modele kıyasla 34 BLEU-4 puanı ve 15 SPICE puanı gelişme elde edildi. Ayrıca, en yüksek performans gösteren model, uzamsal alanda temsil edilen görüntüler yerine, frekans alanında temsil edilen görüntülerle eğitildi, etkileri araştırıldı ve bu yaklaşımın, modelin performansını artıramayacağı sonucuna varıldı. Deneylerin sonuçları, önerilen değişikliklerin etkinliğini göstermekte ve artık bağlantıların potansiyeline ilişkin içgörü sağlamaktadır.
Özet (Çeviri)
In this thesis, the image captioning structure consisting of a Convolutional Neural Network (CNN) as the encoder and a Recurrent Neural Network (RNN) as the decoder is visited by comparing and evaluating the effects of different image feature extractors, different RNN cells, different types of word embeddings, and the involvement of residual connections between the RNN cells. The famous ``Show, Attend and Tell" model is modified by adding residual connections between the RNN cells and adding other modifications on both the encoder and the decoder side, which improved the performance of the model on the image captioning task. Furthermore, models were trained by implementing 3 different pre-trained word embeddings and their benefits were explored. With the best model, 34 BLEU-4 points and 15 SPICE points improvement were achieved compared with the base model. The effects of training our best model with the images transformed into the frequency domain rather than the images represented in the spatial domain are investigated and it is concluded that this approach cannot enhance the performance of the model. The results of the experiments demonstrate the effectiveness of the proposed modifications and provide insights into the potential of residual connections.
Benzer Tezler
- Text and image in dialogue: Revisiting iron age Neo-Hittite stelae
Metin ve imgenin diyaloğu: Demir çağı Neo-Hitit stellerinin yeni bir açıdan incelenmesi
SAİT KUTAY ŞEN
Yüksek Lisans
İngilizce
2019
ArkeolojiBoğaziçi ÜniversitesiTarih Ana Bilim Dalı
PROF. DR. ASLI ÖZYAR MİZRAHİ
- Revisiting Interbau exhibition 1957 in Berlin, from the city of stone to the city of tomorrow
Berlı̇n'de Interbau 1957 sergı̇sı̇, taş kentten yarının kentı̇ne
KAMRAN FARSHCHI
Yüksek Lisans
İngilizce
2019
MimarlıkOrta Doğu Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. AYDAN BALAMİR
- Destinasyon imajı, bütüncül imaj ve kişisel normatif inançların yeniden ziyaret etme niyeti üzerindeki etkisi: Siirt ili örneği
The effect of destination image, holistic image and personal normative beliefs on revisiting intention: Siirt city example
SERKAN GÜN
Yüksek Lisans
Türkçe
2022
Gastronomi ve Mutfak SanatlarıMardin Artuklu ÜniversitesiGastronomi ve Mutfak Sanatları Ana Bilim Dalı
DOÇ. DR. LOKMAN TOPRAK
- Müzelerdeki nostaljik duygunun destinasyon imajı ve davranışsal niyetler üzerindeki etkisi
The effect of nostalgic emotion at museums on the destination image and behavioural intentions
İZZET ÖNAL
Yüksek Lisans
Türkçe
2015
TurizmGebze Teknik ÜniversitesiStrateji Bilimi Ana Bilim Dalı
PROF. DR. HALİT KESKİN
- Yinelenen bellek: Hayal kırıklığını imgeye dönüştürmek
Repeating memory: Turning disappointment into image
SEBAHATTİN YÜCE