Geri Dön

Görüntü altyazılama probleminde farklı mimarilerin karşılaştırılması ve performanslarının değerlendirilmesi

Comparison of different architectures in image caption generation and evaluation of their performances

  1. Tez No: 770088
  2. Yazar: DİDEM DAMKA
  3. Danışmanlar: PROF. DR. MUSTAFA SERDAR KORUKOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
  12. Bilim Dalı: Bilgi Teknolojileri Bilim Dalı
  13. Sayfa Sayısı: 98

Özet

Görüntü altyazılama, görüntü içeriklerinden otomatik olarak doğal dil açıklaması üretmeyi amaçlayan günümüz literatüründe oldukça ilgi görmeye başlamış araştırma problemlerinden biridir. Ancak hem doğal dil işleme hem de görüntü işleme alanlarının kesişiminde bulunduğu için oldukça zorlu bir problemdir. Çünkü burada nesnelerin tespiti tek başına yetmeyecek nesneler arasındaki ilişkinin de doğru şekilde tespit edilip bir cümlede açıklanması gerekecektir. Görüntü altyazılama alanındaki ilk çalışmalar geleneksel makine öğrenme yöntemleriyle çözülmekteydi. Ancak günümüzde, problemin çözümünde derin öğrenme yöntemlerinin kullanılmaya başlanmasıyla daha başarılı sonuçlar elde edilmiştir. Bu tez kapsamında encoder decoder yöntemi kullanılarak görüntülerden açıklama üreten bir derin öğrenme modeli geliştirilmiştir. Çalışmada encoder olarak AlexNet, VGG16, ResNet50, InceptionV3 ve InceptionResNetV2 olmak üzere beş farklı mimari kullanılmıştır. Decoder olarak ise RNN mimarisinin gelişmiş versiyonu olan LSTM mimarisi kullanılmıştır. Veri seti olarak Yahoo'nun Flickr sitesinden toplanarak oluşturulmuş Flickr8K veri seti kullanılmıştır. Son olarak her farklı mimari için Bleu1 2-3-4, METEOR, ROUGE_L, CIDER değerlendirme kriterleri hesaplanmıştır. Hesaplamalar sonucunda InceptionResNetV2 mimarisinin en başarılı sonuçları verdiği gözlemlenmiştir. En düşük performansa sahip mimari ise AlexNet mimarisi olarak bulunmuştur. Tez çalışması, merge mimarisinde farklı encoder modellerinin test edildiği ve sonuçlarının birden farklı değerlendirme kriterlerinde karşılaştırıldığı için önemlidir.

Özet (Çeviri)

Image Caption Generation is one of the research problems that has started to draw a lot of attention in today's literature, which aims to automatically generate natural language descriptions from image contents. However, it is a pretty challenging problem because it is at the intersection of natural language and image processing. Because the detection of objects alone will not be enough here, the relationship between the objects will have to be correctly determined and explained in a sentence. The first studies in Image Caption Generation were being solved with traditional machine learning methods. However, more successful results have been obtained using deep learning methods for solving the problem. Within the scope of this thesis, a deep learning model has been developed that generates captions from images using the encoder-decoder method. Five different architectures, AlexNet, VGG16, ResNet50, InceptionV3 and InceptionResNetV2, are used as encoders in the study. As a decoder, LSTM architecture, which is the advanced version of RNN architecture, is used. The Flickr8K dataset, which was collected from Yahoo's Flickr website, is used as the dataset. Finally, the evaluation criteria of Bleu 1-2-3-4, METEOR, ROUGE_L, and CIDER were calculated for each different architecture. As a result of the calculations, it has been observed that InceptionResNetV2 architecture gives the most successful results. And also it has been observed that the AlexNet architecture gives the lowest performance results. The thesis is important because different encoder models are tested in the merge architecture and their results are compared in more than one evaluation criteria.

Benzer Tezler

  1. A hybrid deep learning model for image captioning

    Görüntü altyazılama için hibrit derin öğrenme modeli

    ZAINAB KHALID TAWFEEQ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEHAD T.A RAMAHA

  2. Object detection with minimal supervision

    Asgari denetim ile nesne tespiti

    BERKAN DEMİREL

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ

    DOÇ. DR. NAZLI İKİZLER CİNBİŞ

  3. Automated captioning of image and audio for visually and hearing impaired

    Görme ve işitme engelliler için otomatik görüntü ve ses altyazılama

    ÖZKAN ÇAYLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİzmir Katip Çelebi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. VOLKAN KILIÇ

    DOÇ. DR. AYTUĞ ONAN

  4. Identifying ımage related sentences in news articles

    Haber makalelerinde görüntü ile i̇lgili cümlelerin belirlenmesi

    MELİKE ESMA İLTER GÜLAÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. LALE AKARUN ERSOY

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  5. Advancing toward temporal and commonsense reasoning in vision-language learning

    Görü-dil öğreniminde zamansal ve sağduyulu muhakemeye doğru ilerleme

    İLKER KESEN

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. DENİZ YURET