Görüntü altyazılama probleminde farklı mimarilerin karşılaştırılması ve performanslarının değerlendirilmesi

Comparison of different architectures in image caption generation and evaluation of their performances

PDF İndir

Tez No: 770088
Yazar: DİDEM DAMKA
Danışmanlar: PROF. DR. MUSTAFA SERDAR KORUKOĞLU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: Ege Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
Bilim Dalı: Bilgi Teknolojileri Bilim Dalı
Sayfa Sayısı: 98

Özet

Görüntü altyazılama, görüntü içeriklerinden otomatik olarak doğal dil açıklaması üretmeyi amaçlayan günümüz literatüründe oldukça ilgi görmeye başlamış araştırma problemlerinden biridir. Ancak hem doğal dil işleme hem de görüntü işleme alanlarının kesişiminde bulunduğu için oldukça zorlu bir problemdir. Çünkü burada nesnelerin tespiti tek başına yetmeyecek nesneler arasındaki ilişkinin de doğru şekilde tespit edilip bir cümlede açıklanması gerekecektir. Görüntü altyazılama alanındaki ilk çalışmalar geleneksel makine öğrenme yöntemleriyle çözülmekteydi. Ancak günümüzde, problemin çözümünde derin öğrenme yöntemlerinin kullanılmaya başlanmasıyla daha başarılı sonuçlar elde edilmiştir. Bu tez kapsamında encoder decoder yöntemi kullanılarak görüntülerden açıklama üreten bir derin öğrenme modeli geliştirilmiştir. Çalışmada encoder olarak AlexNet, VGG16, ResNet50, InceptionV3 ve InceptionResNetV2 olmak üzere beş farklı mimari kullanılmıştır. Decoder olarak ise RNN mimarisinin gelişmiş versiyonu olan LSTM mimarisi kullanılmıştır. Veri seti olarak Yahoo'nun Flickr sitesinden toplanarak oluşturulmuş Flickr8K veri seti kullanılmıştır. Son olarak her farklı mimari için Bleu1 2-3-4, METEOR, ROUGE_L, CIDER değerlendirme kriterleri hesaplanmıştır. Hesaplamalar sonucunda InceptionResNetV2 mimarisinin en başarılı sonuçları verdiği gözlemlenmiştir. En düşük performansa sahip mimari ise AlexNet mimarisi olarak bulunmuştur. Tez çalışması, merge mimarisinde farklı encoder modellerinin test edildiği ve sonuçlarının birden farklı değerlendirme kriterlerinde karşılaştırıldığı için önemlidir.

Özet (Çeviri)

Image Caption Generation is one of the research problems that has started to draw a lot of attention in today's literature, which aims to automatically generate natural language descriptions from image contents. However, it is a pretty challenging problem because it is at the intersection of natural language and image processing. Because the detection of objects alone will not be enough here, the relationship between the objects will have to be correctly determined and explained in a sentence. The first studies in Image Caption Generation were being solved with traditional machine learning methods. However, more successful results have been obtained using deep learning methods for solving the problem. Within the scope of this thesis, a deep learning model has been developed that generates captions from images using the encoder-decoder method. Five different architectures, AlexNet, VGG16, ResNet50, InceptionV3 and InceptionResNetV2, are used as encoders in the study. As a decoder, LSTM architecture, which is the advanced version of RNN architecture, is used. The Flickr8K dataset, which was collected from Yahoo's Flickr website, is used as the dataset. Finally, the evaluation criteria of Bleu 1-2-3-4, METEOR, ROUGE_L, and CIDER were calculated for each different architecture. As a result of the calculations, it has been observed that InceptionResNetV2 architecture gives the most successful results. And also it has been observed that the AlexNet architecture gives the lowest performance results. The thesis is important because different encoder models are tested in the merge architecture and their results are compared in more than one evaluation criteria.

Benzer Tezler

Tez No
859475
A hybrid deep learning model for image captioning
Görüntü altyazılama için hibrit derin öğrenme modeli
ZAINAB KHALID TAWFEEQ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karabük Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NEHAD T.A RAMAHA
Tez No
781282
Object detection with minimal supervision
Asgari denetim ile nesne tespiti
BERKAN DEMİREL
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ
DOÇ. DR. NAZLI İKİZLER CİNBİŞ
Tez No
853226
Automated captioning of image and audio for visually and hearing impaired
Görme ve işitme engelliler için otomatik görüntü ve ses altyazılama
ÖZKAN ÇAYLI
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliği İzmir Katip Çelebi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. VOLKAN KILIÇ
DOÇ. DR. AYTUĞ ONAN
Tez No
602669
Identifying ımage related sentences in news articles
Haber makalelerinde görüntü ile i̇lgili cümlelerin belirlenmesi
MELİKE ESMA İLTER GÜLAÇ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. LALE AKARUN ERSOY
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
Tez No
836733
Advancing toward temporal and commonsense reasoning in vision-language learning
Görü-dil öğreniminde zamansal ve sağduyulu muhakemeye doğru ilerleme
İLKER KESEN
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ YURET

Geri Dön