Görüntü altyazılama probleminde farklı mimarilerin karşılaştırılması ve performanslarının değerlendirilmesi
Comparison of different architectures in image caption generation and evaluation of their performances
- Tez No: 770088
- Danışmanlar: PROF. DR. MUSTAFA SERDAR KORUKOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Bilgi Teknolojileri Bilim Dalı
- Sayfa Sayısı: 98
Özet
Görüntü altyazılama, görüntü içeriklerinden otomatik olarak doğal dil açıklaması üretmeyi amaçlayan günümüz literatüründe oldukça ilgi görmeye başlamış araştırma problemlerinden biridir. Ancak hem doğal dil işleme hem de görüntü işleme alanlarının kesişiminde bulunduğu için oldukça zorlu bir problemdir. Çünkü burada nesnelerin tespiti tek başına yetmeyecek nesneler arasındaki ilişkinin de doğru şekilde tespit edilip bir cümlede açıklanması gerekecektir. Görüntü altyazılama alanındaki ilk çalışmalar geleneksel makine öğrenme yöntemleriyle çözülmekteydi. Ancak günümüzde, problemin çözümünde derin öğrenme yöntemlerinin kullanılmaya başlanmasıyla daha başarılı sonuçlar elde edilmiştir. Bu tez kapsamında encoder decoder yöntemi kullanılarak görüntülerden açıklama üreten bir derin öğrenme modeli geliştirilmiştir. Çalışmada encoder olarak AlexNet, VGG16, ResNet50, InceptionV3 ve InceptionResNetV2 olmak üzere beş farklı mimari kullanılmıştır. Decoder olarak ise RNN mimarisinin gelişmiş versiyonu olan LSTM mimarisi kullanılmıştır. Veri seti olarak Yahoo'nun Flickr sitesinden toplanarak oluşturulmuş Flickr8K veri seti kullanılmıştır. Son olarak her farklı mimari için Bleu1 2-3-4, METEOR, ROUGE_L, CIDER değerlendirme kriterleri hesaplanmıştır. Hesaplamalar sonucunda InceptionResNetV2 mimarisinin en başarılı sonuçları verdiği gözlemlenmiştir. En düşük performansa sahip mimari ise AlexNet mimarisi olarak bulunmuştur. Tez çalışması, merge mimarisinde farklı encoder modellerinin test edildiği ve sonuçlarının birden farklı değerlendirme kriterlerinde karşılaştırıldığı için önemlidir.
Özet (Çeviri)
Image Caption Generation is one of the research problems that has started to draw a lot of attention in today's literature, which aims to automatically generate natural language descriptions from image contents. However, it is a pretty challenging problem because it is at the intersection of natural language and image processing. Because the detection of objects alone will not be enough here, the relationship between the objects will have to be correctly determined and explained in a sentence. The first studies in Image Caption Generation were being solved with traditional machine learning methods. However, more successful results have been obtained using deep learning methods for solving the problem. Within the scope of this thesis, a deep learning model has been developed that generates captions from images using the encoder-decoder method. Five different architectures, AlexNet, VGG16, ResNet50, InceptionV3 and InceptionResNetV2, are used as encoders in the study. As a decoder, LSTM architecture, which is the advanced version of RNN architecture, is used. The Flickr8K dataset, which was collected from Yahoo's Flickr website, is used as the dataset. Finally, the evaluation criteria of Bleu 1-2-3-4, METEOR, ROUGE_L, and CIDER were calculated for each different architecture. As a result of the calculations, it has been observed that InceptionResNetV2 architecture gives the most successful results. And also it has been observed that the AlexNet architecture gives the lowest performance results. The thesis is important because different encoder models are tested in the merge architecture and their results are compared in more than one evaluation criteria.
Benzer Tezler
- A hybrid deep learning model for image captioning
Görüntü altyazılama için hibrit derin öğrenme modeli
ZAINAB KHALID TAWFEEQ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NEHAD T.A RAMAHA
- Object detection with minimal supervision
Asgari denetim ile nesne tespiti
BERKAN DEMİREL
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ
DOÇ. DR. NAZLI İKİZLER CİNBİŞ
- Automated captioning of image and audio for visually and hearing impaired
Görme ve işitme engelliler için otomatik görüntü ve ses altyazılama
ÖZKAN ÇAYLI
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİzmir Katip Çelebi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. VOLKAN KILIÇ
DOÇ. DR. AYTUĞ ONAN
- Identifying ımage related sentences in news articles
Haber makalelerinde görüntü ile i̇lgili cümlelerin belirlenmesi
MELİKE ESMA İLTER GÜLAÇ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. LALE AKARUN ERSOY
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Advancing toward temporal and commonsense reasoning in vision-language learning
Görü-dil öğreniminde zamansal ve sağduyulu muhakemeye doğru ilerleme
İLKER KESEN
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ YURET