A hybrid deep learning model for image captioning
Görüntü altyazılama için hibrit derin öğrenme modeli
- Tez No: 859475
- Danışmanlar: PROF. DR. NEHAD T.A RAMAHA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Karabük Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 90
Özet
Görüntü alt yazılanma, bilgisayarlı görü alanındaki en zahmetli görevlerden biri olarak kabul edilmektedir. Derin öğrenmenin büyük miktarda görsel veriyi işleyebilme yeteneği, görüntü alt yazılanma problemine etkin bir şekilde yaklaşmada önemli bir rol oynamaktadır. Bu alanda birçok çalışma yapılmış olup daha fazla araştırma ve iyileştirme ihtiyacı bulunmaktadır. Bu tez, görüntü alt yazılanma modelleri üzerine kapsamlı ve detaylı bir çalışma sunmaktadır. Çalışma, görüntü alt yazılanma sürecinin diğer bilgisayarlı görü görevlerine kıyasla daha fazla zaman gerektirmesi nedeniyle, düşük hesaplama süresinde yüksek performans sağlamak için çeşitli hafif görüntü ve dil modellerinin kullanılmasını önermektedir. Bu çalışmada, her bir görüntü için beş tanımlayıcı cümle içeren Flickr30K veri seti kullanılmıştır. Görüntüler ve açıklama cümleleri, sonraki adımlara uygun hale getirilmek üzere ön işlemden geçirilmiştir. Özellikle görüntüler, kullanılan modellerin belirli boyut gereksinimlerine uyacak şekilde yeniden boyutlandırılmıştır. Bu çalışmada önerilen önceden eğitilmiş modeller arasında VGG-16, MobileNet, InceptionV3, XceptionNet ve ResNet50 bulunmaktadır. Bu modellerin son sınıflandırma katmanları kaldırılarak sadece nihai özellik vektörleri elde edilmiştir. Dil bölümü için LSTM, BiLSTM, GRU ve dikkat katmanlarına sahip GRU gibi çeşitli hafif modeller de önerilmiştir. Altyazılar (açıklama cümleleri) temizleme, bölme, doldurma ve filtreleme işlemlerinden geçirilerek ön işlemden sonra, görüntü özellikleriyle birlikte kod çözücü (Decoder) kısma sunulmuştur. Bazı eğitim senaryolarında, görüntü ve altyazı özellikleri füzyonsuz birleştirilirken, diğerlerinde performansı artırmak için özellik füzyonu kullanılmıştır. Görüntü ve altyazıların belirli kısımlarına daha özel olarak odaklanmak için dikkat katmanları (Attention layers) eklenmiştir. Deneysel bölümde, 13 eğitim senaryosu gerçekleştirilmiştir. Deneyler, en yüksek performansa sahip en iyi modellerin VGG+GRU, dikkat katmanlı VGG+GRU, özellik füzyonlu VGG+GRU ve MobileNet+GRU tarafından elde edildiğini ortaya koymuştur. Bazı deneylerde kelime hazinesi filtrelenmiştir. Algoritma, aşırı öğrenmeyi önlemek için tüm kelime dağarcığından en sık kullanılan 15.000 ifadeyi seçmiş ve bu yöntem, tam kelime haznesinin kullanımı ile karşılaştırılmıştır. Modeller, BLEU-1, BLEU-2, ROUGE, METEOR ve CIDEr metrikleri kullanılarak değerlendirilmiştir. Flickr30k veri seti üzerinde gerçekleştirilen deneyler, önerilen metodolojilerimiz kullanılarak 0.674 yüksek BLEU-1 puanı elde edilmiştir. Çalışma ayrıca, aynı alandaki ilgili güncel araştırmalarla karşılaştırılmıştır ve bu karşılaştırma, mevcut çalışmanın verimliliğini ve yüksek performansını kanıtlamıştır. Bu çalışmanın temel katkısı, hesaplama süresini azaltırken güçlü performansı koruyan hafif-etkin modellere özel bir odaklanmayla çeşitli görüntü etiketleme modellerinin kapsamlı bir çalışmasını sunmasıdır. Çalışma ayrıca etkin, hafif modeller için optimal görsel-metinsel kombinasyonu tanımlamak amacıyla farklı özellik füzyonları ve dikkat mekanizmaları içeren 13 çeşitli senaryoyu tanıtmaktadır. Bulgular, özellikle hesaplama verimliliği açısından, aynı alandaki diğer güncel araştırmalara kıyasla yüksek performans göstermektedir
Özet (Çeviri)
Image captioning is considered one of the most challenging tasks in computer vision. The ability of deep learning to process large amounts of visual data has played a crucial role in effectively tackling the problem of image captioning. Many studies have been introduced in this field and still need more investigation and improvements. This thesis presents a comprehensive and detailed study of the image captioning models. The study suggests utilizing various lightweight image and language models to achieve high performance in a low computational time since the image captioning process requires more time than other computer vision tasks. In this study, the Flickr30K dataset, which comprises both images and five descriptive sentences per image, is utilized. The images and the description sentences were preliminarily preprocessed to fit the next steps. Specifically, the images were resized to fit the specific dimensional requirements of the utilized models. The pre-trained models proposed in the current study include VGG-16, MobileNet, InceptionV3, XceptionNet, and ResNet50. The last classification layers were removed from all these models to get only the final feature vectors. Various lightweight models were also proposed for the language part, including LSTM, BiLSTM, GRU, and GRU with attention layers. The captions (description sentences) were preprocessed, involving cleaning, splitting, padding, and filtering, and were then provided along with the image features to the decoder part. In some training scenarios, the image and caption features are concatenated without fusion, while feature fusion was employed for others to improve the performance. Attention layers were added to focus more specifically on certain parts of the images and captions. In the experimental part, 13 training scenarios were performed. The experiments revealed that the best models with the highest performance were achieved by VGG+GRU, VGG+GRU with Attention, VGG+GRU with Feature Fusion, and MobileNet+GRU. In some experiments, the vocabulary is filtered. The algorithm selected the 15000 most frequently used phrases from the entire vocabulary to prevent it from overfitting, and this method was compared with the use of the full vocabulary. The models were evaluated using BLEU-1, BLEU-2, ROUGE, METEOR, and CIDEr metrics. The experiments conducted on the Flickr30k dataset, employing our proposed methodologies, resulted in a high BLEU-1 score of 0.674. The study was also compared with related state-of-the-art research in the same field, and the comparison proved the efficiency and high performance of the current study. The main contribution of the current study is that it introduces a comprehensive study of various image captioning models with a specific concentration on lightweight-efficient models that reduces computational time while maintaining robust performance. The study also introduces 13 various scenarios with different feature fusions and attention mechanisms to define the optimal image-textual combination for efficient, lightweight models. The findings demonstrate high performance compared to other state-of-the-art research in the same field, especially in terms of computational efficiency
Benzer Tezler
- A new approach using deep learning methodologies from human activity recognition to Robot Grasping
İnsan aktivitesi tanımadan Robot Kavrama'ya derin öğrenme yöntemlerini kullanarak yeni bir yaklaşım
SENEM TANBERK
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MİTAT UYSAL
DR. DİLEK BİLGİN TÜKELİ
- A hybrid deep learning metaheuristic model for diagnosis of diabetic retinopathy
Diyabetik retinopatinin tanısı için hibrit bir derin öğrenme meta-sezgisel modeli
ÖMER FARUK GÜRCAN
Doktora
İngilizce
2022
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA
- Adli tıp verileri kullanılarak yara tiplerinin derin öğrenme modelleriyle sınıflandırılması
Classification of wound types with deep learning models using forensic data
KÜBRA YILDIRIM
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiAdli Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. TÜRKER TUNCER
- Derin öğrenme tabanlı çok modlu duygu analizi yöntemlerinin geliştirilmesi
Development of deep learning based multimodal sentiment analysis methods
MEHMET UMUT SALUR
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İLHAN AYDIN
- Designing a smart security framework for software defined networks
Yazılım tanımlı ağlar için akıllı güvenlik çerçevesinin tasarlanması
HANİ ELUBEYD
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. DERYA YILTAŞ KAPLAN