Exploring the capabilities of large language models in visual question answering: A new approach using question-driven image captions as prompts

Büyük dil modellerinin görsel soru yanıtlama yeteneklerinin keşfedilmesi: Soru odaklı görüntü altyazılarını istem olarak kullanan yeni bir yaklaşım

PDF İndir

Tez No: 897496
Yazar: ÖVGÜ ÖZDEMİR
Danışmanlar: DOÇ. DR. ERDEM AKAGÜNDÜZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Enformatik Enstitüsü
Ana Bilim Dalı: Modelleme ve Simülasyon Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 82

Özet

Görsel soru cevaplama (VQA), bir görsele dayanarak doğal dildeki sorulara doğal dilde yanıtların verildiği yapay zeka görevini ifade eder. Çok modlu işlemeyi gerektirmesinden dolayı VQA zorlu bir problemdir. VQA, sıklıkla görseldeki sahneyi anlamayı, nesneler ve nitelikler arasındaki ilişkiyi çı- karmayı ve çok adımlı muhakeme yapmayı gerektirir. Geçtiğimiz yıllar boyunca, VQA için pek çok farklı derin öğrenme yapısı önerilmiştir. Son yıllarda ise önceden eğitilmiş görsel-dil modelleri ve milyarlarca parametreli çok modlu büyük dil modelleri (MLLM) değerlendirmelerde üstün performans göstermektedir. Buna rağmen, sıfır-atış VQA'de hala performans iyileştirmek için boşluklar vardır. Sıfır-atış VQA, girdi-çıktı rehberliği olmadan göreve adapte olmayı ve bunun için de gelişmiş muhakeme yeteneği gerektirir. Bu nedenle, son yıllarda araştırmalar, MLLM'ler için muhakemeyi ortaya çıkaracak istem tasarımlarına yoğunlaşmıştır. Bu tez, LLM'leri kullanarak ve bağlama duyarlı görüntü altyazılamayı ara bir adım olarak entegre ederek, sıfır-atış VQA'deki performansı artırmayı amaçlayan yeni bir yaklaşım önermektedir. CogVLM, GPT-4 ve GPT-4o gibi yeni MLLM'ler kullanılarak yapısal ve anlamsal açıdan çeşitli sorular içeren ve genellikle çok adımlı muhakeme gerektiren GQA test seti üzerinde değerlendirme ve karşılaştırma yapılmıştır. Ayrıca, tez, farklı prompt tasarımlarının VQA performansına etkisini incelemektedir. Bulgular, sıfır-atış ayarlarında VQA performansını artırmak için görüntü açıklamalarının ve optimize edilmiş istemlerin kullanım potansiyelini vurgulamaktadır.

Özet (Çeviri)

Visual question answering (VQA) refers to the artificial intelligence task of providing natural language answers to natural language questions based on a visual input. Due to its requirement for multimodal processing, VQA is considered a challenging problem. It often necessitates understanding the scene depicted in the image, extracting the relationships between objects and their attributes, and performing multi-step reasoning. Over the past few years, numerous deep learning architectures have been proposed for VQA. More recently, pre-trained vision-language models and Multimodal Large Language Models (MLLMs) with billions of parameters have demonstrated superior performance on benchmark tests. Nevertheless, there are still gaps for performance improvement in zero-shot VQA. Zero-shot VQA requires adapting to tasks without input-output guidance, necessitating advanced reasoning abilities. Consequently, recent research has focused on designing prompts that can elicit reasoning capabilities in MLLMs. This thesis proposes a new approach aimed at improving performance in zero-shot VQA by using LLMs and integrating context-aware image captioning as an intermediate step. Evaluations and comparisons were conducted using recent MLLMs, such as CogVLM, GPT-4, and GPT-4o, on the GQA test set, which includes structurally and semantically diverse questions that often require multi-step reasoning. Additionally, the thesis examines the impact of different prompt designs on VQA performance. The findings highlight the potential of using image captions and optimized prompts to enhance VQA performance under zero-shot settings.

Benzer Tezler

Tez No
841626
Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
ZİŞAN YALÇINKAYA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
Tez No
393043
Çok makineli güç sisteminde açısal kararlılık analizi ve kontrolör parametre optimizasyonu
Angular stability analysis and controller parameter optimization in multi-machine power system
SERDAR EKİNCİ
Doktora
Türkçe
2015
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektrik Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞEN DEMİRÖREN
Tez No
937402
Unraveling the capabilities of language models in news summarization: Performance evaluation and comparative study
Haber özetleme görevindeki dil modellerinin gücünü keşfetmek: Performans değerlendirmesi ve karşılaştırmalı çalışma
ABDURRAHMAN ODABAŞI
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Türk-Alman Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKSEL BİRİCİK
Tez No
921425
Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search
Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma
DERYA TANYILDIZ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET FATİH AMASYALI
DOÇ. DR. SERKAN AYVAZ
Tez No
841862
Derin öğrenme ve evrişimsel sinir ağları kullanılarak iş güvenliği için baret kullanımı tespiti
Safety helmet detection using deep learning and convolutional neural networks
RABİA NUR AKDERE
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Selçuk Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. ALPER GEDİK

Geri Dön