Exploring the capabilities of large language models in visual question answering: A new approach using question-driven image captions as prompts
Büyük dil modellerinin görsel soru yanıtlama yeteneklerinin keşfedilmesi: Soru odaklı görüntü altyazılarını istem olarak kullanan yeni bir yaklaşım
- Tez No: 897496
- Danışmanlar: DOÇ. DR. ERDEM AKAGÜNDÜZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Modelleme ve Simülasyon Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 82
Özet
Görsel soru cevaplama (VQA), bir görsele dayanarak doğal dildeki sorulara doğal dilde yanıtların verildiği yapay zeka görevini ifade eder. Çok modlu işlemeyi gerektirmesinden dolayı VQA zorlu bir problemdir. VQA, sıklıkla görseldeki sahneyi anlamayı, nesneler ve nitelikler arasındaki ilişkiyi çı- karmayı ve çok adımlı muhakeme yapmayı gerektirir. Geçtiğimiz yıllar boyunca, VQA için pek çok farklı derin öğrenme yapısı önerilmiştir. Son yıllarda ise önceden eğitilmiş görsel-dil modelleri ve milyarlarca parametreli çok modlu büyük dil modelleri (MLLM) değerlendirmelerde üstün performans göstermektedir. Buna rağmen, sıfır-atış VQA'de hala performans iyileştirmek için boşluklar vardır. Sıfır-atış VQA, girdi-çıktı rehberliği olmadan göreve adapte olmayı ve bunun için de gelişmiş muhakeme yeteneği gerektirir. Bu nedenle, son yıllarda araştırmalar, MLLM'ler için muhakemeyi ortaya çıkaracak istem tasarımlarına yoğunlaşmıştır. Bu tez, LLM'leri kullanarak ve bağlama duyarlı görüntü altyazılamayı ara bir adım olarak entegre ederek, sıfır-atış VQA'deki performansı artırmayı amaçlayan yeni bir yaklaşım önermektedir. CogVLM, GPT-4 ve GPT-4o gibi yeni MLLM'ler kullanılarak yapısal ve anlamsal açıdan çeşitli sorular içeren ve genellikle çok adımlı muhakeme gerektiren GQA test seti üzerinde değerlendirme ve karşılaştırma yapılmıştır. Ayrıca, tez, farklı prompt tasarımlarının VQA performansına etkisini incelemektedir. Bulgular, sıfır-atış ayarlarında VQA performansını artırmak için görüntü açıklamalarının ve optimize edilmiş istemlerin kullanım potansiyelini vurgulamaktadır.
Özet (Çeviri)
Visual question answering (VQA) refers to the artificial intelligence task of providing natural language answers to natural language questions based on a visual input. Due to its requirement for multimodal processing, VQA is considered a challenging problem. It often necessitates understanding the scene depicted in the image, extracting the relationships between objects and their attributes, and performing multi-step reasoning. Over the past few years, numerous deep learning architectures have been proposed for VQA. More recently, pre-trained vision-language models and Multimodal Large Language Models (MLLMs) with billions of parameters have demonstrated superior performance on benchmark tests. Nevertheless, there are still gaps for performance improvement in zero-shot VQA. Zero-shot VQA requires adapting to tasks without input-output guidance, necessitating advanced reasoning abilities. Consequently, recent research has focused on designing prompts that can elicit reasoning capabilities in MLLMs. This thesis proposes a new approach aimed at improving performance in zero-shot VQA by using LLMs and integrating context-aware image captioning as an intermediate step. Evaluations and comparisons were conducted using recent MLLMs, such as CogVLM, GPT-4, and GPT-4o, on the GQA test set, which includes structurally and semantically diverse questions that often require multi-step reasoning. Additionally, the thesis examines the impact of different prompt designs on VQA performance. The findings highlight the potential of using image captions and optimized prompts to enhance VQA performance under zero-shot settings.
Benzer Tezler
- Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
ZİŞAN YALÇINKAYA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
- Çok makineli güç sisteminde açısal kararlılık analizi ve kontrolör parametre optimizasyonu
Angular stability analysis and controller parameter optimization in multi-machine power system
SERDAR EKİNCİ
Doktora
Türkçe
2015
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞEN DEMİRÖREN
- Derin öğrenme ve evrişimsel sinir ağları kullanılarak iş güvenliği için baret kullanımı tespiti
Safety helmet detection using deep learning and convolutional neural networks
RABİA NUR AKDERE
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. ALPER GEDİK
- Sayısal ortamda kartografik genelleştirme
Cartographic generalization in digital environment
TÜRKAY GÖKGÖZ
- Fused filament fabrication via multi quadcopter collaboration
Çoklu dron işbirliğinde ergiyik filament ile imalat
MATİN GHAZİANİ
Doktora
İngilizce
2023
Makine MühendisliğiOrta Doğu Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. ULAŞ YAMAN
DOÇ. DR. ALİ EMRE TURGUT