Evaluating zero-shot learning capabilities of vision-language models
Görme-dil modellerinin sıfır-örnekle öğrenme yeteneklerinin değerlendirilmesi
- Tez No: 896448
- Danışmanlar: PROF. DR. MEHMET ERKUT ERDEM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 106
Özet
Görme-Dil Modelleri (VLM'ler), görsel içerik ve doğal dil anlayışı arasındaki boşluğu doldurmayı amaçlayan yapay zeka araştırmalarının ön saflarında yer almaktadır. Makinelerin dünyayı daha insani bir şekilde anlamalarını ve etkileşime girmelerini sağlama potansiyelinde VLM'lerin önemi yer almaktadır. Bununla birlikte, VLM'lerin değerlendirilmesi, dikkatli bir değerlendirme ve yenilikçi yaklaşımlar gerektiren iki yönlü zorluklar ortaya çıkarmaktadır. VLM'lerin değerlendirilmesindeki temel zorluklardan biri, görsel ve dilsel bilgiler arasındaki karmaşık ilişkiyi anlamakla ilgilidir. Bu modeller görüntüler, videolar veya metinler gibi tek tek modaliteleri işlemede iyi olsa da, anlamlı içgörüler elde etmek için bu modaliteleri etkili bir şekilde entegre etmek karmaşık bir görev olmaya devam etmektedir. Özellikle dinamik ve bağlam açısından zengin senaryolarda, VLM'lerin eşlik eden metinsel ipuçlarını yorumlarken çeşitli görsel uyaranlarda gezinmesi gerekir, bu da modlar arası füzyon ve anlama için sağlam mekanizmalar gerektirir. Ayrıca, VLM'lerdeki şeffaflık eksikliği, değerlendirmelerine başka bir karmaşıklık katmanı ekler. Bu modeller kıyaslama veri kümelerinde yüksek performans gösterebilirken, altta yatan muhakeme süreçlerini ve bilgi temsillerini anlamak zor olmaya devam etmektedir. VLM'lerin yanıt üretmek ve tahminlerde bulunmak için öğrenilmiş bilgilerinden nasıl yararlandıklarını deşifre etmek, yetenekleri ve sınırlamaları hakkında içgörü kazanmak için çok önemlidir. Bu tez, Çok Modlu Büyük Dil Modelleri (MLLM'ler) ve Video-Dil Modellerinin (VidLM'ler) kapsamlı bir karşılaştırmalı analizini yaparak bu zorlukları ele almaktadır. Tez, görsel girdiler ile dilsel çıktılar arasındaki anlamsal boşluğu doldurma becerilerine odaklanmaktadır. Bu araştırma ampirik değerlendirme yoluyla hem statik hem de dinamik bağlamlarda görsel içeriği anlama ve ifade etmede bu modellerin güçlü yönlerini ve sınırlamalarını incelemektedir. Bu tezin iki ana katkısı bulunmaktadır. İlk olarak, MLLM'ler üzerinde birkaç atışla bağlam içi öğrenme ve düşünce zinciri stratejilerinin kapsamlı bir analizini yaparak, bu stratejilerin performansı sıfır atış öğrenmeye göre önemli ölçüde artırabileceğini ortaya koyuyor. İkinci olarak, bu tez VidLM'ler için dinamik sahnelerdeki eylemleri ve aktörleri tanıma yeterliliklerini değerlendirmek üzere tasarlanmış yeni bir sıfır atış engelleme testi sunuyor. Bulgular, mevcut VidLM'lerin zamansal muhakeme ve eylem tanıma konusunda zorluklarla karşılaştığını, şanstan yalnızca marjinal olarak daha iyi performans gösterdiğini ve böylece VidLM mimarilerinde uzamsal-zamansal görevleri etkili bir şekilde ele almak için ilerlemelerin zorunluluğunu vurgulamaktadır. Sonuç olarak, bu tez MLLM'lerin ve VidLM'lerin performansına ışık tutmakta, değerli içgörüler sunmakta ve gelecekteki iyileştirme alanlarını belirlemektedir. Görsel içerik ve doğal dil arasındaki boşluğu doldurabilecek daha sağlam ve bağlamsal farkındalığa sahip dil modelleri geliştirmek için çok modlu mimarilerde devam eden yeniliklerin önemine işaret etmektedir.
Özet (Çeviri)
Vision-Language Models (VLMs) stand at the forefront of artificial intelligence research, aiming to bridge the gap between visual content and natural language understanding. Their significance lies in their potential to enable machines to comprehend and interact with the world in a more human-like manner. However, the evaluation of VLMs poses twofold challenges that require careful consideration and innovative approaches. One of the primary challenges in evaluating VLMs revolves around understanding the intricate relationship between visual and linguistic information. While these models are good at processing individual modalities, such as images, videos, or text, effectively integrating these modalities to derive meaningful insights remains a complex task. Particularly in dynamic and context-rich scenarios, VLMs must navigate diverse visual stimuli while interpreting accompanying textual cues, requiring robust mechanisms for cross-modal fusion and comprehension. Furthermore, the lack of transparency in VLMs adds another layer of complexity to their evaluation. While these models may exhibit high performance on benchmark datasets, understanding the underlying reasoning processes and knowledge representations remains elusive. Deciphering how VLMs leverage their learned knowledge to generate responses and make predictions is essential for gaining insights into their capabilities and limitations. This thesis addresses these challenges by conducting a comprehensive comparative analysis of Multimodal Large Language Models (MLLMs) and Video-Language Models (VidLMs). It focuses on their ability to bridge the semantic gap between visual inputs and linguistic outputs. Through empirical evaluation, this research examines the strengths and limitations of these models in comprehending and articulating visual content in both static and dynamic contexts. This thesis makes two main contributions. Firstly, it conducts a comprehensive analysis of few-shot In-Context Learning (ICL) and Chain-of-Thought (CoT) strategies on MLLMs, revealing that these strategies can significantly boost performance compared to zero-shot settings. Secondly, it introduces a novel zero-shot foiling test for VidLMs, designed to assess their proficiency in recognizing actions and actors within dynamic scenes. The findings indicate that current VidLMs face challenges in temporal reasoning and action recognition, performing only marginally better than chance, thereby highlighting the imperative for advancements in VidLMs architectures to effectively handle spatio-temporal tasks. In conclusion, this thesis sheds light on the performance of MLLMs and VidLMs, offering valuable insights and identifying areas for future improvement. It indicates the importance of ongoing innovation in multimodal architectures to develop more robust and contextually aware language models capable of bridging the gap between visual content and natural language.
Benzer Tezler
- Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
ZİŞAN YALÇINKAYA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
- Exploring the capabilities of large language models in visual question answering: A new approach using question-driven image captions as prompts
Büyük dil modellerinin görsel soru yanıtlama yeteneklerinin keşfedilmesi: Soru odaklı görüntü altyazılarını istem olarak kullanan yeni bir yaklaşım
ÖVGÜ ÖZDEMİR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiModelleme ve Simülasyon Ana Bilim Dalı
DOÇ. DR. ERDEM AKAGÜNDÜZ
- Closed-form sample probing for training generative models in zero-shot learning
Sıfır örnekle öğrenmede kapalı form örnek değerlendirme ile üretici model eğitimi
SAMET ÇETİN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ
- Improving deepkinzero with protein languages models and transductive learning
Protein dil modelleri ve transdüktif öğrenme ile deepkinzero'yu iyileştirme
EMİNE AYŞE SUNAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. ÖZNUR TAŞTAN OKAN
DOÇ. RAMAZAN GÖKBERK CİNBİŞ
- Marka değeri yüksek tedarik zinciri firmalarının COVID-19 pandemi ve sonrasında aldığı stratejik kararların ve yıllık raporlarının analiz ve değerlendirilmesi
Analysis and evaluation of supply chain companies with high brand value and annual reports of strategic decisions made during the COVID-19 pandemic and after
ELMAS DÜNDAR
Yüksek Lisans
Türkçe
2024
İşletmeErciyes ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. FEYZA GÜRBÜZ