Advancing toward temporal and commonsense reasoning in vision-language learning
Görü-dil öğreniminde zamansal ve sağduyulu muhakemeye doğru ilerleme
- Tez No: 836733
- Danışmanlar: PROF. DR. DENİZ YURET
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 135
Özet
İnsanlar, başta gözlemler olmak üzere deneyimler yoluyla dili dünyaya dayandırmayı öğrenirler. İnsanlara benzer şekilde akıl yürütebilen doğal dil işleme (NLP) yaklaşımları geliştirmek, yapay zeka topluluğunun uzun süredir devam eden bir hedefidir. Son zamanlarda, dönüştürücü modeller çok sayıda NLP görevinde kayda değer performans ortaya koymuştur. Bunu, görüntü altyazılama ve görsel soru yanıtlama gibi, dili görsel dünyaya bağlamayı gerektiren görü-dil (V&L) görevlerindeki atılımlar izledi. Dönüştürücü modellerin bu başarıları, V&L topluluğunu, özellikle zamansal ve sağduyulu akıl yürütme gibi daha zorlu yönleri takip etmeye yönlendirmiştir. Bu tez, zamansal muhakeme, sağduyulu muhakeme ya da her ikisini aynı anda gerektiren V&L problemlerine odaklanmaktadır. Zamansal akıl yürütme, zaman içinde akıl yürütme yeteneğidir. V&L bağlamında bu, durağan görüntülerin ötesine geçmek, yani videoları işlemek anlamına gelmektedir. Sağduyulu muhakeme, bizi çevreleyen dünya hakkındaki örtük genel bilgiyi yakalamayı ve bu bilgiyi belirli bir içerik dahilinde kullanarak doğru bir yargıya varmayı gerektirir. Bu tez, zamansal ve sağduyulu muhakemenin çeşitli yönlerini araştırarak dil ve görüyü birbirine bağlayan dört farklı çalışmadan oluşmaktadır. Bu zorlu yönlere geçmeden önce, (i) ilk olarak konumlandırma aşamasına odaklanılmaktadır: Dil koşullandırmasının aşağıdan yukarıya ve yukarıdan aşağıya görsel işleme dallarını nasıl etkilemesi gerektiğinin sistematik olarak değerlendirilmesini sağlayan bir modelle çalışılmıştır. Aşağıdan yukarıya olan dalın dile koşullanmasının, renkler ve nesne kategorileri gibi görsel kavramları temellendirmek için çok önemli olduğunu gösterilmiştir. (ii) Sonrasında, mevcut video-dil modellerinin karmaşık dinamik sahnelerle ilgili soruları yanıtlamada başarılı olup olmadığı araştırılmıştır. Test ortamı olarak CRAFT veri kümesi tercih edilmiş ve son teknoloji video-dil modellerinin dinamik sahneleri yetkin bir şekilde işleyemeyerek büyük bir farkla insan performansının gerisinde kaldığı gösterilmiştir. (iii) Üçüncü çalışmada, önceden eğitilmiş video-dil modellerinin dil anlama yeteneklerini değerlendirmek için sıfır atış video-dil değerlendirme ölçütü geliştiriyoruz. Yapılan deneyler, mevcut video-dil modellerinin, günlük dinamik eylemlerin işlenmesinde girdi olarak statik görüntüleri işleyen görme-dil modellerinden daha iyi olmadığını ortaya koymaktadır. (iv) Son çalışmada, örtmece algılama adı verilen mecazi bir dil anlama problemi üzerinde çalışılmıştır. Örtmeceler, hassas veya hoş olmayan konularla ilgili ifadeleri yumuşatır. Örtmece terimlerin müphem doğası, sağduyu bilgisinin ve sağduyulu muhakemenin gerekli olduğu bir durumda gerçek anlamlarının tespit edilmesini zorlaştırmaktadır. Düşük kaynaklı ortamlarda ek metinsel ve görsel bilginin dahil edilmesinin örtmece terimlerin tespit edilmesinde faydalı olduğunu gösterilmiştir. Bununla birlikte, bu dört çalışma ile ilgili elde edilen bulgular, mevcut V&L modellerinin yetenekleri ile insan muhakemesi arasında hala ciddi bir uçurum olduğunu göstermektedir.
Özet (Çeviri)
Humans learn to ground language to the world through experience, primarily visual observations. Devising natural language processing (NLP) approaches that can reason in a similar sense to humans is a long-standing objective of the artificial intelligence community. Recently, transformer models exhibited remarkable performance on numerous NLP tasks. This is followed by breakthroughs in vision-language (V&L) tasks, like image captioning and visual question answering, which require connecting language to the visual world. These successes of transformer models encouraged the V&L community to pursue more challenging directions, most notably temporal and commonsense reasoning. This thesis focuses on V&L problems that require either temporal reasoning, commonsense reasoning, or both simultaneously. Temporal reasoning is the ability to reason over time. In the context of V&L, this means going beyond static images, i.e., processing videos. Commonsense reasoning requires capturing the implicit general knowledge about the world surrounding us and making an accurate judgment using this knowledge within a particular context. This thesis comprises four distinct studies that connect language and vision by exploring various aspects of temporal and commonsense reasoning. Before advancing to these challenging directions, (i) we first focus on the localization stage: We experiment with a model that enables systematic evaluation of how language-conditioning should affect the bottom-up and the top-down visual processing branches. We show that conditioning the bottom-up branch on language is crucial to ground visual concepts like colors and object categories. (ii) Next, we investigate whether the existing video-language models thrive in answering questions about complex dynamic scenes. We choose the CRAFT benchmark as our test bed and show that the state-of-the-art video language models fall behind human performance by a large margin, failing to process dynamic scenes proficiently. (iii) In the third study, we develop a zero-shot video-language evaluation benchmark to evaluate the language understanding abilities of pretrained video-language models. Our experiments reveal that the current video-language models are no better than the vision-language models, processing static images as input in processing daily dynamic actions. (iv) In the last study, we work on a figurative language understanding problem called euphemism detection. Euphemisms tone down expressions about sensitive or unpleasant issues. The ambiguous nature of euphemistic terms makes it challenging to detect their actual meaning within a context where commonsense knowledge and reasoning are necessities. We show that incorporating additional textual and visual knowledge in low-resource settings is beneficial to detect euphemistic terms. Nonetheless, our findings on these four studies still demonstrate a substantial gap between current V&L models' abilities and human cognition.
Benzer Tezler
- Biyomagnetik olaylar
Başlık çevirisi yok
M.TOGAN ÇANDIR
Yüksek Lisans
Türkçe
1996
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. İNCİ AKKAY
- Utilizing remote sensing and GIS solar power sources
Uzaktan algılama ve CBS güneş enerjisi kaynaklarından faydalanma
SAIF AL ALLAQ
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Gelişim ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF GÜRCAN ŞAHİN
- Conserving Iranian gardens: A quick step toward sustainable development goals
İran bahçelerinin korunması: Sürdürülebilir kalkınma hedeflerine doğru hızlı bir adım
SEYYEDEH MAHSA MOUSAVIGHARALARI
Yüksek Lisans
İngilizce
2024
Peyzaj Mimarlığıİstanbul Teknik ÜniversitesiPeyzaj Mimarlığı Ana Bilim Dalı
DOÇ. DR. ELİF KISAR KORAMAZ
- Wide-Range Characterization of Current Conduction in Superconductors-Tuning Their Properties by Nanoscale Modification of Materials
Süperiletkenlerde Akım İletiminin Geniş Kapsamlı Karakterizasyonu-Malzemelerin Nano Ölçekli Modifikasyonuyla Özelliklerinin Ayarlanması
ÖZGÜR POLAT
Doktora
İngilizce
2009
Fizik ve Fizik MühendisliğiThe University of TennesseeKatıhal Fiziği Ana Bilim Dalı
PROF. DR. JAMES R. THOMPSON