Geri Dön

Knowledge-based visual question answering

Bilgi tabanlı görsel soru cevaplama

  1. Tez No: 841626
  2. Yazar: ZİŞAN YALÇINKAYA
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ANIL BAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 60

Özet

Görsel soru cevaplama (VQA), görev zekası ve soru cevaplama için önem arz etmektedir. Görsel soru cevaplama (VQA), görüntü grafiği ile ilgili hem görsel hem de metinsel bilgiler hakkındaki soruları anlamayı ve yanıtlamayı içermektedir. VQA'nın önemli olmasının kritik nedenlerinden biri, dil ve görme anlayışı arasındaki boşluğu doldurma potansiyelidir. Görsel algıyı doğal dil işleme ile birleştiren VQA modelleri, görüntülerle ilgili soruları anlayabilmekte ve bunlara ilişkin anlamlı yanıtlar üretebilmektedir. Bu yetenek, görme engelli bireylerin görsel içeriği anlamasına yardımcı olmak veya akıllı sistemlerin görsel girdiler aracılığıyla kullanıcılarla etkileşime girmesini sağlamak gibi çok sayıda pratik uygulamaya sahip olmaktadır. Mevcut görüntü altyazısı oluşturucuların çoğu, toplanması zaman alan ve pahalı olan geniş eşleştirilmiş görüntü altyazısı veri kümeleri üzerinde uçtan uca eğitilmektedir. Ayrıca, bu modeller daha fazla açıklanabilirliğe ihtiyaç duymakta ve farklı alanlarda iyi bir şekilde genelleme yapabilir olmaktadırlar. Artan veri ile görsel soru cevaplama görevlerinin doğru olması kadar performansının da iyi olması beklenmektedir. Yaygın olarak kullanılan görsel soru cevaplama derin öğrenme modellerinin maliyet ve zaman faktörleri açısından yeterli olmadığı görülmüştür. Görselden metinsel altyazı üretmek için önerilen transformatör metotlarının amacı yaygın olarak kullanılan görsel altyazı metotlarına nazaran daha hızlı ve doğru sonuçlar vermesidir. Kontrastlı Dil-Görüntü ön eğitimi (CLIP), görsel ve metinsel kodlayıcı işlevi sağlayan transformatör modeldir. Ön eğitimli olan CLIP, sıfır vuruş öğrenme yöntemi ile eğitim süresini ve maliyetini de azalmaktadır. Yöntemimiz bir dizi görsel anahtar kelimeyle başlamaktadır. ConceptNet Bilgi Grafiği ile zenginleştirilen bu anahtar kelimelerin görsellerle olan benzerliğini hesaplamaktayız. CLIP kullanarak resim ve metin özelliklerini tokenize ettiğimizde, anahtar kelimelerin hazırlanmasının ardından yaklaşımımız, eşleştirilmiş görüntü altyazıları üzerinde uçtan uca eğitim gerektirmeyen, Llama-13B'ye dayalı basit bir model olarak bir anahtar kelime ve bilgi grafiği modeliyle oluşturulan altyazıları kullanmaktadır. Bu çalışmada, görüntülerden bilgi çıkarmak için sıfır adımlı öğrenmeyi araştırdık ve görsel soruları yanıtlamak için literatürdeki çeşitli modelleri karşılaştırdık. Araştırmamız, büyük dil modellerinin (LLM'ler) mükemmel bilgi ve yanıt oluşturma yeteneklerine sahip olduğunu buldu. Bu alanı ilerletmek için Anahtar Kelime ve Bilgiye Dayalı Görsel Soru Cevaplama (KK-VQA) adında yeni bir model tanıttık. Yalnızca statik bilgi grafiklerine dayanan geleneksel yaklaşımların aksine, KK-VQA, görüntü altyazılarından gelen bilgileri dinamik olarak birleştirerek gerçek zamanlı güncellemelere ve harici bilgi entegrasyonuna olanak tanır. Bu, bağlamsal anlayışı zenginleştirerek daha kesin ve bağlama duyarlı yanıtlara yol açar. KK-VQA, Llama 2 sistemini temel alarak görüntü altyazısı ve VQA teknolojilerini birleştirmede önemli bir ilerleme sağlar. Modelimiz, sıfır atışlı VQA görevleri için LLM'lerin bilgi ve muhakeme yeteneklerinden yararlanır ve kolayca sindirilebilir istemler yoluyla görsel bilgi ve görev rehberliği sunar. Bu, pahalı uçtan uca görüş dili hizalama ihtiyacını ortadan kaldırır, model esnekliğini artırır ve maliyetleri azaltır. Deneysel sonuçlar, KK-VQA'nın çeşitli LLM'lerin, maliyetli uçtan uca eğitim gerektiren yöntemlere kıyasla karşılaştırılabilir veya üstün sıfır atışlı VQA performansı elde etmesini sağladığını göstermektedir. Bu ilerleme, mevcut VQA modellerindeki sınırlamaları gidererek onları daha uyarlanabilir hale getirir ve muhakemelerini çeşitli bağlamlarda açıklayabilir hale getirir. Yaklaşımımızı geliştirmek için üç özel eğitim aşaması tasarlamaktayız: (a) görüntülerden çıkarılan nesneler, (b) bilgi grafiği kullanılarak zenginleştirilmiş bir anahtar kelime listesi hazırlamak ve altyazı modelini görev hedefine göre ayarlamak için Kontrastlı Dil- Görüntü Ön Eğitimi (CLIP) benzerliğini kullanarak gereksiz anahtar kelimelerin kaldırılması ve (c) geniş dil modeline girmek için komut hazırlama. Değerlendirme hem nicel hem de nitel analizleri içermektedir.

Özet (Çeviri)

Visual question answering (VQA) is vital in enhancing task intelligence and answering queries related to images. This process involves understanding and responding to questions based on visual elements and textual information in images. A major significance of VQA lies in its ability to merge the realms of language and vision. VQA models can interpret and provide relevant answers to image questions by integrating visual perception with natural language processing. This functionality is beneficial in various scenarios, such as helping visually impaired individuals comprehend visual content or enabling intelligent systems to interact with users via visual cues. Image caption generators are traditionally developed using a comprehensive end-to-end training approach, employing large datasets of images paired with their corresponding captions. However, collecting these datasets is both time-consuming and costly. Moreover, these conventional models often need more transparency in their decision- making processes and may need help to adapt across diverse domains. The efficiency and cost-effectiveness of standard VQA models could be better. While many current approaches focus on training systems to convert visual elements into text, achieving quicker and more accurate outcomes is the goal. One such approach is the Contrast Language-Image Pre-training (CLIP), a transformer- based model incorporating visual and textual encoders. Despite being pre-trained, CLIP shows limitations, particularly in zero-shot training scenarios. Our method deviates from this by beginning with a set of keywords related to the image, aiming to enhance the efficiency and applicability of VQA models.ConceptNet Knowledge Graph enriches these keywords, and then we measure their similarity with images. We tokenize image and text features using the CLIP framework. After keyword preparation, our approach employs the generated captions by a keyword and knowledge graph model as the simple model based on Llama-13B that does not require end-to-end training on paired image captions. In this study, we explored zero-shot learning to extract information from images and compared various models from the literature for answering visual questions. Our research found that large language models (LLMs) have excellent knowledge and answer- generation capabilities. We introduced a novel model named Keyword and Knowledge- based Visual Question Answering (KK-VQA) to advance this field. Unlike traditional approaches that rely solely on static knowledge graphs, KK-VQA dynamically incorporates information from image captions, allowing for real-time updates and external knowledge integration. This enriches contextual understanding, leading to more precise and context-aware answers. KK-VQA represents an advancement in visual question-answering (VQA) technology, building on the capabilities of the Llama 2 system. This new model enhances the combination of image captioning and VQA by utilizing the knowledge and reasoning skills of large language models (LLMs) for zero-shot VQA tasks. It uses prompts that present visual information and task instructions in an easy-to-understand format. A key benefit of KK-VQA is that it bypasses the need for complex and costly vision-language alignment processes typically required in VQA models. This approach makes the model more flexible and reduces overall costs. Through testing, KK-VQA has shown that it allows various LLMs to perform zero-shot VQA tasks at a level comparable to or better than existing methods that rely on expensive end-to-end training. This progress addresses some of the main limitations in current VQA models, making them more versatile and better at explaining their reasoning in various situations. To develop our approach, we design three specific training stages: (a) objects extracted from images, (b) preparing a keyword list enriched using a Knowledge Graph, and removing unnecessary keywords using Contrastive Language-Image Pre-training (CLIP) similarity for tuning the captioning model according to the task goal and (c) prepare prompt to enter Large language model. The evaluation includes both quantitative and qualitative analyses.

Benzer Tezler

  1. Sınıf öğretmeni adaylarının geometrik cisimler konusundaki pedagojik alan bilgileri

    Prospective primary teachers? pedagogical content knowledge about geometric shapes

    YASİN GÖKBULUT

    Doktora

    Türkçe

    Türkçe

    2010

    Eğitim ve ÖğretimGazi Üniversitesi

    İlköğretim Bölümü

    DOÇ. DR. BEHİYE UBUZ

  2. Shipyard productivity evaluation with key performance indicators

    Tersane üretim verimliliğinin temel performans göstergeleri ile değerlendirilmesi

    ÜMRAN BİLEN

    Doktora

    İngilizce

    İngilizce

    2022

    Gemi Mühendisliğiİstanbul Teknik Üniversitesi

    Gemi İnşaatı ve Gemi Makineleri Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞEBNEM HELVACIOĞLU

  3. The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching

    Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi

    ÖZLEM YAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. PAŞA TEVFİK CEPHE

  4. Detecting beacons in grasshopper visual programming language

    Grasshopper görsel programlama dilindekiisaretler˙in araştırılması

    ATRA HADDUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ASLI KANAN

  5. İstanbul'un dışlanma mekânları: Cinsiyet odaklı altkültür incelemesi ve altkültürün kent parçaları ile ilişkisi

    Exclusion areas of İstanbul: Gender based subculture analysis and relationship of subculture and city parts

    CEREN BALKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. İPEK AKPINAR