Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
- Tez No: 841626
- Danışmanlar: DR. ÖĞR. ÜYESİ ANIL BAŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 60
Özet
Görsel soru cevaplama (VQA), görev zekası ve soru cevaplama için önem arz etmektedir. Görsel soru cevaplama (VQA), görüntü grafiği ile ilgili hem görsel hem de metinsel bilgiler hakkındaki soruları anlamayı ve yanıtlamayı içermektedir. VQA'nın önemli olmasının kritik nedenlerinden biri, dil ve görme anlayışı arasındaki boşluğu doldurma potansiyelidir. Görsel algıyı doğal dil işleme ile birleştiren VQA modelleri, görüntülerle ilgili soruları anlayabilmekte ve bunlara ilişkin anlamlı yanıtlar üretebilmektedir. Bu yetenek, görme engelli bireylerin görsel içeriği anlamasına yardımcı olmak veya akıllı sistemlerin görsel girdiler aracılığıyla kullanıcılarla etkileşime girmesini sağlamak gibi çok sayıda pratik uygulamaya sahip olmaktadır. Mevcut görüntü altyazısı oluşturucuların çoğu, toplanması zaman alan ve pahalı olan geniş eşleştirilmiş görüntü altyazısı veri kümeleri üzerinde uçtan uca eğitilmektedir. Ayrıca, bu modeller daha fazla açıklanabilirliğe ihtiyaç duymakta ve farklı alanlarda iyi bir şekilde genelleme yapabilir olmaktadırlar. Artan veri ile görsel soru cevaplama görevlerinin doğru olması kadar performansının da iyi olması beklenmektedir. Yaygın olarak kullanılan görsel soru cevaplama derin öğrenme modellerinin maliyet ve zaman faktörleri açısından yeterli olmadığı görülmüştür. Görselden metinsel altyazı üretmek için önerilen transformatör metotlarının amacı yaygın olarak kullanılan görsel altyazı metotlarına nazaran daha hızlı ve doğru sonuçlar vermesidir. Kontrastlı Dil-Görüntü ön eğitimi (CLIP), görsel ve metinsel kodlayıcı işlevi sağlayan transformatör modeldir. Ön eğitimli olan CLIP, sıfır vuruş öğrenme yöntemi ile eğitim süresini ve maliyetini de azalmaktadır. Yöntemimiz bir dizi görsel anahtar kelimeyle başlamaktadır. ConceptNet Bilgi Grafiği ile zenginleştirilen bu anahtar kelimelerin görsellerle olan benzerliğini hesaplamaktayız. CLIP kullanarak resim ve metin özelliklerini tokenize ettiğimizde, anahtar kelimelerin hazırlanmasının ardından yaklaşımımız, eşleştirilmiş görüntü altyazıları üzerinde uçtan uca eğitim gerektirmeyen, Llama-13B'ye dayalı basit bir model olarak bir anahtar kelime ve bilgi grafiği modeliyle oluşturulan altyazıları kullanmaktadır. Bu çalışmada, görüntülerden bilgi çıkarmak için sıfır adımlı öğrenmeyi araştırdık ve görsel soruları yanıtlamak için literatürdeki çeşitli modelleri karşılaştırdık. Araştırmamız, büyük dil modellerinin (LLM'ler) mükemmel bilgi ve yanıt oluşturma yeteneklerine sahip olduğunu buldu. Bu alanı ilerletmek için Anahtar Kelime ve Bilgiye Dayalı Görsel Soru Cevaplama (KK-VQA) adında yeni bir model tanıttık. Yalnızca statik bilgi grafiklerine dayanan geleneksel yaklaşımların aksine, KK-VQA, görüntü altyazılarından gelen bilgileri dinamik olarak birleştirerek gerçek zamanlı güncellemelere ve harici bilgi entegrasyonuna olanak tanır. Bu, bağlamsal anlayışı zenginleştirerek daha kesin ve bağlama duyarlı yanıtlara yol açar. KK-VQA, Llama 2 sistemini temel alarak görüntü altyazısı ve VQA teknolojilerini birleştirmede önemli bir ilerleme sağlar. Modelimiz, sıfır atışlı VQA görevleri için LLM'lerin bilgi ve muhakeme yeteneklerinden yararlanır ve kolayca sindirilebilir istemler yoluyla görsel bilgi ve görev rehberliği sunar. Bu, pahalı uçtan uca görüş dili hizalama ihtiyacını ortadan kaldırır, model esnekliğini artırır ve maliyetleri azaltır. Deneysel sonuçlar, KK-VQA'nın çeşitli LLM'lerin, maliyetli uçtan uca eğitim gerektiren yöntemlere kıyasla karşılaştırılabilir veya üstün sıfır atışlı VQA performansı elde etmesini sağladığını göstermektedir. Bu ilerleme, mevcut VQA modellerindeki sınırlamaları gidererek onları daha uyarlanabilir hale getirir ve muhakemelerini çeşitli bağlamlarda açıklayabilir hale getirir. Yaklaşımımızı geliştirmek için üç özel eğitim aşaması tasarlamaktayız: (a) görüntülerden çıkarılan nesneler, (b) bilgi grafiği kullanılarak zenginleştirilmiş bir anahtar kelime listesi hazırlamak ve altyazı modelini görev hedefine göre ayarlamak için Kontrastlı Dil- Görüntü Ön Eğitimi (CLIP) benzerliğini kullanarak gereksiz anahtar kelimelerin kaldırılması ve (c) geniş dil modeline girmek için komut hazırlama. Değerlendirme hem nicel hem de nitel analizleri içermektedir.
Özet (Çeviri)
Visual question answering (VQA) is vital in enhancing task intelligence and answering queries related to images. This process involves understanding and responding to questions based on visual elements and textual information in images. A major significance of VQA lies in its ability to merge the realms of language and vision. VQA models can interpret and provide relevant answers to image questions by integrating visual perception with natural language processing. This functionality is beneficial in various scenarios, such as helping visually impaired individuals comprehend visual content or enabling intelligent systems to interact with users via visual cues. Image caption generators are traditionally developed using a comprehensive end-to-end training approach, employing large datasets of images paired with their corresponding captions. However, collecting these datasets is both time-consuming and costly. Moreover, these conventional models often need more transparency in their decision- making processes and may need help to adapt across diverse domains. The efficiency and cost-effectiveness of standard VQA models could be better. While many current approaches focus on training systems to convert visual elements into text, achieving quicker and more accurate outcomes is the goal. One such approach is the Contrast Language-Image Pre-training (CLIP), a transformer- based model incorporating visual and textual encoders. Despite being pre-trained, CLIP shows limitations, particularly in zero-shot training scenarios. Our method deviates from this by beginning with a set of keywords related to the image, aiming to enhance the efficiency and applicability of VQA models.ConceptNet Knowledge Graph enriches these keywords, and then we measure their similarity with images. We tokenize image and text features using the CLIP framework. After keyword preparation, our approach employs the generated captions by a keyword and knowledge graph model as the simple model based on Llama-13B that does not require end-to-end training on paired image captions. In this study, we explored zero-shot learning to extract information from images and compared various models from the literature for answering visual questions. Our research found that large language models (LLMs) have excellent knowledge and answer- generation capabilities. We introduced a novel model named Keyword and Knowledge- based Visual Question Answering (KK-VQA) to advance this field. Unlike traditional approaches that rely solely on static knowledge graphs, KK-VQA dynamically incorporates information from image captions, allowing for real-time updates and external knowledge integration. This enriches contextual understanding, leading to more precise and context-aware answers. KK-VQA represents an advancement in visual question-answering (VQA) technology, building on the capabilities of the Llama 2 system. This new model enhances the combination of image captioning and VQA by utilizing the knowledge and reasoning skills of large language models (LLMs) for zero-shot VQA tasks. It uses prompts that present visual information and task instructions in an easy-to-understand format. A key benefit of KK-VQA is that it bypasses the need for complex and costly vision-language alignment processes typically required in VQA models. This approach makes the model more flexible and reduces overall costs. Through testing, KK-VQA has shown that it allows various LLMs to perform zero-shot VQA tasks at a level comparable to or better than existing methods that rely on expensive end-to-end training. This progress addresses some of the main limitations in current VQA models, making them more versatile and better at explaining their reasoning in various situations. To develop our approach, we design three specific training stages: (a) objects extracted from images, (b) preparing a keyword list enriched using a Knowledge Graph, and removing unnecessary keywords using Contrastive Language-Image Pre-training (CLIP) similarity for tuning the captioning model according to the task goal and (c) prepare prompt to enter Large language model. The evaluation includes both quantitative and qualitative analyses.
Benzer Tezler
- Sınıf öğretmeni adaylarının geometrik cisimler konusundaki pedagojik alan bilgileri
Prospective primary teachers? pedagogical content knowledge about geometric shapes
YASİN GÖKBULUT
- Shipyard productivity evaluation with key performance indicators
Tersane üretim verimliliğinin temel performans göstergeleri ile değerlendirilmesi
ÜMRAN BİLEN
Doktora
İngilizce
2022
Gemi Mühendisliğiİstanbul Teknik ÜniversitesiGemi İnşaatı ve Gemi Makineleri Mühendisliği Ana Bilim Dalı
PROF. DR. ŞEBNEM HELVACIOĞLU
- The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching
Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi
ÖZLEM YAZAR
Yüksek Lisans
İngilizce
2004
Eğitim ve ÖğretimGazi Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. PAŞA TEVFİK CEPHE
- Detecting beacons in grasshopper visual programming language
Grasshopper görsel programlama dilindekiisaretler˙in araştırılması
ATRA HADDUR
Yüksek Lisans
İngilizce
2023
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ASLI KANAN
- İstanbul'un dışlanma mekânları: Cinsiyet odaklı altkültür incelemesi ve altkültürün kent parçaları ile ilişkisi
Exclusion areas of İstanbul: Gender based subculture analysis and relationship of subculture and city parts
CEREN BALKAN
Yüksek Lisans
Türkçe
2016
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. İPEK AKPINAR