Comicverse: Expanding the frontiers of ai in comic books with holistic understanding
Comicverse: Bütünsel anlayışla çizgi romanlarda yapay zekanın sınırlarını genişletmek
- Tez No: 836643
- Danışmanlar: PROF. DR. DENİZ YURET, PROF. DR. TEVFİK METİN SEZGİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yapay Zeka Bilim Dalı
- Sayfa Sayısı: 221
Özet
Çizgi romanlar, hikayeleri ve fikirleri sıralı görseller aracılığıyla ileten benzersiz ve çok-kipli bir görsel iletişim aracıdır. Görsellere genellikle diyalog ve anlatı metinleri eşlik eder. Çizgi romanların karmaşık görsel dilinde, farklı yazarlar, kültürler, zaman dönemleri, teknolojiler ve sanatsal tarzlar arasında değişiklikler görülür. Bu nedenle çizgi romanların hesaplamalı analizi, temel bilgisayarlı görü ve doğal dil işleme yöntemlerinin kullanılmasını gerektirir. Bu tezde, çizgi romanların benzersiz çoklu modalitesini kullanarak nöral çizgi roman anlayışını artırmayı amaçlıyorum ve bunu yaparken çizgi romanları karakter merkezli bir yaklaşım ile işlemeyi hedefliyorum. Kamuya açık olan Amerikan Çizgi Romanlarının Altın Çağı dönemine ait çizgi romanlar ile çalışmak hem döneme ait çizgi roman sayısının fazlalığından hem de telif hakları uygunluğundan dolayı seçilmiştir. Ancak, etiketli veri bu alanda oldukça sınırlıdır. Bu nedenle amacıma ulaşmak için, veri kümesi oluşturma, çizgi romanlar için yeni görevler ve mimariler önerme gibi çalışmalar içeren dört temel adımdan oluşan bütünsel bir yaklaşım benimsedim. İlk adım, Optik Karakter Tanıma (OCR) modelleri kullanarak konuşma balonları ve anlatı kutusu görüntülerinden yüksek kaliteli metin verisi çıkarmayı içerir. İkinci adımda, Çok Görevli Öğrenme (MTL) modelini iyileştirme yoluyla çizgi roman sayfalarını bileşenlerine ayırmayı başardım. Bu bileşenler şunlardır: panel, konuşma balonu, anlatı kutusu, karakter yüzü ve vücudunu tespit etmek, konuşma balonu ve panel segmente etmek. Ayrıca MTL modelinin görevlerinden birisi de konuşma balonlarını karakterlerin yüz ve vücutlarıyla ilişkilendirmektir. Üçüncü adımda ise, önceki aşamadan elde edilen karakter yüzlerini ve vücutlarını birleştirerek tekil karakterler bulunur ve karakterleri sıralı paneller arasında yeniden tanımlamanır ve takip edilir. Bu üç adım, çizgi roman panelini bulma, bileşenlerini tanımlama ve karakter kimliklerini diyalog benzeri bir yapıya dönüştürme imkanı sağlamaktadır. Dolayısıyla tezin son adımında ise, önceki yapının faydalarından yararlanmak için multimodal ComicBERT modelini geliştirdim. viComicBERT'in içerik anlama yeteneklerini değerlendirmek için cloze tarzı görevleri kullandım. Ayrıca, Scene-Cloze adını verdiğim yeni bir görev öneriyorum. Sonuç olarak, yaklaşımım, özellikle metin ve visual cloze görevlerinde %69.5 ve %77.1'lik doğruluklar elde ederek insan seviyesine yaklaşıyor. Genel olarak, katkılarım şunlardır: 1. COMICS Text+ Dataset adını taşıyan iki milyondan fazla konuşma balonu ve anlatı kutusunun transkriptini içeren bir veri kümesi oluşturuldu ve paylaşıldı. Ayrıca, metin algılama ve tanıma modellerini açık kaynak olarak eğitimlerinde kullandığım etiketli veri setleriyle birlikte paylaşıldı. 2. Algılama, segmentasyon ve ilişkilendirme görevleri için bir MTL model'ini her yönüyle daha iyi hale getirerek, çizgi roman karakter yüzü ve vücudu ile konuşma balonu ilişkilendirme görevinde SOTA sonuçlar elde edildi. 3. Birleşik ve kimlik uyumlu çizgi roman karakter özellik vektörleri ve kimlik temsilleri üretmek için Çizgi Roman Karakterinin Yeniden Tanımlanması için Kimliğe Duyarlı Yarı Denetimli Öğrenme yapısını öne sürüldü. Ayrıca, öz denetim aşamasında kullanılan veri kümesini, Comic Character Instances Dataset, oluşturdum ve yarı izleme aşamasında kullanılan dörtlü ardışık çizgi roman panellerinin içindeki kimlik etiketlerini içeren Comic Sequence Identity Dataset'i derlendi. 4. Sıralı panelleri ve bileşenlerini işleyebilen bir transformer-kodlayıcı mimarisi olan multimodal Comicsformer tanıtıldı. Çizgi romanlar için yeni, kendi kendini denetleyen bir ön eğitim stratejisi olan Masked Comic Modeling (MCM) görevi için omurga görevi görür ve sonuçta çizgi romanlar için potansiyel bir Foundation model olan ComicBERT ortaya çıkar. ComicBERT, cloze tarzı görevlerde, özellikle metin cloze ve görsel cloze görevlerinde, insan düzeyinde kavramaya yaklaşan SOTA performansına ulaşmıştır.
Özet (Çeviri)
Comics are a unique and multimodal medium that conveys stories and ideas through sequential imagery often accompanied by text for dialogue and narration. Comics' elaborate visual language exhibits variations from different authors, cultures, periods, technologies, and artistic styles. Consequently, the computational analysis of comic books requires addressing fundamental challenges in computer vision and natural language processing. In this thesis, I aim to enhance neural comic book understanding by making use of comics' unique multimodal nature and processing comics in a character-centric approach. The primary data source for this thesis is the Golden Age of American Comics due to its public accessibility and abundance of comic series. However, the availability of annotated data is limited. Thus, to achieve my goal, I have adopted a holistic approach composed of four main steps ranging from curating datasets to proposing novel tasks and architectures for comics. The first three steps aim to create a machine-readable comics database by locating comic book panels, identifying their components, and transforming character identities into a dialogue-like structure and the final step uses this database to train a transformer- based model. The first step involves extracting high-quality text data from speech bubbles and narrative box images using OCR models. I decompose comic pages into their constituent components in the second step through detection, segmentation, and association tasks with a refined Multi-Task Learning (MTL) model. Detection involves identifying panels, speech bubbles, narrative boxes, character faces, and bodies. Segmentation focuses on isolating speech bubbles and panels, while the association task involves linking speech bubbles with character faces and bodies. In the third step, I utilize the paired character faces and bodies obtained from the previous stage to create character instances and, subsequently, reidentify and track these instances across sequential panels. In the final step of my thesis, I propose a multimodal framework by introducing the ComicBERT model, which exploits the abovementioned structure. Cloze-style tasks were used to evaluate ComicBERT's contextual understanding capabilities. Furthermore, I propose a new task called Scene-Cloze, which predicts the next panel given n previous panels as context. As a result, my approach achieves a new state-of-the-art performance in Text-Cloze and Visual-Cloze tasks with accuracies of 69.5% and 77.1%, respectively, thus getting closer to the human baseline. Overall, the highlights of my contributions are as follows: 1. I curated and shared COMICS Text+ Dataset with over two million transcrip- tions of textboxes from the golden age of comics. In addition, I open-sourced the text detection and recognition models that are fine-tuned for the task and datasets used in their training. 2. I refined a MTL framework for detection, segmentation, and association tasks and achieved SOTA results in comic character face and body-to-speech bubble association tasks. 3. I proposed a novel Identity-Aware Semi-Supervised Learning for Comic Character Re-Identification framework to generate unified and identity-aligned comic character embeddings and identity representations. Furthermore, I generated two new datasets: the Comic Character Instances Dataset, encompassing over a million character instances used in the self-supervision phase, and the Comic Sequence Identity Dataset, containing annotations of identities within sets of four consecutive comic panels used in semi-supervision phase. 4. I introduced the multimodal Comicsformer, a transformer-encoder architecture capable of processing sequential panels and their constituents. It serves as the backbone for the Masked Comic Modeling (MCM) task, a novel self- supervised pre-training strategy for comics, resulting in ComicBERT, a potential foundation model for golden age comics. ComicBERT achieves SOTA performance in cloze-style tasks, particularly in text-cloze and visual-cloze tasks, approaching human-level comprehension.
Benzer Tezler
- The mother goddess and the reflections of mythological characters in comics today
Ana tanrıça ve mitolojik karakterlerin günümüz çizgi romanlarındaki yansımaları
SETENAY ÇELİK
Yüksek Lisans
İngilizce
2023
Güzel SanatlarYaşar ÜniversitesiSanat ve Tasarım Ana Sanat Dalı
DR. ÖĞR. ÜYESİ MEHMET KAHYAOĞLU
- Tek bir parametreye bağlı olarak Heisenberg cebiri ile ilgili kuantum gruplarının incelenmesi
Study of quantum groups assocated with q-deformed Heisenberg algebra
SÜHEYLA GÜN
Yüksek Lisans
Türkçe
2001
Fizik ve Fizik Mühendisliğiİstanbul ÜniversitesiFizik Ana Bilim Dalı
DOÇ. DR. BAKİ AKKUŞ