Geri Dön

Generation of image series from a sequence of related short sentences

İlgili kısa cümleler dizisinden görüntü serisinin üretilmesi

  1. Tez No: 892825
  2. Yazar: MEHMET ALİ ÖZER
  3. Danışmanlar: DOÇ. DR. DIONYSIS GOULARAS
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Yeditepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka ve Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 78

Özet

Bu çalışmanın amacı, bir dizi ilgili kısa cümleden tutarlı bir görüntü serisi oluşturarak kısa bir hikayeyi etkili bir şekilde resmetmektir. Metin tabanlı görüntü oluşturma, iyi araştırılmış ancak hala açık bir problemdir. Bu çalışma, anlatı bütünlüğünü sağlamak ve alakasız sahneleri önlemek için önceki görüntü ve metinlerden bilgi aktarımı yaparak bu problemi ele almaktadır. Pororo-SV Veri Seti, Düşünce Zinciri (CoT) ve az örnekli istem teknikleri (Few-Shot) kullanılarak Gemini tarafından yeniden etiketlenmiştir. Ayrıca, duygusal değişiklikler, hedef başarıları ve sosyal etkileşimler gibi temel dinamikleri yakalamak amacıyla Dinamik Hikaye Anlatımı Pororo-DS Veri Seti tanıtılmıştır ve tutarlılığı ölçmek için bir temel sağlamaktadır. Yaklaşım, düşük dereceli adaptasyon (LoRA) yoluyla uyarlanan önceden eğitilmiş bir stabil difüzyon modeli (LDM) kullanarak metinlerden yüksek kaliteli görüntüler üretir. GRU tabanlı Tutarlılık Sınıflandırıcısı, başlangıç sahnesine dayalı olarak sonraki sahneleri seçerek dizilerin anlatı tutarlılığını sağlar. Değerlendirme ölçütleri arasında yapısal benzerlik indeksi (SSIM), Fréchet Inception mesafesi (FID) ve bu çalışma için özelleştirilmiş karakter temsil doğruluk ölçümleri olan Karakter Varlık Doğruluğu (CPA), Tekrarlanan Karakter Oranı (DCR) ve Karakter Tam Eşleşme Doğruluğu (CEMA) bulunur. Sonuçlar, modelin rekabetçi SSIM ve FID skorlarına ulaştığını, karakter varlığı ve tutarlılığında iyileşme sağladığını ve görüntülerin kısa bir hikayeyi etkili bir şekilde tanımladığını göstermektedir. Metin ve görüntüler için CLIP kodlamalarını kullanan Tutarlılık Modeli, BERT ve ResNet kodlamalarından daha iyi performans göstererek, CLIP'in üstün anlamsal hizalama ve birleşik temsil yeteneklerinin tutarlılığı iyileştirdiğini göstermektedir. Deneyler, CLIP kodlamalarıyla birlikte GRU'nun en iyi performansı sunduğunu ortaya koymuş ve gelişmiş dizi modelleme ile entegre çoklu modal temsilin tutarlılık öğrenimindeki önemini vurgulamıştır. Bu çalışma, metinden görüntü serisi oluşturma sürecinde, alan adaptasyon tekniklerinin tutarlılık sınıflandırması ile birleştirilmesinin etkinliğini göstermektedir.

Özet (Çeviri)

The aim of this study is to generate a series of coherent images from a sequence of related short sentences, effectively illustrating a short story. While generating an image from text is a well-researched yet open problem, this work extends the challenge by incorporating information from previous images to ensure narrative continuity and avoid unrelated scenes. The Pororo-SV Dataset is re-annotated using Chain of Thought (CoT) and few-shot prompting techniques by Gemini. Additionally, the Dynamic Storytelling Pororo-DS Dataset is introduced, prepared specifically for this work to capture key dynamics such as emotional changes, goal achievements, and social interactions, providing a basis for measuring coherence. The approach leverages a pre-trained Latent Diffusion Model (LDM), adapted through Low-Rank Adaptation (LoRA), to generate high-fidelity images from text prompts. A Gated Recurrent Unit (GRU) network-based Coherence Classifier ensures the narrative consistency of the generated sequences by selecting subsequent scenes based on the initial one. Evaluation metrics include the Structural Similarity Index (SSIM), Fréchet Inception Distance (FID), and custom character representation accuracy measures, such as Character Presence Accuracy (CPA), Duplication Character Rate (DCR), and Character Exact Match Accuracy (CEMA). The results demonstrate that the model achieves competitive SSIM and FID scores, with improved character presence and coherence, effectively selecting generated images that describe a short story. The Coherence Model using CLIP encodings for text and images outperformed BERT and ResNet models, indicating that CLIP's superior semantic alignment and unified representation effectively improve learning coherence. The experiments showed that GRU with CLIP encodings performed best, highlighting the importance of advanced sequence modeling and integrated multi-modal representations for coherence learning. This study illustrates the effectiveness of combining domain adaptation techniques with coherence classification to enhance text-to-image generation for the generation of image series.

Benzer Tezler

  1. Analysis and modeling of crustal deformation using InSAR time series along selected active faults within the Africa-Eurasia convergence zone

    Afrika-Avrasya sıkışma zonu içerisindeki seçilmiş aktif faylar boyunca meydana gelen kabuk deformasyonunun incelenmesi ve modellenmesi

    ESRA ÇETİN

    Doktora

    İngilizce

    İngilizce

    2015

    Jeoloji Mühendisliğiİstanbul Teknik Üniversitesi

    Jeoloji Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZİYADİN ÇAKIR

    PROF. DR. MUSTAPHA MEGHRAOUI

  2. CAM sistemlerinin, CNC takım tezgahlarına uygulanması ve postprocessor hazırlanması

    Applications of CAM (Computer aided manufacturing) systems for CNC machining tools and developing of postprocessor

    ERDAL GAMSIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. MUSTAFA AKKURT

  3. Modelling prefrontal cortex functions by using neural networks

    Korteks işlevlerinin yapay sinir ağları ile modellenmesi

    GÜLAY KAPLAN BÜYÜKAKSOY

    Doktora

    İngilizce

    İngilizce

    2003

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. CÜNEYT GÜZELİŞ

    YRD. DOÇ. DR. NESLİHAN ŞENGÖR

  4. Polisilisyum tabaka üzerine fotolitografi yöntemi 0,3 mikron şekillendirme prosesinin optimizasyonu

    Optimization of 0,3 µm photolithography process parameters over polysilicon layer

    ZELİHA ÖZDOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Malzeme Bilimi ve Mühendisliği Ana Bilim Dalı

    PROF. DR. HÜSNÜ ATAKÜL

  5. Mimari tasarım sürecinde çizim mekanın keşfi - çizim edimi üzerine bir model önerisi

    Exploring the drawing space in architectural design process - a model proposal on the act of drawing

    GAYE BEZİRCİOĞLU SENVENLİ

    Doktora

    Türkçe

    Türkçe

    2021

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. GÜLÇİN PULAT GÖKMEN