Geri Dön

Metinden görüntü üretimi

Text-to-image generation

  1. Tez No: 952853
  2. Yazar: MELİKE NUR YEĞİN
  3. Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 160

Özet

Metinden görüntü üretimi, yapay öğrenme tekniklerini kullanarak verilen metin şartı ile uyumlu görüntüler üretmeyi hedefleyen bir araştırma alanıdır. Günümüzde iş süreçlerine verimlilik katması nedeniyle oldukça önemli bir konu haline gelmiştir. Bu görev için başlarda varyasyonel otokodlayıcılar ve üretken çekişmeli ağlar kullanılırken günümüzde çoğunlukla difüzyon modelleri kullanılmaktadır. Bu tez kapsamında da öncelikle varyasyonel otokodlayıcılarla ardından difüzyon modelleri ile çalışmalar yapılmıştır. Metinden görüntü üreten modeller genel olarak iki farklı açıdan değerlendirilir. Birincisi görüntü kalitesi, ikincisi ise görüntü-metin hizalamasıdır. Yapay öğrenme alanının genelinde olduğu gibi bu görev için de veriyi ve eğitilen modelin parametre sayısını artırarak daha iyi sonuçlara ulaşmak mümkündür. Ancak bu yaklaşım modelin yeniden eğitilmesi için uzun bir süreç gerektirmekle beraber görüntü-metin hizalamasını sağlamayı da garanti etmemektedir. Bu tez kapsamında önerilen yeni yöntemlerle modelleri yeniden eğitmeden görüntü-metin hizalamasının iyileştirilebileceği gösterilmiştir.

Özet (Çeviri)

Text-to-image generation is a research topic that aims to develop new methods using machine learning techniques to generate images that are compatible with a given text condition. Nowadays, it has gained a great importance due to adding efficiency to many business areas. While this task was initially performed with variational autoencoders and generative adversarial networks, in these days diffusion models are mostly used. In this thesis, we carried out our first studies with variational autoencoders and then continued with diffusion models. Text-to-image generation models are generally evaluated from two different perspectives. The first is image fidelity, and the second is image-text alignment. As with machine learning in general, it is possible to obtain better results by increasing the amount of data and model parameters. However this approach, comes with a long process which is required for retraining the model and also does not guarantee image-text alignment. In this thesis, we showed that image-text alignment can be improved with the proposed methods without retraining the models.

Benzer Tezler

  1. Audio-driven image generation and editing with pretrained diffusion models

    Önceden eğitilmiş yayınım modelleri ile ses tabanlı görüntü oluşturma ve düzenleme

    BURAK CAN BİNER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM AYKUT ERDEM

  2. Görüntü üretici yapay zeka modellerinde oryantalist bakış: algoritmalardaki kültürel temsiller üzerine bir inceleme

    Orientalist perspectives in image-generating ai models: a study on cultural representations within algorithms

    BANU ÖZKİRİŞÇİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Radyo-TelevizyonGaziantep Üniversitesi

    Film Tasarımı Ana Sanat Dalı

    DR. ÖĞR. ÜYESİ ERDİNÇ YILMAZ

  3. Words as art materials: Generating paintings with sequential generative adversarial networks

    Sanat materyali olarak kelimeler: Seri üretici çekişmeli ağlar ̇ile sanatsal resim üretimi

    AZMİ CAN ÖZGEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL

  4. Fotoğrafta yapay zeka: Tanıtım fotoğrafına etkileri ve geleceği

    Artificial intelligence in photography: Effects on advertising photography and its future

    SİBEL AKMANLAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Güzel SanatlarMarmara Üniversitesi

    Fotoğraf Ana Sanat Dalı

    PROF. EMRE İKİZLER

  5. Gidion' un Düğümü adlı oyunun sahnelenmesinde sanatsal üretimin saptayıcısı olarak doğaçlama

    İmprovisation as a determining factor of creative production in the staging of Gidion' s Knot

    UTKU SAÇAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Sahne ve Görüntü SanatlarıAnkara Üniversitesi

    Tiyatro Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULKADİR ÇEVİK