Metinden görüntü üretimi

Text-to-image generation

PDF İndir

Tez No: 952853
Yazar: MELİKE NUR YEĞİN
Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 160

Özet

Metinden görüntü üretimi, yapay öğrenme tekniklerini kullanarak verilen metin şartı ile uyumlu görüntüler üretmeyi hedefleyen bir araştırma alanıdır. Günümüzde iş süreçlerine verimlilik katması nedeniyle oldukça önemli bir konu haline gelmiştir. Bu görev için başlarda varyasyonel otokodlayıcılar ve üretken çekişmeli ağlar kullanılırken günümüzde çoğunlukla difüzyon modelleri kullanılmaktadır. Bu tez kapsamında da öncelikle varyasyonel otokodlayıcılarla ardından difüzyon modelleri ile çalışmalar yapılmıştır. Metinden görüntü üreten modeller genel olarak iki farklı açıdan değerlendirilir. Birincisi görüntü kalitesi, ikincisi ise görüntü-metin hizalamasıdır. Yapay öğrenme alanının genelinde olduğu gibi bu görev için de veriyi ve eğitilen modelin parametre sayısını artırarak daha iyi sonuçlara ulaşmak mümkündür. Ancak bu yaklaşım modelin yeniden eğitilmesi için uzun bir süreç gerektirmekle beraber görüntü-metin hizalamasını sağlamayı da garanti etmemektedir. Bu tez kapsamında önerilen yeni yöntemlerle modelleri yeniden eğitmeden görüntü-metin hizalamasının iyileştirilebileceği gösterilmiştir.

Özet (Çeviri)

Text-to-image generation is a research topic that aims to develop new methods using machine learning techniques to generate images that are compatible with a given text condition. Nowadays, it has gained a great importance due to adding efficiency to many business areas. While this task was initially performed with variational autoencoders and generative adversarial networks, in these days diffusion models are mostly used. In this thesis, we carried out our first studies with variational autoencoders and then continued with diffusion models. Text-to-image generation models are generally evaluated from two different perspectives. The first is image fidelity, and the second is image-text alignment. As with machine learning in general, it is possible to obtain better results by increasing the amount of data and model parameters. However this approach, comes with a long process which is required for retraining the model and also does not guarantee image-text alignment. In this thesis, we showed that image-text alignment can be improved with the proposed methods without retraining the models.

Benzer Tezler

Tez No
850979
Audio-driven image generation and editing with pretrained diffusion models
Önceden eğitilmiş yayınım modelleri ile ses tabanlı görüntü oluşturma ve düzenleme
BURAK CAN BİNER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM AYKUT ERDEM
Tez No
949221
Görüntü üretici yapay zeka modellerinde oryantalist bakış: algoritmalardaki kültürel temsiller üzerine bir inceleme
Orientalist perspectives in image-generating ai models: a study on cultural representations within algorithms
BANU ÖZKİRİŞÇİ
Yüksek Lisans
Türkçe
2025
Radyo-Televizyon Gaziantep Üniversitesi
Film Tasarımı Ana Sanat Dalı
DR. ÖĞR. ÜYESİ ERDİNÇ YILMAZ
Tez No
633721
Words as art materials: Generating paintings with sequential generative adversarial networks
Sanat materyali olarak kelimeler: Seri üretici çekişmeli ağlar ̇ile sanatsal resim üretimi
AZMİ CAN ÖZGEN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL
Tez No
867338
Fotoğrafta yapay zeka: Tanıtım fotoğrafına etkileri ve geleceği
Artificial intelligence in photography: Effects on advertising photography and its future
SİBEL AKMANLAR
Yüksek Lisans
Türkçe
2024
Güzel Sanatlar Marmara Üniversitesi
Fotoğraf Ana Sanat Dalı
PROF. EMRE İKİZLER
Tez No
603622
Gidion' un Düğümü adlı oyunun sahnelenmesinde sanatsal üretimin saptayıcısı olarak doğaçlama
İmprovisation as a determining factor of creative production in the staging of Gidion' s Knot
UTKU SAÇAK
Yüksek Lisans
Türkçe
2019
Sahne ve Görüntü Sanatları Ankara Üniversitesi
Tiyatro Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ABDULKADİR ÇEVİK

Geri Dön