Metinden görüntü üretimi
Text-to-image generation
- Tez No: 952853
- Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 160
Özet
Metinden görüntü üretimi, yapay öğrenme tekniklerini kullanarak verilen metin şartı ile uyumlu görüntüler üretmeyi hedefleyen bir araştırma alanıdır. Günümüzde iş süreçlerine verimlilik katması nedeniyle oldukça önemli bir konu haline gelmiştir. Bu görev için başlarda varyasyonel otokodlayıcılar ve üretken çekişmeli ağlar kullanılırken günümüzde çoğunlukla difüzyon modelleri kullanılmaktadır. Bu tez kapsamında da öncelikle varyasyonel otokodlayıcılarla ardından difüzyon modelleri ile çalışmalar yapılmıştır. Metinden görüntü üreten modeller genel olarak iki farklı açıdan değerlendirilir. Birincisi görüntü kalitesi, ikincisi ise görüntü-metin hizalamasıdır. Yapay öğrenme alanının genelinde olduğu gibi bu görev için de veriyi ve eğitilen modelin parametre sayısını artırarak daha iyi sonuçlara ulaşmak mümkündür. Ancak bu yaklaşım modelin yeniden eğitilmesi için uzun bir süreç gerektirmekle beraber görüntü-metin hizalamasını sağlamayı da garanti etmemektedir. Bu tez kapsamında önerilen yeni yöntemlerle modelleri yeniden eğitmeden görüntü-metin hizalamasının iyileştirilebileceği gösterilmiştir.
Özet (Çeviri)
Text-to-image generation is a research topic that aims to develop new methods using machine learning techniques to generate images that are compatible with a given text condition. Nowadays, it has gained a great importance due to adding efficiency to many business areas. While this task was initially performed with variational autoencoders and generative adversarial networks, in these days diffusion models are mostly used. In this thesis, we carried out our first studies with variational autoencoders and then continued with diffusion models. Text-to-image generation models are generally evaluated from two different perspectives. The first is image fidelity, and the second is image-text alignment. As with machine learning in general, it is possible to obtain better results by increasing the amount of data and model parameters. However this approach, comes with a long process which is required for retraining the model and also does not guarantee image-text alignment. In this thesis, we showed that image-text alignment can be improved with the proposed methods without retraining the models.
Benzer Tezler
- Audio-driven image generation and editing with pretrained diffusion models
Önceden eğitilmiş yayınım modelleri ile ses tabanlı görüntü oluşturma ve düzenleme
BURAK CAN BİNER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM AYKUT ERDEM
- Görüntü üretici yapay zeka modellerinde oryantalist bakış: algoritmalardaki kültürel temsiller üzerine bir inceleme
Orientalist perspectives in image-generating ai models: a study on cultural representations within algorithms
BANU ÖZKİRİŞÇİ
Yüksek Lisans
Türkçe
2025
Radyo-TelevizyonGaziantep ÜniversitesiFilm Tasarımı Ana Sanat Dalı
DR. ÖĞR. ÜYESİ ERDİNÇ YILMAZ
- Words as art materials: Generating paintings with sequential generative adversarial networks
Sanat materyali olarak kelimeler: Seri üretici çekişmeli ağlar ̇ile sanatsal resim üretimi
AZMİ CAN ÖZGEN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL
- Fotoğrafta yapay zeka: Tanıtım fotoğrafına etkileri ve geleceği
Artificial intelligence in photography: Effects on advertising photography and its future
SİBEL AKMANLAR
- Gidion' un Düğümü adlı oyunun sahnelenmesinde sanatsal üretimin saptayıcısı olarak doğaçlama
İmprovisation as a determining factor of creative production in the staging of Gidion' s Knot
UTKU SAÇAK
Yüksek Lisans
Türkçe
2019
Sahne ve Görüntü SanatlarıAnkara ÜniversitesiTiyatro Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ABDULKADİR ÇEVİK