Text generation and comprehension for objects in images and videos

İmge ve videolardaki nesnelerden yazı üretme ve anlama

PDF İndir

Tez No: 695703
Yazar: HAZAN ANAYURT ÖZYEĞİN
Danışmanlar: DOÇ. DR. SİNAN KALKAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 84

Özet

Birçok uygulama alanı olması nedeniyle, görsel verilerden yazı üretme problemi derin öğrenme kullanılarak yaygın olarak çalışılan bir problemdir. Bu tezde, bu problemi denetimli ve denetimsiz olarak çözmek için iki farklı yönüne odaklanıyoruz. Tezin ilk kısmında, videolardan atıfsal tümleç anlama ve üretme konularında çalışıyoruz. Çalışmamızı özellikle bir nesneyi başka bir nesne kullanarak tanımlayan ilişkisel atıfsal tümleçler üstüne yapıyoruz. Bunun için ilk olarak videolar ve ilişkisel atıfsal tümleçler üzerine yeni bir veri kümesi topluyoruz. Bu veri kümesi, aynı nesnenin birden çok kopyasını bulundurması nedeniyle atıfsal tümleçlerin ilişkisel olmasını gerekli kılıyor. Ayrıca, bu veri kümesi üzerinde umut vadeden sonuçlar veren iki tane baz model eğitiyoruz. Son olarak, aynı veri kümesinde baz modellerden çok daha iyi sonuçlar gösteren derin bir model öneriyoruz. Tezin ikinci kısmında, ilk kısımda denetimli olarak çözdüğümüz probleme denetimsiz olarak yaklaşıyoruz. Video veya imgelerden yazı üreten modellerin çoğu denetimli olarak eğitiliyor. Bu kullandıkları veri kümelerindeki her görsel örneğin karşılığı olan bir yazı olması gerektiği anlamına geliyor. Ancak, bu şekilde eşlenmiş verileri elde etmenin masraflı olması nedeniyle elimizdeki verilerin büyük kısmı etiketlenmiş değil. Önceki kısımdaki darboğazlarımızdan biri bu veri azlığı olduğu için, bu kısımda aynı problemi denetimsiz olarak değerlendiriyoruz. Bunun için Zhu vd. tarafından yapılan CycleGAN modelini görsel ve yazı alanları arasında çalışması için uyarlıyoruz. Ayrıca, aynı mimariyi videolardan ve imgelerden yazı üretmek için kullanıyoruz ve bazı deneylerimizde umut vadeden sonuçlar görüyoruz.

Özet (Çeviri)

Text generation from visual data is a problem often studied using deep learning, having a wide range of applications. This thesis focuses on two different aspects of this problem by proposing both supervised and unsupervised methods to solve it. In the first part of the thesis, we work on referring expression comprehension and generation from videos. We specifically work with relational referring expressions which we define to be expressions that describe an object with respect to another object. For this, we first collect a novel dataset of referring expressions and videos where there are multiple copies of the same object, making relational referring expressions necessary to describe them. Moreover, we train two baseline deep networks on this dataset, which show promising results. Finally, we propose a deep attention network that significantly outperforms the baselines on our dataset. In the second part of the thesis, we tackle the problem we solved in the first part in an unsupervised way. Models that generate text from videos or images tend to be supervised, which means that there needs to be corresponding textual description for every visual example in the datasets they use. However, collecting such paired data is a costly task and much of the data we have is not labeled. As the lack of data was one of the bottlenecks in the supervised part of our thesis, in this part we consider the same problem in an unsupervised setting. For this, we adapt the CycleGAN architecture by Zhu \etal to be between the visual and text domains. Moreover, we use this architecture to perform experiments on different video and image captioning datasets, for some of which we achieve promising results.

Benzer Tezler

Tez No
956406
Dikkat eksikliği ve hiperaktivite bozukluğu olan çocukların el yazılarının görüntü işleme teknikleri ile analizi
Analysis of handwriting of children with attention deficit hyperactivity disorder using image processing techniques
ÖZLEM YILDIZ BUDAK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED FATİH ADAK
Tez No
947610
3D nokta bulutu verileri kullanılarak otonom sürüş için nesne algılama yöntemi ile karayolu envanterlerinin tespit edilmesi
Determination of highway inventories with object detection method for autonomous driving using 3D point cloud data
HİLAL GEZGİN
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilişim Uygulamaları Ana Bilim Dalı
PROF. DR. REHA METİN ALKAN
Tez No
841626
Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
ZİŞAN YALÇINKAYA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
Tez No
954536
Deki: A multimodal image-to-code transformation and vision-based gui agents
Dekı: Çok modlu görüntüden koda dönüşüm ve görme tabanlı guı ajanları
RASUL OSMANBAYLİ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Aydın Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SELÇUK ŞENER
Tez No
505532
Impact of social media on brand equity in generation Z context
Z nesli bağlamında sosyal medyanın marka varlığı üzerindeki etkisi
EKİN NAKAY
Yüksek Lisans
İngilizce
2017
İşletme İstanbul Bilgi Üniversitesi
Pazarlama Ana Bilim Dalı
PROF. DR. SELİME DEMET SEZGİN

Geri Dön