Text generation and comprehension for objects in images and videos
İmge ve videolardaki nesnelerden yazı üretme ve anlama
- Tez No: 695703
- Danışmanlar: DOÇ. DR. SİNAN KALKAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 84
Özet
Birçok uygulama alanı olması nedeniyle, görsel verilerden yazı üretme problemi derin öğrenme kullanılarak yaygın olarak çalışılan bir problemdir. Bu tezde, bu problemi denetimli ve denetimsiz olarak çözmek için iki farklı yönüne odaklanıyoruz. Tezin ilk kısmında, videolardan atıfsal tümleç anlama ve üretme konularında çalışıyoruz. Çalışmamızı özellikle bir nesneyi başka bir nesne kullanarak tanımlayan ilişkisel atıfsal tümleçler üstüne yapıyoruz. Bunun için ilk olarak videolar ve ilişkisel atıfsal tümleçler üzerine yeni bir veri kümesi topluyoruz. Bu veri kümesi, aynı nesnenin birden çok kopyasını bulundurması nedeniyle atıfsal tümleçlerin ilişkisel olmasını gerekli kılıyor. Ayrıca, bu veri kümesi üzerinde umut vadeden sonuçlar veren iki tane baz model eğitiyoruz. Son olarak, aynı veri kümesinde baz modellerden çok daha iyi sonuçlar gösteren derin bir model öneriyoruz. Tezin ikinci kısmında, ilk kısımda denetimli olarak çözdüğümüz probleme denetimsiz olarak yaklaşıyoruz. Video veya imgelerden yazı üreten modellerin çoğu denetimli olarak eğitiliyor. Bu kullandıkları veri kümelerindeki her görsel örneğin karşılığı olan bir yazı olması gerektiği anlamına geliyor. Ancak, bu şekilde eşlenmiş verileri elde etmenin masraflı olması nedeniyle elimizdeki verilerin büyük kısmı etiketlenmiş değil. Önceki kısımdaki darboğazlarımızdan biri bu veri azlığı olduğu için, bu kısımda aynı problemi denetimsiz olarak değerlendiriyoruz. Bunun için Zhu vd. tarafından yapılan CycleGAN modelini görsel ve yazı alanları arasında çalışması için uyarlıyoruz. Ayrıca, aynı mimariyi videolardan ve imgelerden yazı üretmek için kullanıyoruz ve bazı deneylerimizde umut vadeden sonuçlar görüyoruz.
Özet (Çeviri)
Text generation from visual data is a problem often studied using deep learning, having a wide range of applications. This thesis focuses on two different aspects of this problem by proposing both supervised and unsupervised methods to solve it. In the first part of the thesis, we work on referring expression comprehension and generation from videos. We specifically work with relational referring expressions which we define to be expressions that describe an object with respect to another object. For this, we first collect a novel dataset of referring expressions and videos where there are multiple copies of the same object, making relational referring expressions necessary to describe them. Moreover, we train two baseline deep networks on this dataset, which show promising results. Finally, we propose a deep attention network that significantly outperforms the baselines on our dataset. In the second part of the thesis, we tackle the problem we solved in the first part in an unsupervised way. Models that generate text from videos or images tend to be supervised, which means that there needs to be corresponding textual description for every visual example in the datasets they use. However, collecting such paired data is a costly task and much of the data we have is not labeled. As the lack of data was one of the bottlenecks in the supervised part of our thesis, in this part we consider the same problem in an unsupervised setting. For this, we adapt the CycleGAN architecture by Zhu \etal to be between the visual and text domains. Moreover, we use this architecture to perform experiments on different video and image captioning datasets, for some of which we achieve promising results.
Benzer Tezler
- Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
ZİŞAN YALÇINKAYA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
- Impact of social media on brand equity in generation Z context
Z nesli bağlamında sosyal medyanın marka varlığı üzerindeki etkisi
EKİN NAKAY
Yüksek Lisans
İngilizce
2017
İşletmeİstanbul Bilgi ÜniversitesiPazarlama Ana Bilim Dalı
PROF. DR. SELİME DEMET SEZGİN
- Güney Dal'ın romanlarında varolma biçimleri ve göç olgusu
Existence forms and migration facts in Guney Dal's of novels
UTKU ÖZBAY
Yüksek Lisans
Türkçe
2017
Türk Dili ve EdebiyatıArdahan ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
DOÇ. DR. MİTAT DURMUŞ
- Mekan kuran hikayeler
Space generating stories
AYŞE HİLAL MENLİOĞLU
Yüksek Lisans
Türkçe
2017
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. SIDIKA ASLIHAN ŞENEL