Geri Dön

Text generation and comprehension for objects in images and videos

İmge ve videolardaki nesnelerden yazı üretme ve anlama

  1. Tez No: 695703
  2. Yazar: HAZAN ANAYURT ÖZYEĞİN
  3. Danışmanlar: DOÇ. DR. SİNAN KALKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 84

Özet

Birçok uygulama alanı olması nedeniyle, görsel verilerden yazı üretme problemi derin öğrenme kullanılarak yaygın olarak çalışılan bir problemdir. Bu tezde, bu problemi denetimli ve denetimsiz olarak çözmek için iki farklı yönüne odaklanıyoruz. Tezin ilk kısmında, videolardan atıfsal tümleç anlama ve üretme konularında çalışıyoruz. Çalışmamızı özellikle bir nesneyi başka bir nesne kullanarak tanımlayan ilişkisel atıfsal tümleçler üstüne yapıyoruz. Bunun için ilk olarak videolar ve ilişkisel atıfsal tümleçler üzerine yeni bir veri kümesi topluyoruz. Bu veri kümesi, aynı nesnenin birden çok kopyasını bulundurması nedeniyle atıfsal tümleçlerin ilişkisel olmasını gerekli kılıyor. Ayrıca, bu veri kümesi üzerinde umut vadeden sonuçlar veren iki tane baz model eğitiyoruz. Son olarak, aynı veri kümesinde baz modellerden çok daha iyi sonuçlar gösteren derin bir model öneriyoruz. Tezin ikinci kısmında, ilk kısımda denetimli olarak çözdüğümüz probleme denetimsiz olarak yaklaşıyoruz. Video veya imgelerden yazı üreten modellerin çoğu denetimli olarak eğitiliyor. Bu kullandıkları veri kümelerindeki her görsel örneğin karşılığı olan bir yazı olması gerektiği anlamına geliyor. Ancak, bu şekilde eşlenmiş verileri elde etmenin masraflı olması nedeniyle elimizdeki verilerin büyük kısmı etiketlenmiş değil. Önceki kısımdaki darboğazlarımızdan biri bu veri azlığı olduğu için, bu kısımda aynı problemi denetimsiz olarak değerlendiriyoruz. Bunun için Zhu vd. tarafından yapılan CycleGAN modelini görsel ve yazı alanları arasında çalışması için uyarlıyoruz. Ayrıca, aynı mimariyi videolardan ve imgelerden yazı üretmek için kullanıyoruz ve bazı deneylerimizde umut vadeden sonuçlar görüyoruz.

Özet (Çeviri)

Text generation from visual data is a problem often studied using deep learning, having a wide range of applications. This thesis focuses on two different aspects of this problem by proposing both supervised and unsupervised methods to solve it. In the first part of the thesis, we work on referring expression comprehension and generation from videos. We specifically work with relational referring expressions which we define to be expressions that describe an object with respect to another object. For this, we first collect a novel dataset of referring expressions and videos where there are multiple copies of the same object, making relational referring expressions necessary to describe them. Moreover, we train two baseline deep networks on this dataset, which show promising results. Finally, we propose a deep attention network that significantly outperforms the baselines on our dataset. In the second part of the thesis, we tackle the problem we solved in the first part in an unsupervised way. Models that generate text from videos or images tend to be supervised, which means that there needs to be corresponding textual description for every visual example in the datasets they use. However, collecting such paired data is a costly task and much of the data we have is not labeled. As the lack of data was one of the bottlenecks in the supervised part of our thesis, in this part we consider the same problem in an unsupervised setting. For this, we adapt the CycleGAN architecture by Zhu \etal to be between the visual and text domains. Moreover, we use this architecture to perform experiments on different video and image captioning datasets, for some of which we achieve promising results.

Benzer Tezler

  1. Knowledge-based visual question answering

    Bilgi tabanlı görsel soru cevaplama

    ZİŞAN YALÇINKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ANIL BAŞ

  2. Impact of social media on brand equity in generation Z context

    Z nesli bağlamında sosyal medyanın marka varlığı üzerindeki etkisi

    EKİN NAKAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    İşletmeİstanbul Bilgi Üniversitesi

    Pazarlama Ana Bilim Dalı

    PROF. DR. SELİME DEMET SEZGİN

  3. Güney Dal'ın romanlarında varolma biçimleri ve göç olgusu

    Existence forms and migration facts in Guney Dal's of novels

    UTKU ÖZBAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Türk Dili ve EdebiyatıArdahan Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    DOÇ. DR. MİTAT DURMUŞ

  4. Sanat eleştirisinde öznelliğin rolü

    Başlık çevirisi yok

    ÖZLEM DİNÇKAL

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Güzel Sanatlarİstanbul Teknik Üniversitesi

    PROF. SEMRA ÖGEL

  5. Mekan kuran hikayeler

    Space generating stories

    AYŞE HİLAL MENLİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. SIDIKA ASLIHAN ŞENEL