Geri Dön

Analysis of dataset, object tag, and object attribute components in novel object captioning

Özgün nesne altyazılama'da veri kümesi, nesne etiketi ve nesne sıfatı bileşenlerinin analizi

  1. Tez No: 745352
  2. Yazar: ENES MUVAHHİD ŞAHİN
  3. Danışmanlar: PROF. DR. GÖZDE AKAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 135

Özet

İmge altyazılama Bilgisayarlı Görü ve Doğal Dil İşleme alanlarının kesişiminde yer alan hem popüler hem de zorlayıcı bir iştir. İmge altyazılamanın özel bir alt kolu olan Özgün Nesne Altyazılama son yıllarda ilgi görmektedir. Özgün Nesne Altyazılama eğitim sırasında görülmemiş özgün nesneler içeren imgeler için altyazı üretmeye odaklanmaktadır. Son yıllarda hem genel imge altyazılama hem de Özgün Nesne Altyazılama için üretilen altyazıların kalitesini arttırmak amacıyla çok sayıda yaklaşım önerilmiştir. Bu yaklaşımlar Özgün Nesne Altyazılama için büyük çaplı nesne tespiti veri kümelerinden faydalanmaktadır. Ayrıca, bu yöntemler imgedeki nesne etiketlerini (sınıf isimleri) kullanmaktadırlar. Bu yaklaşımlar birçok açıdan oldukça başarılı olsa da birkaç büyük veri kümesinde, haftalarca Grafik İşleme Birimi (GPU) üzerinde eğitilmektedir. Üstelik bu yöntemler tarafından üretilen altyazılar görsel temellendirme açısından zayıf kalabilmekte ve imgedeki detayları gözden kaçırabilmektedir. Bu nedenle, bu tezde, Özgün Nesne Altyazılama için veri kümesi, nesne etiketi ve nesne sıfatı bileşenlerinin analizi gerçekleştirilmiştir. Veri kümesi boyutunun imge altyazılama performansı üzerindeki etkisinin analizi için küçük çaplı [2] ve büyük çaplı [3] veri kümelerinde Görsel Kelime Hazinesi Ön Eğitimleri (Visual Vocabulary Pretraining) [1] yapılarak en gelişmiş imge altyazılama yönteminin [4] imge altyazılama performansı karşılaştırılmıştır. Nesne etiketinin kalitesinin Özgün Nesne Altyazılama performansına etkisinin analizi için iki farklı nesne etiketi kümesi kullanılarak eğitilmiş yöntemler karşılaştırılmıştır: özgün nesne içermeyen büyük nesne etiketi kümesi, özgün nesne içeren küçük nesne etiketi kümesi. Son olarak, daha zengin altyazılama elde etmek ve imgedeki gözden kaçan detayları azaltmak amacıyla nesne sıfatlarından faydalanan özgün bir yaklaşım önerilmiştir. Deneysel sonuçlar hem Özgün Nesne Altyazılama hem de genel imge altyazılama görevlerinde gösterilmiştir. Deneysel sonuçlar özgün nesne etiketlerinin Özgün Nesne Altyazılama'da kritik bir rol oynadığını ve önerilen yaklaşımın baz alınan yaklaşıma göre daha zengin ve detaylı altyazılar ürettiğini ortaya koymuştur.

Özet (Çeviri)

Image captioning is a popular yet challenging task which lies at the intersection of Computer Vision and Natural Language Processing. A specific branch of image captioning called Novel Object Captioning draw attention in recent years. Different from general image captioning, Novel Object Captioning focuses on describing images with novel objects which are not seen during training. Recently, numerous image captioning approaches are proposed in order to increase quality of the generated captions for both general image captioning and Novel Object Captioning. These methods benefit from large object detection datasets for Novel Object Captioning. They also utilize specific set of object tags (class names) in the image. Even though these approaches are very successful in many aspects, they require GPU-weeks of training on several large datasets. Furthermore, captions generated by these methods may lack visual grounding and overlook details in the image. Thus, in this thesis, we analyze the dataset, object tag, and object attribute components for Novel Object Captioning. We perform Visual Vocabulary Pretraining (VIVO) [1] on small-scale [2] and large-scale [3] datasets and compare the captioning performances of a state-of-the-art method [4] in order to analyze the effect of dataset size. To analyze the effect of tag quality on Novel Object Captioning performance, we compare the performance of captioning methods [4] trained with two different set of object tags: a large set of tags but lacking novel objects, a small set of tags with novel objects. Finally, to obtain richer captions and alleviate overlooked details in the image, we propose a novel approach in which object attributes in the image are exploited. Experimental results are demonstrated on both Novel Object Captioning and general image captioning tasks. The results show that novel object tags play a vital role for Novel Object Captioning and proposed method generates richer and more detailed captions compared to the baseline.

Benzer Tezler

  1. Türkçe hedef tabanlı duygu analizi için alt görevlerin incelenmesi–hedef terim, hedef kategori ve duygu sınıfı belirleme

    Inspecting sub tasks of aspect based sentiment analysis in Turkish language–opinion target expression, aspect category and sentiment polarity detection

    FATİH SAMET ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLŞEN ERYİĞİT

  2. Yatırım kararlarında Elliott Dalgalarının YOLO nesne algılama algoritması ile tespiti ve analizi

    Detection and analysis of Elliott Waves in investment decisions with YOLO object detection algorithm

    OMAR KARIMOV

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    İşletmeİstanbul Üniversitesi

    İşletme Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ LATİFE SİNEM SARUL

  3. Adli delil incelemesi sürecinde derin öğrenme tabanlı çoklu ortam içeriklerinin analizi

    Deep learning-based analysis of multimedia contents in forensic evidence investigation process

    MUSTAFA ERİŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA KAYA

  4. A comparative study of YOLOv8 and faster R-CNN in fruit leaf disease detection for precision

    Meyve yaprağı hastalığının tespıtı ıçın YOLOv8 ve faster R-CNN metotlarının kullanımı

    ARELDI BALA

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    ZiraatAntalya Bilim Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CAFER ÇALIŞKAN

  5. Efficient deep learning approaches for signal and image analysis applications

    Sinyal ve görüntü analizi uygulamaları için verimli derin öğrenme yaklaşımları

    ONUR CAN KOYUN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN