Geri Dön

Transformer tabanlı modeller kullanarak görüntüleri betimleyen resim altyazılarının üretilmesi

Generating image captions describing images using transformer-based models

  1. Tez No: 885392
  2. Yazar: ZEYNEP KARACA
  3. Danışmanlar: DOÇ. DR. BİHTER DAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 79

Özet

Doğal dil işleme alanının oldukça zorlu bir görevi olan resim yazısı oluşturma işlemi, bilgisayar tarafından insan dil yapısına en uygun şekilde otomatik olarak altyazı üretilmesi olarak adlandırılmaktadır. Resim yazısı oluşturulurken en önemli hedef, görüntüyü en doğru ve en iyi şekilde açıklayan cümleler oluşturmaktadır. Bu doğrultuda transformer tabanlı dil modellerinin kullanılması, cümle performansını büyük ölçüde etkilemektedir. Bu tez çalışmasında, görüntülerden resim yazısı üretilmesinde kullanılan transformer tabanlı dil modellerinin karşılaştırmalı analizi, derin öğrenme tabanlı dil modelleri ve derin öğrenme yöntemlerinin performansı incelenmektedir. Belirlenen bu hedef kapsamında iki farklı veri kümesinde geliştirilen dört uygulamamız bulunmaktadır. Uygulamalarımızda MSCOCO ve Flickr8k veri kümeleri kullanılarak, görüntüleri açıklayan ingilizce dilinde cümle üretilmesi gerçekleştirilmektedir.

Özet (Çeviri)

Image caption creation, which is a very challenging task in the field of natural language processing, is called the automatic production of subtitles by the computer in the most appropriate way to the human language structure. The most important goal when creating a caption is to create sentences that describe the image in the most accurate and best way. In this regard, the use of transformer-based language models greatly affects sentence performance. In this thesis, the comparative analysis of transformer-based language models used in generating captions from images, the performance of convolution-based language models, and deep learning methods are examined. Within the scope of this determined goal, we have four applications developed on two different data sets. In our applications, sentences in English language describing the images are produced by using MSCOCO and Flickr8k datasets.

Benzer Tezler

  1. Virtual and augmented reality based interfaces for choreography generation

    Koregrafi üretimi için sanal ve artırılmış gerçeklik tabanlı arayüzler

    TAFADZWA JOSEPH DUBE

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÖKHAN İNCE

  2. Indexing and browsing of multimedia content data with MPEG-7

    Çoğul ortamlar verilerinin MPEG-7 ile indekslenmesi ve taranması

    OĞUZ İÇOĞLU

  3. Modern haberleşme sistemlerinde görüntü kodlaması ve sıkıştırmasında özgün matematik yöntemler

    Original mathematical methods for image coding and compression in modern communication systems

    MURAT GEZER

    Doktora

    Türkçe

    Türkçe

    2014

    Elektrik ve Elektronik Mühendisliğiİstanbul Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. BEKİR SIDDIK BİNBOĞA YARMAN

  4. Deep learning-based building segmentation using high-resolution aerial images

    Yüksek çözünürlüklü hava görüntüleri kullanarak derin öğrenme temelli bina bölütlemesi

    BATUHAN SARITÜRK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER

  5. Yerel görünüm ve derin modeller kullanarak hibrit bir yüz tanıma yaklaşımı

    A hybrid face recognition approach using local appearance and deep models

    MERT ARI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL