Transformer tabanlı modeller kullanarak görüntüleri betimleyen resim altyazılarının üretilmesi
Generating image captions describing images using transformer-based models
- Tez No: 885392
- Danışmanlar: DOÇ. DR. BİHTER DAŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
- Sayfa Sayısı: 79
Özet
Doğal dil işleme alanının oldukça zorlu bir görevi olan resim yazısı oluşturma işlemi, bilgisayar tarafından insan dil yapısına en uygun şekilde otomatik olarak altyazı üretilmesi olarak adlandırılmaktadır. Resim yazısı oluşturulurken en önemli hedef, görüntüyü en doğru ve en iyi şekilde açıklayan cümleler oluşturmaktadır. Bu doğrultuda transformer tabanlı dil modellerinin kullanılması, cümle performansını büyük ölçüde etkilemektedir. Bu tez çalışmasında, görüntülerden resim yazısı üretilmesinde kullanılan transformer tabanlı dil modellerinin karşılaştırmalı analizi, derin öğrenme tabanlı dil modelleri ve derin öğrenme yöntemlerinin performansı incelenmektedir. Belirlenen bu hedef kapsamında iki farklı veri kümesinde geliştirilen dört uygulamamız bulunmaktadır. Uygulamalarımızda MSCOCO ve Flickr8k veri kümeleri kullanılarak, görüntüleri açıklayan ingilizce dilinde cümle üretilmesi gerçekleştirilmektedir.
Özet (Çeviri)
Image caption creation, which is a very challenging task in the field of natural language processing, is called the automatic production of subtitles by the computer in the most appropriate way to the human language structure. The most important goal when creating a caption is to create sentences that describe the image in the most accurate and best way. In this regard, the use of transformer-based language models greatly affects sentence performance. In this thesis, the comparative analysis of transformer-based language models used in generating captions from images, the performance of convolution-based language models, and deep learning methods are examined. Within the scope of this determined goal, we have four applications developed on two different data sets. In our applications, sentences in English language describing the images are produced by using MSCOCO and Flickr8k datasets.
Benzer Tezler
- Virtual and augmented reality based interfaces for choreography generation
Koregrafi üretimi için sanal ve artırılmış gerçeklik tabanlı arayüzler
TAFADZWA JOSEPH DUBE
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÖKHAN İNCE
- Indexing and browsing of multimedia content data with MPEG-7
Çoğul ortamlar verilerinin MPEG-7 ile indekslenmesi ve taranması
OĞUZ İÇOĞLU
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiPROF. DR. MUHİTTİN GÖKMEN
- Modern haberleşme sistemlerinde görüntü kodlaması ve sıkıştırmasında özgün matematik yöntemler
Original mathematical methods for image coding and compression in modern communication systems
MURAT GEZER
Doktora
Türkçe
2014
Elektrik ve Elektronik Mühendisliğiİstanbul ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. BEKİR SIDDIK BİNBOĞA YARMAN
- Deep learning-based building segmentation using high-resolution aerial images
Yüksek çözünürlüklü hava görüntüleri kullanarak derin öğrenme temelli bina bölütlemesi
BATUHAN SARITÜRK
Doktora
İngilizce
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
- Yerel görünüm ve derin modeller kullanarak hibrit bir yüz tanıma yaklaşımı
A hybrid face recognition approach using local appearance and deep models
MERT ARI
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL