Dense video captioning by utilizing auxiliary image data
Yardımcı resim verilerini kullanarak detaylı video altyazılama
- Tez No: 650905
- Danışmanlar: DOÇ. DR. NAZLI İKİZLER CİNBİŞ, DOÇ. DR. İBRAHİM AYKUT ERDEM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 68
Özet
Detaylı video altyazılama, uzun videolardaki olayları tespit etmek ve tespit edilen her olay için doğru ve tutarlı altyazı oluşturulmasını amaçlamaktadır. Altyazılar oluşturulurken, olaylar arasındaki zamansal bağımlılıklar ve olayların sıralamasının dikkate alınması ve bu kapsamda anlamlı ve akıcı bir paragraf oluşturulması gerektiğinden en zorlu altyazılama görevlerinden biridir ve önceki çalışmaların çoğu büyük ölçüde videolardan elde edilen özniteliklere bağımlıdır. Videoda yer alan her bir olayın ayrı ayrı altyazılanması ve uzun, tanımlayıcı bir paragraf oluşturulması gerektiğinden, metinsel altyazıların oluşturulması, yoğun video altyazılama görevi için oldukça zor bir iştir. Bu tezde, bu ağır yükü hafifletmenin bir yolunu arıyoruz ve bir videoda yer alan olaylar için uyumlu altyazılar oluştururken, yardımcı veri kaynağı olarak, videolara benzer resimlerin altyazılarından yararlanan, yeni bir detaylı video altyazılama yaklaşımı önerilmektedir. Önerilen model, görsel olarak benzer resimleri başarılı bir şekilde bulmakta ve videolara benzer nitelikteki resimlerin altyazılarında yer alan isim ve fiil tamlamalarını başarıyla kullanmaktadır. Yaratıcı ve seçici olarak adlandırabilecek bir dizayn ve dikkat mekanizması tabanlı birleştirme tekniği ile resim altyazılarının, yoğun video altyazılama sürecinde dahil edilmesi sağlanmaktadır. Bir olay için en iyi üretilmiş altyazı, olaylar arasındaki zamansal ve anlamsal bağlantıları dikkate alan bir seçici tarafından seçilmektedir. Önerdiğimiz modelin başarımı, detaylı video altyazılama için önerilen ActivityNet Captions veri kümesi üzerinde gösterilmiş ve yaklaşımımız güçlü bir temel model ile kıyaslandığında otomatik metrikler ve nitel değerlendirmelerine göre daha iyi sonuçlar vermektedir.
Özet (Çeviri)
Dense video captioning aims at detecting events in untrimmed videos and generating accurate and coherent caption for each detected event. It is one of the most challenging captioning tasks since generated sentences must form a meaningful and fluent paragraph by considering temporal dependencies and the order between the events, where most of the previous works are heavily dependent on the visual features extracted from the videos. Collecting textual descriptions is an especially costly task for dense video captioning, since each event in the video needs to be annotated separately and a long descriptive paragraph needs to be provided. In this thesis, we investigate a way to mitigate this heavy burden and we propose a new dense video captioning approach that leverages captions of similar images as auxiliary context while generating coherent captions for events in a video. Our model successfully retrieves visually relevant images and combines noun and verb phrases from their captions to generating coherent descriptions. We employ a generator and a discriminator design, together with an attention-based fusion technique, to incorporate image captions as context in the video caption generation process. We choose the best generated caption by a hybrid discriminator that can consider temporal and semantic dependencies between events. The effectiveness of our model is demonstrated on ActivityNet Captions dataset and our proposed approach achieves favorable performance when compared to the strong baseline based on automatic metrics and qualitative evaluations.
Benzer Tezler
- Dense depth map estimation for object segmentation in multi-view video
Çok görüntülü videoda nesne bölütlemesi için sık derinlik haritası kestirimi
CEVAHİR ÇIĞLA
Yüksek Lisans
İngilizce
2007
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. A. AYDIN ALATAN
- Multi-view video coding via dense depth field
Sık derinlik haritası ile çok-görüntülü video kodlaması
BURAK OĞUZ ÖZKALAYCI
Yüksek Lisans
İngilizce
2006
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ.DR. AYDIN ALATAN
- Facial expression recognition in the wild using improved trajectories and fisher vector encoding
İyileştirmiş izlek ve fisher vektörü kodlaması ile zor şartlar altında yüz ifadesi tanıma
SADAF AFSHARSAVOJBOLAGHI
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
YRD. DOÇ. DR. ALBERT ALİ SALAH
- Utilization of improved recursive-shortest-spanning-tree method for video object segmentation
Video nesne bölütlemesi için geliştirilmiş özyinelemeli-en-kısa-ağaç yöntemi kullanımı
ERTEM TUNCEL
Yüksek Lisans
İngilizce
1997
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiPROF. DR. LEVENT ONURAL
- Object-based 3-D motion and structure analysis for video coding applications
Video kodlama uygulamaları için nesneye dayalı üç-boyutlu harket ve derinlik analizi
A.AYDIN ALATAN
Doktora
İngilizce
1997
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. LEVENT ONURAL