Unsupervised multi-object discovery and tracking using memory-augmented slot attention
Bellek destekli slot dikkat modeliyle gözetimsiz çoklu nesne keşfi vetakibi
- Tez No: 836760
- Danışmanlar: Prof. Dr. YÜCEL YEMEZ, Assoc. Prof. Dr. İBRAHİM AYKUT ERDEM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 61
Özet
Durağan görüntülerden nesne-merkezli temsil öğrenme, derin öğrenme alanında umut vadeden bir yaklaşımdır. Ancak bu yaklaşımı hareketli görüntülere uyarlamak, video içeriğinin zamansal dinamiklerini yakalama gerekliliği nedeniyle bazı zorluklar içermektedir. Yakın zamanlı çalışmalar, sentetik video veri kümelerinde nesne keşfi konusunda bazı önemli ilerlemeler kaydetmiştir. Bununla birlikte, bu çalışmalarda videolardaki nesnelerin hareketleri ve zamanla ilgili ipuçları tam olarak dikkate alınmazlar. Bu tez çalışmasında, bu bilgilerin daha dikkatli kullanımıyla video görüntüleri üzerindeki nesne-merkezli temsil öğrenme başarımının arttırılması hedeflenmektedir. Bu amaca yönelik olarak, çoklu nesne keşfi ve takibi için bellek destekli slot dikkat modelini kullanan yeni bir gözetimsiz öğrenme yöntemi öneriyoruz. Yakla-şımımızın anahtarı, nesne slotlarına ek olarak öğrenme mimarisine entegre ettiğimiz ve video çerçevelerinden bilgi depolayan bellek slotlarıdır. Nesne slotları, geçmiş çerçevelerden bilgi almak için eş zamanlı olarak hem bellek slotlarına hem de o andaki görüntü girdisine dikkat ederler. Bellek slotlarının uzun video dizileri üzerinde eğitilmeleri gerekir. Ne var ki, bunun için en uygun öğrenme yapıları olan yinelemeli sinir ağları (RNN), patlayan ve/veya kaybolan gradyan problemine bağlı olarak, uzun süreli zamansal verileri öğrenmede çok etkili olamazlar. Bellek destekli modelimizi uzun video dizileri üzerinde RNN yapılarını kullanarak daha etkili bir şekilde eğitebilmek için, zamanda kısaltılmış geri yayılım tekniğini kullanıyoruz. Sentetik ancak gerçekçi görüntüler içeren video veri kümeleri üzerinde gerçekleştirdiğimiz deneyler umut verici sonuçlar üretmiştir; bu sonuçlar bellek slotlarının çoklu nesne takibi ve nesne bölütleme başarımını önemli ölçüde artırdığını göstermektedir. Tamamen gözetimsiz olarak çalışan öğrenme yöntemimiz, videolar üzerinde nesne-merkezli temsil öğrenme problemine katkı sağlamakta ve bu alanda yeni olanakların yolunu açmaktadır.
Özet (Çeviri)
Learning object-centric representations from static images is a promising research direction in the field of deep learning. However, adapting this approach to videos poses certain challenges due to the necessity of capturing the temporal dynamics of video content. Recent works have made significant progress in object discovery within synthetic video datasets. Nevertheless, these works do not fully exploit the motion of objects in videos and temporal cues. In this thesis, we aim to enhance the performance of object-centric representation learning on video frames by using the temporal information more carefully. To achieve this goal, we propose a new unsupervised learning method that utilizes a memory-augmented slot attention model for multi-object discovery and tracking. The key component of our approach is the integration of memory slots, which store information from past video frames, alongside object slots into the learning architecture. Object slots simultaneously attend to both memory slots for information from past frames and the current image input. Training memory slots requires longer video sequences. However, the most suitable learning structures for this, recurrent neural networks (RNNs), are not very effective in learning long-term temporal data due to the issues of exploding and/or vanishing gradients. To train our memory-augmented model more effectively on long video sequences, we employ truncated back-propagation through time. Experiments conducted on synthetic yet realistic video datasets have yielded promising results, indicating that memory slots significantly improve multi-object tracking and object segmentation performance. Our fully unsupervised learning method contributes to the problem of object-centric representation learning in videos and opens up new possibilities in this field.
Benzer Tezler
- Hierarchical clustering attention for unsupervised object-centric representation learning
Obje odaklı temsil öğrenimi için hiyerarşik kümeleyici dikkat yöntemleri
CAN KÜÇÜKSÖZEN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. YÜCEL YEMEZ
- Automatic multi-scale segmentation of high spatial resolution satellite images using watersheds
Yüksek uzaysal çözünürlüklü uydu görüntülerinin watershed kullanılarak çok ölçekli otomatik bölütlenmesi
KEREM ŞAHİN
Yüksek Lisans
İngilizce
2013
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. İLKAY ULUSOY
- Visual object recognition and detection using deep learning
Derinlikli öğrenme ile görsel nesne tanıma ve tespit etme
BURAK ÇÖREKCİOĞLU
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL KALYONCU
- Multi-subject brain decoding using deep learning techniques
Derin öğrenme yöntemlerini kullanarak çok denekli beyin okuma
BURAK VELİOĞLU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATOŞ TUNAY YARMAN VURAL
YRD. DOÇ. DR. ŞEYDA ERTEKİN BOLELLİ
- Land cover and land use classification of multi-modal high-resolution satellite images using multi-task deep learning approach
Çok görevli derin öğrenme tekniği ile çok kipli yüksek çözünürlüklü uydu görüntülerinin arazi örtüsü ve arazi kullanımı sınıflandırılması
BURAK EKİM
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. ELİF SERTEL