Graph-based hierarchical tracklet merge for multiple object tracking
Çoklu hedef takibi için çizge tabanlı hiyerarşik iz birleştirme
- Tez No: 865707
- Danışmanlar: PROF. DR. ABDULLAH AYDIN ALATAN
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 100
Özet
Geçtiğimiz on yılda, özellikle derin öğrenmenin yükselişiyle birlikte çoklu nesne takibinde önemli ilerlemeler görüldü. Bununla birlikte, çevrimiçi izlemeyle ilgili birçok çalışma öncelikli olarak iz yönetimini geliştirmeye veya daha etkin görsel özellikleri çıkarmaya odaklanmıştır; bu da özellikle yoğun görsel örtmelerin veya kalabalık sahnelerin olduğu senaryolarda genellikle sınırlı etkililiğe sahip hibrit yaklaşımlara yol açmaktadır. Bunun yanında, çevrimdışı izleme metodları etkin iz yönetimine genellikle gereken önemi vermemiştir. Bu tez, son zamanlarda etkili olduğu gözlemlenen öğrenmeye dayalı mimarilerden yararlanarak, hedef izlerini hiyerarşik olarak birleştirerek çevrimdışı çoklu hedef takibine yeni bir çözüm önermektedir. Yaklaşımımız, ortak bir Transformer ve Çizge Sinir Ağı (Graph Neural Network) kodlayıcı kullanarak hedefler arasındaki hareket ipuçlarını ve sosyal etkileşimleri entegre eder. Herhangi bir varsayıma dayalı kısa veya uzun vadeli eşleştirme süreci gerektirmeyen, uçtan uca eğitilebilir bir modeldir. Önerdiğimiz model bir çizge yapısı kullanarak çoklu çerçevelerdeki hedef izlerini temsil eder, ve farklı zaman damgalarındaki hedeflerin kolektif olarak ele alınmasına olanak tanır. Ayrıca Transformer kodlayıcı, her bir hedefin hareket karakteristiğini etkili bir şekilde modellenmesine olanak tanır. Transformer ve GNN mimarileri arasında çift yönlü bilgi akışını etkinleştirerek, hareket modellemenin etkileşimlere bağlı olmasına ve bunun tersine etkileşim modellemenin de her hedefin hareketine bağlı olmasını sağlıyoruz. Deneysel sonuçlar, yaklaşımımızın etkinliğini ortaya koymakta ve ortak bir Transformer kodlayıcı ile donatılmış GNN mimarisinin, en son teknoloji algoritmalarla karşılaştırılabilir sonuçlar elde ettiğini göstermektedir. Bu umut verici sonuçlar, çoklu nesne takibinde ortak Transformer-GNN kodlayıcı mimarisinin potansiyelini vurgulamaktadır.
Özet (Çeviri)
The past decade has seen significant advancements in multi-object tracking, particularly with the rise of deep learning. However, many studies in online tracking have primarily focused on enhancing track management or extracting visual features, often leading to hybrid approaches with limited effectiveness, especially in scenarios with severe occlusions or crowded scenes. Conversely, in offline tracking, there has been a lack of emphasis on robust motion cues. This thesis proposes a novel solution to offline tracking by hierarchically merging tracklets, leveraging recent promising learning-based architectures. Our approach integrates motion cues and social interactions among targets using a joint Transformer and Graph Neural Network (GNN) encoder. The proposed solution is an end-to-end trainable model that does not require any handcrafted short-term or long-term matching processes. By representing tracklets across multiple frames using a graph structure, we enable collective reasoning of targets across different timestamps, leveraging advancements in graph representation learning. Furthermore, the Transformer encoder effectively captures the motion of each tracklet. By enabling bi-directional information propagation between these modalities, namely Transformer and GNN, we allow motion modeling to depend on interactions and, conversely, interaction modeling to depend on the motion of each target. Experimental results demonstrate the effectiveness of our approach, indicating that graph representation learning equipped with a joint Transformer encoder achieves results comparable to the state-of-the-art algorithms. These promising results emphasize the potential of the joint Transformer-GNN encoder architecture in multi-object tracking.
Benzer Tezler
- Çizge tabanlı metin özetleme
Graph based text summarization
CAN YALKIN
Yüksek Lisans
Türkçe
2014
Mühendislik BilimleriYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
- Semantic and goal-oriented signal processing: Semantic extraction
Anlamsal ve hedefe yönelik sinyal işleme: Anlamsal çıkarma
MEHMETCAN GÖK
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ORHAN ARIKAN
- Exploration of methylation-driven mechanisms in cancer
Kanserde gözüken metilasyon sebepli değişimlerin araştırılması
BUĞRA ÖZER
Doktora
İngilizce
2016
BiyoistatistikSabancı ÜniversitesiMoleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı
PROF. DR. OSMAN UĞUR SEZERMAN
PROF. DR. İSMAİL ÇAKMAK
- A cognitive lifecycle methodology for IP address management in next generation core networks
Yeni nesil omurga ağlarda IP adres yönetimi için bilişsel yaşam döngüsü metodolojisi
KÜBRA DURAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BERK CANBERK