Geri Dön

Graph-based hierarchical tracklet merge for multiple object tracking

Çoklu hedef takibi için çizge tabanlı hiyerarşik iz birleştirme

  1. Tez No: 865707
  2. Yazar: HALİL ÇAĞRI BİLGİ
  3. Danışmanlar: PROF. DR. ABDULLAH AYDIN ALATAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 100

Özet

Geçtiğimiz on yılda, özellikle derin öğrenmenin yükselişiyle birlikte çoklu nesne takibinde önemli ilerlemeler görüldü. Bununla birlikte, çevrimiçi izlemeyle ilgili birçok çalışma öncelikli olarak iz yönetimini geliştirmeye veya daha etkin görsel özellikleri çıkarmaya odaklanmıştır; bu da özellikle yoğun görsel örtmelerin veya kalabalık sahnelerin olduğu senaryolarda genellikle sınırlı etkililiğe sahip hibrit yaklaşımlara yol açmaktadır. Bunun yanında, çevrimdışı izleme metodları etkin iz yönetimine genellikle gereken önemi vermemiştir. Bu tez, son zamanlarda etkili olduğu gözlemlenen öğrenmeye dayalı mimarilerden yararlanarak, hedef izlerini hiyerarşik olarak birleştirerek çevrimdışı çoklu hedef takibine yeni bir çözüm önermektedir. Yaklaşımımız, ortak bir Transformer ve Çizge Sinir Ağı (Graph Neural Network) kodlayıcı kullanarak hedefler arasındaki hareket ipuçlarını ve sosyal etkileşimleri entegre eder. Herhangi bir varsayıma dayalı kısa veya uzun vadeli eşleştirme süreci gerektirmeyen, uçtan uca eğitilebilir bir modeldir. Önerdiğimiz model bir çizge yapısı kullanarak çoklu çerçevelerdeki hedef izlerini temsil eder, ve farklı zaman damgalarındaki hedeflerin kolektif olarak ele alınmasına olanak tanır. Ayrıca Transformer kodlayıcı, her bir hedefin hareket karakteristiğini etkili bir şekilde modellenmesine olanak tanır. Transformer ve GNN mimarileri arasında çift yönlü bilgi akışını etkinleştirerek, hareket modellemenin etkileşimlere bağlı olmasına ve bunun tersine etkileşim modellemenin de her hedefin hareketine bağlı olmasını sağlıyoruz. Deneysel sonuçlar, yaklaşımımızın etkinliğini ortaya koymakta ve ortak bir Transformer kodlayıcı ile donatılmış GNN mimarisinin, en son teknoloji algoritmalarla karşılaştırılabilir sonuçlar elde ettiğini göstermektedir. Bu umut verici sonuçlar, çoklu nesne takibinde ortak Transformer-GNN kodlayıcı mimarisinin potansiyelini vurgulamaktadır.

Özet (Çeviri)

The past decade has seen significant advancements in multi-object tracking, particularly with the rise of deep learning. However, many studies in online tracking have primarily focused on enhancing track management or extracting visual features, often leading to hybrid approaches with limited effectiveness, especially in scenarios with severe occlusions or crowded scenes. Conversely, in offline tracking, there has been a lack of emphasis on robust motion cues. This thesis proposes a novel solution to offline tracking by hierarchically merging tracklets, leveraging recent promising learning-based architectures. Our approach integrates motion cues and social interactions among targets using a joint Transformer and Graph Neural Network (GNN) encoder. The proposed solution is an end-to-end trainable model that does not require any handcrafted short-term or long-term matching processes. By representing tracklets across multiple frames using a graph structure, we enable collective reasoning of targets across different timestamps, leveraging advancements in graph representation learning. Furthermore, the Transformer encoder effectively captures the motion of each tracklet. By enabling bi-directional information propagation between these modalities, namely Transformer and GNN, we allow motion modeling to depend on interactions and, conversely, interaction modeling to depend on the motion of each target. Experimental results demonstrate the effectiveness of our approach, indicating that graph representation learning equipped with a joint Transformer encoder achieves results comparable to the state-of-the-art algorithms. These promising results emphasize the potential of the joint Transformer-GNN encoder architecture in multi-object tracking.

Benzer Tezler

  1. Çizge tabanlı metin özetleme

    Graph based text summarization

    CAN YALKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Mühendislik BilimleriYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT

  2. Graf tabanlı kümeleme algoritmaları üzerine

    On graph based clustering algorithms

    SEMEN BAĞLAM

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    MatematikEge Üniversitesi

    Matematik Ana Bilim Dalı

    DOÇ. DR. BURAK ORDİN

  3. Semantic and goal-oriented signal processing: Semantic extraction

    Anlamsal ve hedefe yönelik sinyal işleme: Anlamsal çıkarma

    MEHMETCAN GÖK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ORHAN ARIKAN

  4. Exploration of methylation-driven mechanisms in cancer

    Kanserde gözüken metilasyon sebepli değişimlerin araştırılması

    BUĞRA ÖZER

    Doktora

    İngilizce

    İngilizce

    2016

    BiyoistatistikSabancı Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı

    PROF. DR. OSMAN UĞUR SEZERMAN

    PROF. DR. İSMAİL ÇAKMAK

  5. A cognitive lifecycle methodology for IP address management in next generation core networks

    Yeni nesil omurga ağlarda IP adres yönetimi için bilişsel yaşam döngüsü metodolojisi

    KÜBRA DURAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BERK CANBERK