Geri Dön

Two-level temporal relation model for video instance segmentation

Video örnek segmentasyonu için iki seviyeli ilişki modeli

  1. Tez No: 774186
  2. Yazar: ÇAĞAN SELİM ÇOBAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ FATMA GÜNEY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 50

Özet

Videolarda obje tespiti, segmentasyonu ve takibi alanında mevcut yaklaşımlar ya tüm videoyu girdi olarak alıp çevrimdışı olarak işleyerek sonuçların kalitesine odaklanmakta; ya da kare kare işleyerek performastan feragat ederek hıza odaklanmaktadır. Bu çalışmada, çevrimdışı muadillerinin performansı ile yakın olan bir çevrimiçi yöntem öneriyoruz. Bu yöntemde özgün olarak nesneleri kodlayan ve onları zaman içinde ilişkilendiren, mesaj ileten bir grafik sinir ağı sunuyoruz. Ayrıca modelimizi, özellik piramidi ağındaki özellikleri artık bağlantılarla birleştirmek için yeni bir modül ile güçlendiriyoruz. Uçtan uca eğitilmiş modelimiz, çevrimiçi yöntemler dahilinde YouTube-VIS veri setinde muadil modeller arasında en iyi performansı elde etti. DAVIS üzerinde yapılan diğer deneyler, modelimizin video nesnesi bölümleme görevine genelleme kabiliyetini göstermektedir. Ayrıca otonom sürüş ayarı konusundaki çalışmalarımızı değerlendiriyor ve KITTI MOTS veri setinde karşılaştırılabilir sonuçlar gösteriyoruz.

Özet (Çeviri)

In Video Instance Segmentation (VIS), current approaches either focus on the quality of the results, by taking the whole video as input and processing it offline; or on speed, by handling it frame by frame at the cost of competitive performance. In this work, we propose an online method that is on par with the performance of the offline counterparts. We introduce a message-passing graph neural network that encodes objects and relates them through time. We additionally propose a novel module to fuse features from the feature pyramid network with residual connections. Our model, trained end-to-end, achieves state-of-the-art performance on the YouTube-VIS dataset within the online methods. Further experiments on DAVIS demonstrate the generalization capability of our model to the video object segmentation task. We also evaluate our work on autonomous driving setting and show comparable results in KITTI MOTS dataset.

Benzer Tezler

  1. HDTV işaretlerinin uydu üzerinden iletiminde özel problemler

    Special problems in transmitting the HDTV signals by satellite

    RAMAZAN BAL

    Yüksek Lisans

    Türkçe

    Türkçe

    1991

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. BİNGÜL YAZGAN

  2. Enabling dynamics in face analysis

    Başlık çevirisi yok

    HAMDİ DİBEKLİOĞLU

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversiteit van Amsterdam

    PROF. DR. THEO GEVERS

    PROF. DR. A. W. M. SMEULDERS

  3. Bütünleşik kent bilgi sistemlerine yönelik ulusal konumsal 3 boyutlu veri standartlarının geliştirilmesi

    Development of national spatial 3 dimensional geo-data standards for integrated urban information systems

    SERPİL ATEŞ AYDAR

    Doktora

    Türkçe

    Türkçe

    2023

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. TAHSİN YOMRALIOĞLU

  4. Energy aware endurance framework for mission critical aerial networks

    Güdümlü havasal ağlar için enerji farkında endürans modeli

    YUSUF ÖZÇEVİK

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BERK CANBERK