Geri Dön

Enhancing scene sketch understanding through a dual-network: Visio-temporal segmentation and context-aware sketch recognition

Çift ağ ile sahne çizimi anlamayı geliştirme: Görsel-zamansal bölütleme ve bağlam farkındalıklı çizim tanıma

  1. Tez No: 905027
  2. Yazar: ALEYNA KÜTÜK
  3. Danışmanlar: PROF. DR. TEVFİK METİN SEZGİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 110

Özet

Sahne çizimlerini anlamak, çizimdeki bireysel nesnelerin ayırt edilmesini ve kategorize edilmesini içerir. Sahne çizimlerindeki anlamsal bölütleme, farklı çizimleri ayırt etmek için kritik öneme sahiptir, ancak mevcut yöntemler genellikle çizimleri bitmap görüntüleri olarak ele alır ve bu da vuruş darbesi sırası bilgilerini kaybetmelerine neden olabilir. Ancak insanlar genellikle nesneleri sıralı olarak çizerler, bu nedenle bu zamansal sıralamanın kullanılması bölütleme performansını artırabilir. Ayrıca, geleneksel yöntemler genellikle sınıf seviyesindeki bölütlemeye odaklanır ve aynı kategorideki farklı örnekleri ayırt edemezler. Sahne çizimlerini anlamanın bir diğer önemli yönü, sahnedeki bireysel çizim nesnelerinin sınıflandırılmasıdır. Bu nesneler genellikle bağımsız tanıma için gereken detaya sahip olmadığından, bağlamsal bilgi olmadan tanımlanmaları zorlaşır. Örneğin, kabarık ve dairesel bir çizim, sahnedeki konumuna ve boyutuna bağlı olarak“çalı”veya“bulut”olarak yorumlanabilir. Çalılar genellikle yere çizilirken, bulutlar genellikle gökyüzüne çizilir. Benzer görünümlerine rağmen, yorumları bağlamlarına göre değişebilir. Tanıma doğruluğunu artırmak için, nesne tanıma ve görüntü sınıflandırma gibi bilgisayarlı görüş görevlerinde genellikle göreceli konum ve boyut hakkında bilgi kullanılır. Ancak, birçok güncel çizim tanıma yöntemi çizimleri izole bir şekilde ele alır ve sahnede bulunan bağlamsal bilgileri göz ardı eder. Bu sorunları ele almak için, iki ayrı görev için iki yenilikçi ağdan oluşan bir çift ağ yaklaşımı öneriyorum: sahne çizim bölütleme ve sahne çizimi tanıma. İlk ağ olan Kategoriden Bağımsız Görsel-Zamansal Ağı (CAVT), sınıf agnostik bir nesne dedektörü ile objeleri tespit ederken, vuruş darbelerini gruplamak için kendi artçı işlem modülünü kullanır. Bu ağ, nesne örneklerini kategorilerinden bağımsız olarak, vuruş düzeyinde ayırt edebilir. İkinci ağ olan Bağlam Bilincine Sahip Çizge Dikkat Dönüştürücü Ağı (CGAT-Net), sahne içindeki bireysel çizim nesnelerini işler ve uygun kategorilerini bulmak için nesneler arası ilişkileri kullanır. Bu çalışma, sahne çizimlerinde yeni bir dönüştürücü tabanlı çizge dikkat ağı kullanarak bağlam tabanlı bir çizim tanıma yaklaşımını uygulayan ilk çalışmadır. Ayrıca, literatürde hem örnek hem de vuruş darbesi seviyesinde sınıf anotasyonlarına sahip serbest el sahne çizim veri setleri eksiktir. Bu boşluğu doldurmak için, 1,000 sahne çizimi içeren ve yoğun etiketlemelere sahip 403 farklı nesne sınıfını kapsayan en büyük Serbest El Örnek ve Vuruş Darbesi Seviyesinde Sahne Çizimi veri setini (FrISS) topladım. FrISS ve diğer sahne çizim veri setleri üzerinde yapılan kapsamlı deneyler, CAVT ve CGAT-Net'in birleştirilmiş haliyle ve her ağın tek başına kullanımıyla, kendi alanlarındaki mevcut yöntemlerden daha iyi performans gösterdiğini göstermektedir.

Özet (Çeviri)

Understanding scene sketches involves segmenting and categorizing individual objects within the sketch. Semantic segmentation in scene sketches is crucial for distinguishing distinct sketches, but current methods often treat sketches as bitmap images, which can result in a loss of stroke order information. However, people tend to draw objects sequentially, so leveraging this temporal order could enhance segmentation performance. Moreover, traditional methods typically focus on class-level segmentation, failing to differentiate between instances within the same category. Another important aspect of scene sketch understanding is classifying individual sketch objects within a scene. These objects often lack the detail needed for standalone recognition, making their identification challenging without contextual information. For instance, a sketch that is fluffy and circular could be interpreted as a“bush”or a“cloud,”depending on its position and size within the scene. Bushes are typically drawn on the ground, while clouds are usually sketched in the sky. Despite their similar appearances, their interpretation can vary based on their context. To enhance recognition accuracy, information about relative position and size is often used in computer vision tasks like object recognition and image classification. However, many current sketch recognition methods treat sketches in isolation, overlooking the contextual information present in the scene. To address these issues, I propose a dual-network approach comprising two novel networks for separate tasks: scene sketch segmentation and scene sketch recognition. The first network, the Class-Agnostic Visio-Temporal Network (CAVT), detects individual objects in a scene sketch using a class-agnostic object detector and groups strokes with its post-processing module. This network can distinguish object instances at the stroke level, independent of their categories. The second network, Context-Aware Graph Attention Transformer Network (CGAT-Net), processes individual sketch objects within the scene and leverages inter-object relationships to find their appropriate categories. This work is the first to apply a context-based sketch recognition approach by leveraging a novel Transformer-based Graph Attention Network within scene sketches. Additionally, the literature lacks free-hand scene sketch datasets with both instance and stroke-level class annotations. To fill this gap, I collected the largest Free-hand Instance- and Stroke-level Scene Sketch dataset (FrISS) that contains 1,000 scene sketches and covers 403 different object classes with dense annotations. Extensive experiments on FrISS and other scene sketch datasets demonstrate that the dual-network approach, combining CAVT and CGAT-Net, as well as each network individually, outperforms existing methods in their respective domains.

Benzer Tezler

  1. Sparsity based pansharpening and a new pansharpening method using a guiding image

    Seyreklik tabanlı pankeskinleştirme ve kılavuz görüntü kullanan yeni bir pankeskinleştirme yöntemi

    RONGLEI JI

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    İletişim Bilimleriİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. ENDER METE EKŞİOĞLU

  2. Uydu verilerinden harita kapsamında görüntü üretmenin geometrik doğruluğu

    The Geometric accuracy of producing a map scene from satellite image data

    CENGİZHAN İPBÜKER

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    PROF.DR. OKAY ÖZTAN

  3. Gpu-accelerated precomputed discrete visibility fields for real-time ray-traced dynamic scenes under environment lighting

    Ortam aydınlatması altında gerçek zamanlı ışın izlemeli dinamik sahneler için ekran kartı hızlandırmalı önceden hesaplanmış ayrık görünürlük alanları

    BERİL GÜNAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET OĞUZ AKYÜZ

  4. A fuzzy logic based approach for enhancing depth perception in computer graphics

    Bulanık mantık tabanlı yaklaşımla bilgisayar grafiğinde derinlik algısının artırılması

    ZEYNEP ÇİPİLOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. TOLGA ÇAPIN

  5. Perceptually-driven computer graphics and visualization

    Görsel algı odaklı bilgisayar grafikleri ve görselleştirme

    ZEYNEP ÇİPİLOĞLU YILDIZ

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HALİL BÜLENT ÖZGÜÇ

    DOÇ. DR. TOLGA KURTULUŞ ÇAPIN