Geri Dön

Joint face and landmark localization via recurrent convolutional network for event camera

Olay kamerası için yinelemeli evrişimsel ağ yoluyla tümleşik yüz ve referans noktası yeri belirleme

  1. Tez No: 955909
  2. Yazar: GİRAY KILIÇ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ARMAN SAVRAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Yaşar Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Olay kamerasının yüksek zamansal çözünürlüğü, düşük güç tüketimi ve geniş dinamik aralığı, onu robotik, gözetim ve kimlik tanıma, sürücü izleme ve görsel konuşma tanıma gibi yeni ortaya çıkan yüz uygulamalarında giderek daha popüler hale getirmektedir. Yüzü ve yüz referans noktlarını tespit etmek, yüz uygulamalarında önemli bir ilk adımdır. Her iki görevi de gerçekleştirmek için, çok görevli bir kayıp fonksiyonu olan ortak bir ağ kullanıyoruz ve böylece gereksiz ayrı modellere olan ihtiyacı ortadan kaldırıyoruz. Bu, yüz şekillerinin esnek olan değişkenliğini karşılamak için deforme edilebilir evrişimle tasarlanmış bir bağlam modülü içeren boyun kısmına bağlı çok görevli baş aracılığıyla elde edilir. Boyunlar, yinelemeli evrişimli ağ katmanlardan girdi alan öznitelik piramit ağına (FPN) bağlanır. Farklı karakteristiklere sahip ECFacePose ve FES veri kümeleri üzerinde yaptığımız deneylerle, uzam-zamansal özniteliklere sahip FPN'nin önceki yüz konumlama yaklaşımlarından daha iyi performans gösterdiğini, üstün referans noktası ve etkili küçük yüz tespiti sağladığını gösteriyoruz. Deneylerimiz ayrıca, deforme edilebilir evrişim tabanlı bağlam modülünün, zamansal tutarlılık kaybının ve doğrultulmuş kanat kaybının ile başarım faydalarını doğrular. Dahası, 12 evrişim omurgasını inceleyerek bunları hafif, orta ağırlıkta ve ağır ağırlıkta sınıflara ayırıyor ve orta ağırlıktaki InceptionV3 ve DenseNet omurgalarının etkileyici başarım-verimlilik dengeleri sağladığını gösteriyoruz. Çalışmamız, FPN'nin yüz referans noktası ve küçük yüz algılama için kritik olduğunu ve daha büyük yüz algılamayı geliştirdiğini, aynı zamanda FLOP'ları dört katına ve bellek kullanımını iki katına çıkardığını gösteriyor

Özet (Çeviri)

The event camera's high temporal resolution, low power consumption, and wide dynamic range make it increasingly popular in robotics, surveillance, and emerging facial applications such as identity recognition, driver monitoring, and visual speech recognition. Localizing the face and landmarks is an essential first step in facial applications. We employ a joint network with a multi-task loss to realize both tasks, avoiding the need for redundant separate models. This is achieved through the multi-task head attached to the neck, which includes a context module designed with deformable convolutions to accommodate the non-rigid variability of facial shapes. The necks are connected to the feature pyramid network (FPN), which receives input from the recurrent convolutional network layers. By experimenting with two datasets of varying characteristics, the ECFacePose and FES datasets, we demonstrate that FPN with spatio-temporal features outperforms previous face localization approaches, achieving superior landmark localization and effective small face detection. Our experiments confirm the performance benefits of the deformable convolution-based context module, temporal consistency loss, and the Rectified Wing Loss. Furthermore, we explore 12 convolutional backbones, categorizing them into lightweight, middleweight, and heavyweight classes, and demonstrate that the middleweight InceptionV3 and DenseNet backbones deliver impressive performance-efficiency trade-offs. Our study illustrates that while FPN is crucial for landmark and small face detection and enhances larger face detection, it also increases FLOPs fourfold and doubles memory usage.

Benzer Tezler

  1. Bilgisayarlı görü ile dijital ergonomik risk değerlendirme sistemi: REBA, RULA ve OWAS uygulaması

    Digital ergonomic risk assessment system with computerized vision: REBA, RULA and OWAS application

    ANIL ÖZKAN GEÇİCİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER KİRAZ

  2. Tibia pilon kırıklarında erken postoperatif BT çekmenin redüksiyon ve implant pozisyonunu değerlendirmedeki rolü

    The role of early postoperative CT taking in tibia pilon fractures in evaluation of reduction and hardware position

    SAMET ÖNCÜL

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    Ortopedi ve TravmatolojiSağlık Bilimleri Üniversitesi

    Ortopedi ve Travmatoloji Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERSİN ŞENSÖZ

  3. Scapula'nın anatomik özellikleri,varyasyonları ve klinik önemi

    Anatomical features, variations and clinical significance of scapula

    YAPRAK ÇANKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    AnatomiHatay Mustafa Kemal Üniversitesi

    Anatomi Ana Bilim Dalı

    PROF. DR. SENEM ERDOĞMUŞ KOÇ

  4. Sakrum kemiğinin morfometrik değerlendirilmesi ve eklem yüzey alanlarının hesaplanması

    Morphometric evulation and calculation of joint surface of sacrum bone

    TUĞBA POLAT KOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    AnatomiErciyes Üniversitesi

    Anatomi Ana Bilim Dalı

    YRD. DOÇ. DR. TOLGA ERTEKİN

  5. Temporomandibular eklem disfonksiyon sendromunda transkutaneal elektriksel sinir stimülasyonu ve ultrason'un etkinliklerinin karşılaştırılması

    Comparison of the efficiacy of TENS and ultrasound in temporomandibular joint dysfunction syndrome

    MERAL BATUR

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Fiziksel Tıp ve RehabilitasyonHacettepe Üniversitesi

    Fizik Tedavi ve Rehabilitasyon Ana Bilim Dalı

    DOÇ. DR. NURAY KIRDI