Integrating near and long-range evidence for visual detection
Görsel tanıma problemlerine yakın ve uzun mesafeli kanıtların entegre edilmesi
- Tez No: 688186
- Danışmanlar: DR. ÖĞR. ÜYESİ EMRE AKBAŞ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 148
Özet
Bu tez, tek-aşamalı, sınırlayıcı kutu içermeyen, oylamaya dayalı, aşağıdan-yukarıya nesne tanıma yöntemi olan HoughNet`i sunar. Genelleştirilmiş Hough Dönüşümü`nden esinlenen HoughNet, belirli bir konumdaki bir nesnenin varlığını, o konuma verilen oyların toplamına göre belirler. Oylar, log-polar oy alanına dayalı olarak hem yakın hem de uzak mesafelerden toplanır. Bu oylama mekanizması sayesinde, HoughNet görsel tanıma için hem yakın hem de uzun mesafeli, sınıf koşullu kanıtları entegre edebilir, böylece tipik olarak yalnızca yerel kanıtlara dayanan mevcut nesne algılama metodolojisini genelleştirir ve geliştirir. COCO veri kümesinde, HoughNet`in en iyi modeli 46.4 AP (ve 65.1 AP_50) elde ederek aşağıdan-yukarıya nesne tanıma yöntemleri ile benzer seviyede başarım göstermiş ve bir çok ana tek-aşamalı ve iki-aşamalı nesne tanıma yöntemlerini geride bırakmıştır. Önerdiğimiz yöntemin etkinliğini diğer görsel tanıma problemlerinde, yani videolarda nesnesi tanıma, nesne bölütleme, 3B nesne tanıma, insan pozisyon kestirimi, tüm-vücut insan pozisyon kestirimi, yüz tanıma ve ek olarak ``etiketten fotoğrafa`` görüntü oluşturma probleminde doğruladık. Buna göre, oylama modülümüz entegre edildiği her durumda performansı sürekli olarak iyileştirmiştir. Önerimizin tüm-vücut insan pozisyon kestirimi için etkinliğini göstermek için HPRNet adını verdiğimiz aşağıdan-yukarıya tek-aşamalı bir yöntem geliştirdik. HPRNet`te, tüm-vücut ana noktalarının her birini, insan sınırlayıcı kutu üzerindeki belirli noktalara göreli bir konumla tanımladığımız hiyerarşik bir regresyon mekanizması oluşturuyoruz. Bu tez bağlamında ayrıca, oylama yoluyla kısa mesafeli etkileşimleri entegre eden, tek-aşamalı, sınırlayıcı kutu içermeyen bir nesne tanıma yöntemi olan PPDet`i öneriyoruz. PPDet, tekil özniteliklerden elde edilen tahminleri tek bir tahminde toplar, bu sayede eğitim sırasında ayırt edici olmayan özniteliklerin katkılarının azaltmasına olanak tanır.
Özet (Çeviri)
This thesis presents HoughNet, a one-stage, anchor-free, voting-based, bottom-up object detection method. Inspired by the Generalized Hough Transform, HoughNet determines the presence of an object at a certain location by the sum of the votes cast on that location. Votes are collected from both near and long-distance locations based on a log-polar vote field. Thanks to this voting mechanism, HoughNet is able to integrate both near and long-range, class-conditional evidence for visual recognition, thereby generalizing and enhancing current object detection methodology, which typically relies on only local evidence. On the COCO dataset, HoughNet`s best model achieves 46.4 AP (and 65.1 AP_50), performing on par with the state-of-the-art in bottom-up object detection and outperforming most major one-stage and two-stage methods. We further validate the effectiveness of our proposal in other visual detection tasks, namely, video object detection, instance segmentation, 3D object detection, keypoint detection for human pose estimation and whole-body human pose estimation, face detection and an additional ``labels to photo`` image generation task, where the integration of our voting module consistently improves performance in all cases. In order to show the effectiveness of our proposal on whole-body human pose estimation task, we developed a bottom-up, one-stage method called HPRNet. In HPRNet, we build a hierarchical regression mechanism, where we define each of the whole-body keypoints with a relative location (i.e. offset) to a specific point on the person box. In the context of this thesis we also propose a one-stage, anchor-free object detector, PPDet, which integrates short-range interactions through voting. PPDet sum-pools predictions stemming from individual features into a single prediction which allows the model to reduce the contributions of non-discriminatory features during training.
Benzer Tezler
- Türkiye taşkömürü kurumu ocaklarında gürültü koşullarının incelenmesi, etkilenim düzeylerinin istatistiksel analizi ve risk değerlendirme
Investigation of noise conditions, statistical analysis of noise exposure levels and risk assessment in turkish hard coal enterprise
ABDULLAH FİŞNE
Doktora
Türkçe
2008
Maden Mühendisliği ve Madencilikİstanbul Teknik ÜniversitesiMaden Mühendisliği Ana Bilim Dalı
PROF. DR. GÜNDÜZ ÖKTEN
- Numerical modeling of wave overtopping in nearshore structures
Kıyıya yakın yapılarda dalga aşmasının sayısal modellenmesi
HAMZA CHEIKH ALI
Yüksek Lisans
İngilizce
2023
Gemi Mühendisliğiİstanbul Teknik ÜniversitesiGemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DENİZ BAYRAKTAR BURAL
- Yeşil binaların sosyal ve çevresel maliyetler üzerindeki etkisi ve genişletilmiş katma değer tablosu
The effect of green buildings on social and environmental costs and extended added value table
AFSOUN SAEİ AREZOUMAND
Yüksek Lisans
Türkçe
2019
Maliyeİstanbul Aydın ÜniversitesiMuhasebe Denetim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAKAN ÇELENK
- Virtual reality, virtual banking -Structures at a cross-road-a long-term scenario-
Sanal gerçek, sanal bankacılık -Uzun dönemli bir senaryo-
HANS AMBROS
Doktora
İngilizce
1998
BankacılıkÇukurova ÜniversitesiBankacılık Ana Bilim Dalı
PROF. DR. MAHİR FİSUNOĞLU