Storefront logo recognition and stereo vision based distance estimation
Mağaza logosu tanıma ve stereo görüntü tabanlı mesafe kestirimi
- Tez No: 559249
- Danışmanlar: PROF. DR. ULUĞ BAYAZIT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 57
Özet
Görme duyusu, çevreyi algılama ve yön bulmada en önemli faktördür. İnsanlar için günlük bir rutin olan bu algılama, robotik ve otonom araçlarda da temel bir gereksinimdir. İnsanlardaki görme bozuklukları, çevre ile ilgili bilgi akışını sekteye uğratarak yön bulma faaliyetlerini kısıtlar ve insanlara güçlük vererek dezavantajlı duruma düşmelerine sebep olur. Bilgisayarla görü, görme duyusunu ikame edecek araçları temin eder ve böylece eksik görsel bilgilere ulaşma imkanı sağlar. Stereo görüntü algoritmaları, üç boyutlu mekansal bilgileri elde etmek ve insanın iki gözlü görüş sisteminin fonksiyonunu karşılamakta olduğu gibi robotik ve otonom araçlarda kullanılmak için de idealdir. Tabelalar, sembol ve metin içermeleri sebebiyle, özellikle daha önceden bilinmeyen ortamlarda, yönlendirme ve gezinme konusunda öne çıkan öğelerdir. Dolayısıyla, üç boyutlu mekansal bilgi ile birlikte tabela tanıma, hedefe erişimi kolaylaştırır. Alışveriş merkezi, yol tarifine ihtiyaç duyulan iç mekan ortamına bir örnektir. Belirli mağazalara erişmek istendiğinde, hedefi ve yolu belirlemek için tabelalardan ve logolardan yardım alınmaktadır. Görme bozukluğu bu konuda büyük bir dezavantaja neden olmakla birlikte, bilgisayarla görü yöntemleriyle ve bu çalışma özelinde logo tanıma ile telafi edilebilir. Son yıllarda, bilgisayarla görü algoritmaları ve dijital kameralar, yardımcı/destekleyici teknolojiler için kullanışlı uygulamalara elverecek şekilde önemli bir gelişme kaydetmiştir. Bu teknolojiler günümüzde akıllı telefonlarda da kullanılabilmektedir. Son araştırmalar, engellerden kaçınma amaçlı üç boyutlu görüntü algoritmaları ile nesne, işaret ve metin algılama/tanıma algoritmalarına odaklanmıştır. Bununla birlikte, görme engellilerin yön bulması için stereo görüntü ve nesne tanımayı birleştiren algoritmalar henüz erken bir aşamadadır. Ayrıca, mağaza logolarının/tabelaların tanınması ve görme engellilerin mağazalara erişiminin kolaylaştırılması ile ilgili herhangi bir çalışmaya rastlanmamaktadır. Bu çalışma, logo tanımanın yanı sıra bir alışveriş merkezindeki mağazalara olan mesafeleri kestirmede stereo görüntü tabanlı bir yaklaşım sunmaktadır. Buradaki asıl amaç, belirli hedefleri tanıyarak yol tarif etmektir, ki buradaki hedefler de mağazalardır. Birincil katkı olarak, SURF nokta eşleştirme yöntemi, hem logo tanıma hem de stereo görüntü eşleştirme için kullanılmıştır. Mesafe kestirimi ise geometrik hesaplamalar ve istatistiksel iyileştirmelerle yapılmıştır. Bu amaç doğrultusunda, gerçek mesafeler ölçülerek mağaza vitrin ve tabela resimlerinden oluşan bir stereo veri seti oluşturulmuştur. Bu iş için hususi olarak bir stereo teçhizat yapılmış ve bununla mağaza önü resimleri çekilmiştir. Her seferinde gerçek mesafe ve kamera bakış açısı ölçülmüştür. Bu veri seti, logo tanımayla birlikte derinlik kestirimi için oluşturulması sebebiyle bir ilktir. Mevcut stereo veri setleri ve stereo uygulamaların çoğu, tüm sahnenin 3B yapısını elde etmek için her pikselin derinlik değerinin hesaplandığı derinlik haritası hesaplamalarına yöneliktir. Önerilen yöntem, kalibre edilmiş kamera parametrelerini ve sisteme önceden tanıtılmış logo görüntülerini kullanır. Stereo görüntüler önce gri tonlamaya dönüştürülür ve kamera parametreleri kullanılarak düzgünleştirilir. Sol görüntü SURF anahtar nokta eşleştirmesi kullanılarak sistemdeki logolarla eşleştirilir. Görüntü homografisi yoluyla, logonun sınırlayıcı kutusu hesaplanır ve bu, stereo eşleme için sağ görüntüdeki arama bölgesini tanımlar; burada tekrar SURF anahtar nokta eşleştirmesi kullanılır. Kamera parametreleri ve eşleşen noktaların yatay fark/sapma değerleri, üç boyutlu koordinatların hesaplanmasını, dolayısıyla mesafelerin hesaplanmasını sağlar. Mesafelerin ortalama değeri ve standart sapması, olası aykırı değerleri filtrelemek için kullanılır, bu da daha kesin bir mesafe kestirimi sağlar. Yöntemin etkili bir şekilde uygulanması için aşağıdaki varsayımlar yapılmıştır. İlk olarak, kamera doğrudan karşıya bakmaktadır ve mağaza tabelaları her zaman yukarıdadır. Böylece görüntülerin sadece üst yarısı logolar için aranır. İkincisi, tabelalar dikdörtgen / düzlemsel bir şekle ve dik yönelime sahiptir, bu nedenle tanıma sırasında logonun döndürülmüş olup olmadığına bakmaya gerek yoktur. Tabelalar genellikle mağazaların girişlerinin üstünde bulunduğundan, mesafe ve yön hesaplarken hedef olarak kullanılır. Logo tanıma, nesne tanımada yaygın bir yaklaşım olan SURF algoritmasını kullanır. Logo görüntülerinin SURF anahtar noktaları ve tanımlayıcı vektörleri önceden hesaplanır ve logo veritabanında saklanır. Logo tanıma için bir sorgu görüntüsü geldiğinde, üzerinde aynı şekilde anahtar nokta ve tanımlayıcı vektör hesaplaması yapılır. Sorgu görüntüsünün anahtar noktaları, tanımlayıcı vektörlerin Öklid uzaklığına bağlı olarak logo anahtar noktaları ile eşleştirilir. Eşleştirme işlemi, her bir anahtar nokta için en yakın iki eşleşme döndürür. En yakın mesafenin ikinci yakın mesafeye oranı belirli bir eşiğin üstünde ise, eşleşme reddedilir. Bu filtrelemeden sonra, kalan eşleşmeler görüntü homografisini hesaplamak ve logonun sınırlayıcı kutusunu bulmak için kullanılır. Uzaklık kestirimi, stereo eşleştirme ve üçgenleme yoluyla 3B projeksiyondan sonra gelir. Bir noktanın sol ve sağ görüntülerdeki koordinat farkı/sapması ve kamera parametreleri biliniyorsa, o noktanın uzaklığı geometrik özdeşlikler kullanılarak hesaplanabilir. SURF algoritması uygulanmadan önce sol ve sağ görüntülerin her ikisi de mercek kaynaklı deformasyonları gidermek için düzgünleştirilir ve ideal bir stereo sistemi elde etmek için hizalanır. Sağ görüntünün anahtar noktaları ve SURF tanımlayıcı vektörleri, tanıma adımında belirlenen logo sınırlayıcı kutusu tarafından tanımlanan sınırlı bir alanda hesaplanır. Sol ve sağ görüntü arasındaki anahtar nokta eşleşmesi aynı SURF metodolojisi kullanılarak gerçekleştirilir. Sonuç olarak ortaya çıkan eşleşmeler, koordinat sapma/fark değerlerinin hesaplanmasını sağlar. Kamera parametreleri ve sapmalar kullanılarak, anahtar noktaların üç boyutlu koordinatları hesaplanır. Yanlış eşleşmeler ve yanlış hesaplamalar olabileceğinden, aykırı değerlere sahip noktalar istatistiksel olarak filtrelenir. Kalan noktaların ortalaması, kestirilen mesafeyi verir. Önerilen yöntemin logo tanıma performansı ve mesafe kestirim doğruluğu, mağaza mesafelerinin 5,48 ila 14,63 metre arasında; kamera bakış açısının ise yatayda -45 ila 45 derece arasında değiştiği veri seti üzerinde test edilmiştir. Önerilen yöntem logoları direkt karşıdan ve 30 dereceye kadar olan kamera açılarında tanıyabilmektedir. Logo belirgin bir üç boyutlu yapıya sahipse ve kamera açısı 30 derecenin üzerindeyse tanıma başarısız olmaktadır. Mesafe kestirimindeki ortalama hata, %12'dir. Gerçek uzaklıkların ortalaması 10 metre olduğundan, bu 1,2 metrelik bir hataya karşılık gelmektedir. Karşılaştırma amacıyla, derin öğrenme yaklaşımı ile bir mesafe kestirim sistemi daha gerçeklenmiştir. Burada evrişimli sinir ağı (CNN) yapısında olan Tiny YOLO v3 sistemi kullanılmıştır. İkinci bir magaza önü fotoğraf koleksiyonu toplanmış ve Tiny YOLO için eğitim veri seti oluşturmak amacıyla logo konumları elle işaretlenmiştir. Sistem bu veri seti ve uygun konfigürasyon ile eğitilmiştir. Sinir ağı, sol ve sağ görüntüleri girdi olarak alır ve logoları tanıyarak sınırlayıcı kutularını bulur. Bu sınırlayıcı kutularının orta noktaları koordinat sapma/fark değerlerinin hesaplaması için kullanılır, yani stereo eşleştirme sadece orta noktalarla yapılır. Daha sonra bu sapmadan mesafe kestirilir. YOLO yöntemi, sınırlayıcı kutuların ve orta noktaların yeterince kesin olarak belirlenememesi ve dolayısıyla koordinat fark değerlerinin yüksek sapmalara sahip olması nedeniyle daha yüksek bir ortalama kestirim hatasıyla (%29) sonuçlanmıştır. Bununla birlikte, YOLO'nun logo tanıma performansı SURF'e yakındır. YOLO, farklı bakış açılarından ve şartlarda çekilen görüntüler ile eğitildiği için, eğitim veri seti yeterince çeşitli olduğu sürece kamera açısı ve diğer varyasyonlar tanıma konusunda problem oluşturmamaktadır. Her ne kadar bir tripod üzerine monte edilmiş sabit dijital kameralarla geliştirilmiş ve test edilmiş olsa da, önerilen yöntemin koşulları sağlayan akıllı telefonlarda da uygulanması amaçlanmıştır. Akıllı telefonlar birden fazla kamerayla donatıldıkça, görme engellilere yardımcı olmak için önerilen yöntemi kullanabilir ve fazladan bir cihaza olan ihtiyacı ortadan kaldırabilir. Elde edilen kestirim doğruluğu, sistemi geliştirmek ve başkaca navigasyon uygulamalarına entegre etmek için motive edici seviyededir.
Özet (Çeviri)
Since interpretation of images to compute structural properties of the 3D world is an important benefit of computer vision, computer vision applications can help people requiring navigational assistance. In this regard, this work presents a stereo-vision-based perception and navigation approach to assist visually impaired people, which is also transferable to robotics and autonomous vehicles, since the essence of the problem is the same for both of these cases. Frontal view images of stores in a shopping mall are first searched against a database for logo recognition where all the logos are trained beforehand. Distances to the found logos (store signboards) are estimated by stereo matching using geometrical identities and triangulations, mimicking the way human binocular vision perceives depth and 3D structure. Both logo recognition and stereo matching are based on local image features (keypoint descriptors) calculated via Speeded Up Robust Features (SURF) algorithm, which is a widespread approach in computer vision for object recognition due to its robustness to external effects on the object appearance. Final refined distances are calculated using statistical filtering and averaging of the individual keypoint distances found by matching keypoint pairs. For comparison, the distances are also estimated using a convolutional neural network (CNN), where the logos are identified by the CNN and their middle points are stereo-matched. Commonly available stereo datasets and most of the stereo applications are oriented towards dense disparity and depth map calculations where depth values of individual pixels are computed to obtain 3D structure of the whole scene. Since they are not appropriate for the problem at hand, a stereo dataset for logo recognition with depth estimation has been constituted for testing purposes by capturing storefront images with a custom built stereo rig, where the ground truth distance and camera viewpoint angle have been measured for each pair of snapshots. Experimental results on this self-generated stereo dataset of 28 storefront images from various distances and viewpoints demonstrate the performance of the proposed approach. An acceptable estimation accuracy has been obtained, which motivates further enhancements, development in other navigational applications, and integration with handheld devices.
Benzer Tezler
- Factors affecting evaluations of storefront designs and inferences on store characteristics
Mağaza cephesinin değerlendirilmesini ve mağazanın özellikleriyle ilgili çıkarımları etkileyen faktörler
YASEMİN BURCU ÇAKIRLAR
Yüksek Lisans
İngilizce
2010
İç Mimari ve Dekorasyonİhsan Doğramacı Bilkent Üniversitesiİç Mimarlık ve Çevre Tasarımı Ana Bilim Dalı
YRD. DOÇ. DR. ÇAĞRI İMAMOĞLU
- Mağaza cephelerinde kullanılan cephe malzemelerinin detay çözümlerine yönelik analizi
Analysis for detail solutions for facade materials used on storefronts
HEVAL DEMİRKOL
Yüksek Lisans
Türkçe
2011
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. NİHAL ARIOĞLU
- An assesment on the effects of different design criteria on storefronts
Mağaza cephelerine etki eden farklı tasarım kriterleri üzerine bir değerlendirme
ÖZLEM NUR ASLANTAMER
Yüksek Lisans
İngilizce
2003
İç Mimari ve DekorasyonÇankaya Üniversitesiİç Mimarlık Ana Bilim Dalı
PROF. DR. FARUK YALÇIN UĞURLU
- Mimarlık-moda ilişkisi bağlamında lüks marka mağazaların tasarım ilkelerinin incelenmesi
The relation between architecture and fashion retail on the design of high-end luxury stores
TATİANA CHİRSANOV
Yüksek Lisans
Türkçe
2008
Giyim EndüstrisiYıldız Teknik ÜniversitesiMimarlık Bölümü
YRD. DOÇ. DR. YASEMEN SAY ÖZER
- Kullanıcının alışveriş deneyimini iyileştirmek için sanal bir mekân önerisi
A virtual space proposal to improve the user's shopping experience
NİLSU SÜTCÜ
Yüksek Lisans
Türkçe
2023
İç Mimari ve Dekorasyonİstanbul Teknik Üniversitesiİç Mimari Tasarım Ana Bilim Dalı
PROF. DR. ÖZGE CORDAN