An object recognition framework using contextual interactions among objects
Nesneler arasındaki bağlamsal etkileşimleri kullanan bir nesne tanıma çerçevesi
- Tez No: 246717
- Danışmanlar: YRD. DOÇ. DR. SELİM AKSOY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Sayfa Sayısı: 93
Özet
Nesne tanıma, bilgisayarlı görme alanının en temel problemlerinden biridir. Bilgisayarlar gördüklerini insanlar gibi anlayabilsin diye teknikler geliştirmek nesne tanıma araştırmalarındaki ana uğraştır. Bir sahnedeki nesneleri bulmak ve tanımlayabilmek için en çok kullanılan yöntemlerde, alt-düzey görüntü öznitelikleri (renk, doku, vb.), ilgi noktaları/bölgeleri, süzgeç tepkileri, vb. özelliklerden yararlanılmaktadır. Bunlar belirli nesne sınıfları için düzgün çalışsa da, genel bir çözüm olmaktan uzaktırlar. Bu yüzden, sahne bağlamını kullanmak güncel bir eğilim halini almıştır. Bağlam nesneler arası ve nesne - sahne arası ilişkilerin kurallarını belirlemektedir. Nesne tanıyıcıların ortaya çıkardığı sahne düzenleşimleri bazı durumlarda sahne bağlamıyla örtüşmemektedir. Örneğin, bir mutfak ortamında araba görülmesi mutfak bağlamı açısından pek olası değildir. Bu durumda, mekanın bir mutfak olduğunu bilmek bu tür çelişkili tanımlamaları engellemekte kullanılabilir.Bağlamsal bilginin getirdiği faydaları hesaba katarak, bu tezde, nesne tanıma başarımını arttırmak için tek tek sezilmiş nesneler arasındaki bağlamsal etkileşimlerden yararlanan bir nesne tanıma çerçevesi anlatılmaktadır. İlk katkımız nesne sezicilerin tasarımında görülmektedir. Çerçevemizde üç farklı nesne sezim yöntemi tanımlanmıştır. Bunlardan ikisi, şekil bazlı ve piksel sınıflandırması bazlı nesne sezicilerdir ve tasarımlarında genel olarak varolan yöntemlerden yararlanılmaktadır. Bunlardan başka, yüzey doğrultusu bazlı nesne sezici isimli üçüncü bir yöntem geliştirilmiştir. Bu yeni nesne sezim yöntemindeki ana amaç, şekil, renk ve doku özellikleri ayırt edici olmasa da yüzey doğrultuları (diklik ya da yataylık durumları) tutarlı olan nesnelerin sezilebilmesini sağlamaktır. Duvar, masa üstü, yol, vb. nesneler bu gruba dahil edilmektedir. İkinci katkımız, nesneler arasındaki uzamsal ilişkilere dayanan bağlamsal etkileşim modelidir. Nesneler arasındaki uzamsal ilişkileri göstermek için göreli konum, ölçek ve doğrultu bilgilerini içeren üç tane öznitelik tanımlanmıştır. Bu öznitelikleri ve nesne etkileşim olurluğu modelini kullanarak sahnenin anlamsal, uzamsal ve duruş bağlamları aynı anda ifade edilebilmektedir. Üçüncü ana katkımız, bireysel nesne etiketlerine ve nesne ikilileri arasındaki etkileşimlere bağlı olan sahne olasılık fonksiyonunun enbüyütülerek, nesnelerin en son etiketlerinin atanmasıdır. En tutarlı sahne düzenleşimini bulmak için bu enbüyütme problemi, doğrusal eniyileme kullanılarak çözülmüştür.LabelMe ve Bilkent veri kümelerinde, hem sahne türünü (iç mekan ya da dış mekan) hesaba katarak hem de katmayarak deneyler gerçekleştirilmiştir. LabelMe veri kümesinde sahne türü bilgisi kullanılmadığında F2 başarı ölçütü 0.09'dan 0.20'ye yükselmiştir. Sahne türü bilgisinden yararlanıldığında F2 ölçütü 0.17'den 0.25 değerine ulaşmıştır. Benzer başarım artışları Bilkent veri kümesinde gerçekleştirilen deneylerde de görülmüştür. Sahne türü hesaba katılmadığında F2 ölçütü 0.16'dan 0.36'ya yükselirken, sahne türü dikkate alındığında ölçüt, 0.31 değerinden 0.44 değerine yükselmiştir. Bu deneyler sonucunda, bağlamsal etkileşimlerin nesne tanıma başarımına olumlu bir etkisi olduğu gösterilmiştir.
Özet (Çeviri)
Object recognition is one of the fundamental tasks in computer vision. The main endeavor in object recognition research is to devise techniques that make computers understand what they see as precise as human beings. The state of the art recognition methods utilize low-level image features (color, texture, etc.), interest points/regions, filter responses, etc. to find and identify objects in the scene. Although these work well for specific object classes, the results are not satisfactory enough to accept these techniques as universal solutions. Thus, the current trend is to make use of the context embedded in the scene. Context defines the rules for object - object and object - scene interactions. A scene configuration generated by some object recognizers can sometimes be inconsistent with the scene context. For example, observing a car in a kitchen is not likely in terms of the kitchen context. In this case, knowledge of kitchen can be used to correct this inconsistent recognition.Motivated by the benefits of contextual information, we introduce an object recognition framework that utilizes contextual interactions between individually detected objects to improve the overall recognition performance. Our first contribution arises in the object detector design. We define three methods for object detection. Two of these methods, shape based and pixel classification based object detection, mainly use the techniques presented in the literature. However, we also describe another method called surface orientation based object detection. The goal of this novel detection technique is to find objects whose shape, color and texture features are not discriminative while their surface orientations (horizontality or verticality) are consistent across different instances. Wall, table top, and road are typical examples for such objects. The second contribution is a probabilistic contextual interaction model for objects based on their spatial relationships. In order to represent the spatial relationships between objects, we propose three features that encode the relative position/location, scale and orientation of a given object pair. Using these features and our object interaction likelihood model, we achieve to encode the semantic, spatial, and pose context of a scene concurrently. Our third main contribution is a contextual agreement maximization framework that assigns final labels to the detected objects by maximizing a scene probability function that is defined jointly using both the individual object labels and their pairwise contextual interactions. The most consistent scene configuration is obtained by solving the maximization problem using linear optimization.We performed experiments on the LabelMe and Bilkent data sets by both utilizing and not utilizing the scene type (indoor or outdoor) information. While the average F2 score increased from 0.09 to 0.20 without the scene type assumption, it increased from 0.17 to 0.25 when the scene type is known on the LabelMe dataset. The results are similar for the experiments performed on the Bilkent data set. F2 score increased from 0.16 to 0.36 when the scene type information is not available and it increased from 0.31 to 0.44 when this additional information is used. It is clear that the incorporation of the contextual interactions improves the overall recognition performance.
Benzer Tezler
- Object-aware interactive perception
Nesne farkındalıklı etkileşimli algılama
ÇAĞATAY KOÇ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SANEM SARIEL UZER
PROF. DR. SİNAN KALKAN
- Object augmentation for out-of-context object recognition
Bağlam dışı nesne tanıma için nesne çeşitliliği artırımı
OĞUL CAN ERYÜKSEL
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SİNAN KALKAN
- İstanbul'da apartmanlaşma sürecindeki konut değişiminin mekan dizimsel ve anlamsal olarak irdelenmesi
Space syntax and semantic examination of the change in the housing plans in apartment building process in İstanbul
BAŞAK CENGİZ
Yüksek Lisans
Türkçe
2024
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. MEHMET EMİN ŞALGAMCIOĞLU
- Kamusal mekanlar ve tasarım ilkeleri
Başlık çevirisi yok
RECAİ VOLKAN SAĞLAR
Yüksek Lisans
Türkçe
1998
Mimarlıkİstanbul Teknik ÜniversitesiŞehir Planlama Ana Bilim Dalı
DOÇ. DR. TÜRKAN ULUSU URAZ