Geri Dön

UGQE: Uncertainty guided query expansion in image retrieval

BYSG: Görüntü erişiminde belirsizlik yönlendirmeli sorgu genişletme

  1. Tez No: 767455
  2. Yazar: FIRAT ÖNCEL
  3. Danışmanlar: PROF. DR. GÖZDE ÜNAL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 75

Özet

Görüntü erişimi, bilgisayarla görü alanının önemli alt problemlerinden birisidir. Bu problemde amaç görüntüleri vektör düzeyinde temsil etmek ve daha sonra bu vektörler arasındaki olması gereken yakınlık, aynı nesnenin farklı açılardan edinilmiş görüntüleri arasında kurulması gereken bağlantı, ve uzaklık, farklı nesneler arasında kurulması gereken bağlantı, özelliklerinden yararlanılarak verilen bir görüntünün bir görüntü veri tabanınından benzer görüntünün elde edilmesi olarak tanımlanabilir. Derin Öğrenme öncesi dönemde görüntülerin vektör düzeyinde ifade edilmesi için genellikle geleneksel olarak nitelendirilebilecek, kelime çantası modeli veya yerel öznitelik eşleştirme gibi, yöntemler makine öğrenmesi yöntemleri ile birleştirilerek problem giderilmeye çalışılmıştır. Derin öğrenme yöntemlerinin yaygınlaşmasıyla birlikte birçok alanda olduğu gibi bilgisayarla görü alanında klasik yöntemlerin yerini derin öğrenme tabanlı yöntemler almaya başlamıştır. Derin öğrenme tabanlı yöntemlerde de görüntüler için en çok kullanılan yöntem Evrişimli Sinir Ağları (ESA) içermektedir. ESA'lar görüntülerdeki örüntüleri bulmada ve öznitelik çıkarmada en çok kullanılan yöntemdir. ESA'lar görüntülerdeki uzamsal bağlantıları kullanarak başarılı çalışmaktadırlar. ESA'lar sınıflandırma, bölütleme gibi temel bilgisayarla görü problemlerinin yanında görüntü erişimi probleminde de başarıyla çalışmaktadır. Bu tezdeki görüntü erişimi problemi ele alınırken kent simgelerini içeren veri kümeleri kullanılmıştır. Google Landmarks \cite{Noh_2017_ICCV} adı verilen ve tüm dünyadan 1 milyonun üzerinde görüntü içeren veri kümesi kullanılmıştır. Bu görüntü kümesi kullanılarak önce ESA katmanlarının bittiği kısımdan çıktılar alınmış, örneğin 7x7x2048 büyüklüğünde, ve bu çıktılar daha havuzlama yöntemiyle, GeM \cite{alphaqe}, birlikte 2048 boyutlu vektörlerle görüntülerin temsili sağlanmıştır. Daha sonra bu görüntü temsilleri sağlanarak seçilen bir eğitim demetinde, sorgu, pozitif örnek ve negatif örnekler, karşılaştırmalı hata fonksiyonu kullanılarak ESA eğitilmiştir ve öznitelik çıkarıcı diyeceğimiz ağ yaratılmıştır. Bu çalışmada öznitelik çıkarıcı ağ olarak ResNet101 \cite{resnet} kullanılmıştır ve bu ağ tezin ele aldığı esas problemde kullanılmak üzere kaydedilmiştir. Sorgu genişletme tekniği, görüntü erişiminde; ilk sorgunun görüntü veri tabanındaki en yakın komşularını elde ettikten sonra, bu en yakın komşuların öznitelik vektörlerinin kullanılarak oluşturulun geliştirilmiş sorgunun tekrar görüntü veri tabanında aranmasıyla oluşturulur. Sorgu genişletme tekniğinde amaç ilk sorguda olmayan niteliklerin görüntü veri tabanından gelen en yakın komşu niteliklerle birlikte zenginleştirilerek daha yüksek başarımlı sorgu sonuçlarına ulaşılmasına dayanmaktadır. Sorgu genişletme tekniğinde ilk sorgu sonrasında elde edilen en yakın komşu görüntülerin öznitelik vektörlerinin ne şekilde birleştirileceği önemli bir araştırma konusu olmuştur. Temel olarak kullanılan yöntem sorgunun ve elde edilen k tane en yakın komşu vektörünün ortalaması alınmasıdır. Bunun yanı sıra komşuların azalan oranda etki edilmesi ve benzerlik oranları ile çarpılarak ağırlıklı ortalamasının alınması diğer yöntemlerdir. Bu yöntemler öznitelik çıkarıcı ağın kalitesine, sorgunun yapıldığı görüntü veri tabanındaki görüntülerin zorluğuna bağlı olarak elde edilen komşuların aslında gerçekten komşu olmadığı durumlarda yetersiz kalmıştır. Komşu olmayan vektörlerin genişleştilmiş vektöre katılması sistemin performansını düşürmektedir. Ayrıca klasik yöntemlerle yapılan sorgu genişletme işlemlerinin bir diğer yetersiz kaldığı konu da ağırlıkların en yakın komşudan en uzak komşuya doğru azalarak gitmesidir, bunun dışında bir ağırlıklandırmaya izin vermemeleridir. Sorgu genişletme tekniğindeki bu sorunu çözmek adına Gordo ve arkadaşları 2020 yılında“Dikkat-Tabanlı Sorgu Genişletmeyi Öğrenme”adlı çalışmayla birlikte sorgu ve en yakın komşu vektörlerini bir araya getirirken kullanılan ağırlıkların dönüştürücü kodlayıcı model ile birlikte öğrenilmesi amaçlanmıştır. Bu çalışmadaki amaç aslında komşu olmadığı halde yakın öznitelik vektörleri bakımından yakın gözüken vektörlerin genişletilmiş sorgunun oluşturulması sırasında devre dışında bırakılmasdır. Ayrıca önerdikleri bu sistemde en yakın komşulara atanan ağırlıklar azalarak gitmemekte, herhangi bir kısıt bulunmamaktadır. Sınıflandırma probleminde belirsizlik ölçme yöntemi, yani bir yapay sinir ağının daha önce görmediği bir sınıf hakkında bilmiyorum diyebilme özelliği kazandırma özelliği olarak değerlendirilebilir. Standart hata fonksiyonları ile eğitilen yapay sinir ağları bu noktada yetersiz kalacağı için Şensoy ve arkadaşları 2018 yılında Kanıtsal Derin Öğrenme tekniğini önererek yapay sinir ağlarına belirsizlik ölçümünde prensipli bir yöntem kazandırmıştır. Bu teze konu olan çalışmada“Dikkat-Tabanlı Sorgu Genişletmeyi Öğrenme”yöntemi temel alınarak bir sorgu ve onun en yakın komşuları arasındaki belirsizlik faydalanılarak var olan öznitelik vektörlerine en olarak yeni öznitelikler üreten bir model kurulmuştur. Bunu yapmak için öznitelik çıkarıcı ESA alınarak rSfM120k veri kümesindeki tüm görüntülerin öznitelikleri çıkarılmıştır. Daha sonra bu veri kümesindeki sorgu, pozitif ve negatif örnekler demeti kullanılarak,“Belirsizlik Yönlendirmeli Dönüştürücü Kodlayıcı”adı verilen model Kanıtsal Derin Öğrenme yöntemi kullanılarak eğitilmiş ve bu model tarafından çıkarılan yeni öznitelikler var olan öznitelik vektörlerine eklenmiştir. Bu artırılmış öznitelik vektörleri kullanılarak daha sonra“Öğrenilebilen Dikkat Tabanlı Sorgu Genişletme”modeli eğitilmiştir. Uçtan uca eğitilen bu iki modelin birleştirilmesiyle birlikte olan yönteme de“Belirsizlik Yönlendirmeli Sorgu Genişletme”yöntemi ismi verilmiştir. rOxford5k ve rParis6k test veri kümelerinde, öznitelik vektörü çıkaran ESA ve Dönüştürücü Kodlayıcı eğitiminde kullanılan rSfM120k veri kümelerinde yer almayan resimlerden oluşmakta, yapılan deneylerle birlikte klasik yöntemlerden daha iyi sonuç verdiği deneysel olarak gösterilmiştir. Ayrıca yeni öznitelikler eğitilmeden eğitilen“Öğrenilebilen Dikkat Tabanlı Sorgu Genişletme”modeline nazaran, belirsizlik tabanlı yeni özniteliklerin eklendiği artırılmış öznitelik vektörleri ile eğitilen“Öğrenilebilen Dikkat Tabanlı Sorgu Genişletme”modelinin daha iyi sonuç verdiği deneysel olarak ortaya konmuştur. Ayrıca rOxford5k ve rParis6k test görüntü veri kümelerine eklenen 1 milyon dağıtıcı görüntünün eklenmesiyle ve tüm görüntü veri kümesi vektörlerinin yine görüntü veri kümesinde arama yapılarak oluşturulan görüntü kümesi tarafında artırma yöntemiyle yapılan deneylerde de“Belirsizlik Yönlendirmeli Sorgu Genişletme”modelinin üstün olduğu deneysel olarak gösterilmiştir.

Özet (Çeviri)

Image Retrieval is one of the important subproblems in Computer Vision domain. A typical image retrieval pipeline consists of a feature extractor and a search operation in image database with a given similarity measure. With the dominance of deep learning, hand-crafted feature extraction techniques are replaced with Convolutional Neural Network (CNN) based feature extractors. Images are represented with those extracted features. Sometimes, when a query is made in an image database, some of the retrieved images may be irrelevant to the query image. Those images should be eliminated in order to improve the performance of the image retrieval systems. Query expansion is one of the ways to perform that operation. Query expansion can be considered as making a second search after the retrieved images of the first search are aggregated with the query image. The aggregation can be done in several ways such as taking an average or a weighted average. However, classical query expansion techniques have some drawbacks such as indistinctness between relevant and irrelevant neighbors or monotonic weight assignments. Existing approaches in query expansion did not consider reliability of neighbors in selecting and executing the expansion operation. Reliability per se is not straightforward to measure, however, it can be estimated as inversely proportional to the amount of uncertainty inherent in the neighbor selection. With the advent of neural network based function approximators, an uncertainty quantification can be integrated into standard neural networks that adds an ability of saying“I do not know”or“I am not certain”about this outcome. In this thesis we integrate a pair-wise uncertainty quantification into the query expansion process in order to generate new features via a novel Uncertainty Guided Transformer Encoders (UGTE) method. Those newly generated features are concatenated with original features to enrich the overall feature representations. Then those feature representations are fed into the Learnable Attention Based Transformer Encoders (LABTE) to assign weights to neighbors. Our method consists of UGTE and LABTE: first we generate new features with UGTE, then assign new weights to the neighbors with LABTE. Experimental results show that our proposed method increases the performance of the system relative to the baseline method which consists of only the LABTE framework, over standard image retrieval benchmarks. We utilize a CNN feature extractor, which is trained on Google Landmarks dataset. To extract the features of the transformer encoder, the train dataset that is utilized is rSfM120k, while the method is tested with datasets: rOxford5k, rParis6k and 1 M Distractors.

Benzer Tezler