Geri Dön

Translating images to words: A novel approach for object recognition

Görüntülerden kelimelere çeviri: Nesne tanıma problemine yeni bir yaklaşım

  1. Tez No: 143617
  2. Yazar: PINAR DUYGULU ŞAHİN
  3. Danışmanlar: PROF. DR. FATOŞ YARMAN VURAL, DOÇ. DR. DAVİD FURSYTH
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Nesne tanıma, ilişkilendirme, bilgisayarla çeviri, etiketlenmiş görün tü veri tabanları, EM algoritması, Object Recognition, Correspondence, Machine translation, Annotated Im age Collections, EM algorithm
  7. Yıl: 2003
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 144

Özet

Günümüzde etiketlenmiş görüntü veri tabanlarının artışıyla birlikte, görüntülerin öznitelikleri ve anahtar kelimeler çeşitli amaçlar için birlikte kullanılabilir hale gelmiştir. Bu çalışmada, bölütlenmiş görüntülere kelime j'erleştirme yeni bir nesne tanıma yöntemi olarak önerilmektedir. Bu yöntem, nesne tanıma problemini görüntü bolütlerinin kelimelere çevirisi olarak değerlendirir. İşlem bir dilin başka bir dile çevrilmesine benzerdir ve bir çeşit bilgisayarlı çeviri yöntemi olarak tanımlanabilir. İlk işlem görüntülerin bölütlenmesi ve her bölütten önceden belirlenmiş bir öznitelik vektörünün çıkarılmasıdır. D alia sonra bölütler öznitelik uzayında topaklandırılarak, sonlu sayıda bölüt kategorisi oluşturulur. Bölüt kategorileriyle, kelimeler arasındaki uygunluk ilişkisi“Expectation Maximization (EM)”algoritmasının kullanıldığı bir yöntemle öğrenilir. Bu aşamadan sonra, öğrenilen uygunluk ilişkisi kullanılarak, verilen bir görüntü bölgesine karşı gelen kelime ya da bir görüntünün anahtar kelimeleri tahmin- lenebilir. Bu yöntem bölüt adlandırma, ve otomatik etiketlendirmede kullanılabilir. Yöntem çok sayıda etiketlenmiş görüntü içeren Corel koleksiyonunda uygulandı ve deneylerle yöntemin başarısı değerlendirildi. Önce yöntemin tahminlerindeki doğruluk başarısı, göreceli olarak ufak sayıdaki elle etiketlenmiş görüntüler üzerinde değerlendi-. rüdi. Sonra sistem, görüntülerin etiketleri vekil olarak kullanılarak değerlendirildi. Etiketleme başarısı üç ölçekle değerlendirildi: tahmin ve hedef dağılımları arasındaki Kullback-Leibler uzaksaması, normalize edilmiş sınıflandırma skoru, ve kelime talimin oranı. Sonuçlar, yöntemin bir çok kelimeyi doğru olarak talimin edebildiğini gösterdi. Temel alınabilecek mutlak bir doğrunun yokluğunda, önerilen sistemin başarısı diğer iki yöntemle karşılaştırıldı: ampirik kelime yoğunluğuna dayak önerme, ve bölüt ve kelimelerin birlikte varolma oranları. Sonuçlar önerilen yönte-min kesin olarak diğerlerinden daha iyi başarıya sahip olduğunu göstermekte. Son olarak, temel yöntemin başarısını yükseltebilecek eklemeler tartışıldı.

Özet (Çeviri)

In this thesis, we propose a new approach to the object recognition problem, moti vated by the recent availability of large annotated image collections. This approach considers object recognition as the translation of image regions to words, similar to the translation of text from one language to another. The“lexicon”for the transla tion is learned from large annotated image collections, which consist of images that are associated with text. First, images are segmented into regions, each of which are represented by a pre-specified feature vector: Then the regions (of all the training images) are clustered in the feature space, categorizing the regions into a finite set of blobs. The correspondences between the blobs and the words are learned, using a method based on the Expectation Maximization algorithm. Once learned, these cor respondences can be used to predict words corresponding to particular image regions (region naming), or words associated with whole images (auto-annotation). The method is applied on the Corel data set, a large collection of stock photographs annotated by a set of keywords. A series of experiments are carried out to assess the performance of the method. First, the accuracy of predictions is evaluated on a relatively small number of hand-labeled images. Then the system is evaluated by using annotation performance as a proxy. Annotation performance is evaluated using three measures: Kullback-Leibler divergence between the predicted and target distributions, normalized classification score and word prediction rate. The results indicate that, the method can predict numerous words with high accuracy. Due to the lack of a ground truth, the performance of the proposed sj^stem is compared against two other methods: predictions using empirical word densities and the co-occurrences of blobs and words. The results clearly show that, the proposed method has a better performance than these two methods. Finally, extensions of the basic method to improve the performance of the system are discussed.

Benzer Tezler

  1. Metinden görsele mimaride ekfrasis

    From text to image ekphrasis in architecture

    PELİN MELİSA SOMER

    Doktora

    Türkçe

    Türkçe

    2015

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. ARZU ERDEM

  2. Synthesization and reconstruction of 3d facesby deep neural networks

    Başlık çevirisi yok

    BARİS GECER

    Doktora

    İngilizce

    İngilizce

    2020

    BiyoteknolojiUniversity of London

    DR. STEFANOS ZAFEİRİOU

  3. Âzer-i Nefîsî: Hayatı, eserleri ve bilimsel makalesinin çevirisi

    Azar Nafisi: Her life, works and translation of one of her academic papers

    AYŞE SAYAN ÖZYURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Doğu Dilleri ve EdebiyatıKırıkkale Üniversitesi

    Doğu Dilleri ve Edebiyatları Ana Bilim Dalı

    PROF. DR. YUSUF ÖZ

  4. Encountering a (hi)story through literature and translation: Representation and reception of Hisham Matar and his novels in the country of men and anatomy of a disappearance in Arabic and Anglophone systems

    Edebiyat ve çeviri aracılığıyla bir tarihle/hikâyeyle karşılaşmak: Arap ve Anglofon dizgelerinde Hısham Matar ve romanlarının (Anatomy of a dısappearance ve in the country of men) temsili ve alımlanması

    GHALIA MOHAMMAD OMAR ESHBAHE

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    İngiliz Dili ve Edebiyatıİstanbul Yeni Yüzyıl Üniversitesi

    İngiliz Dili ve Edebiyatı Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BAŞAK ERGİL

  5. Mustafa Necati Sepetçioğlu'nun edebî eserlerinin arketipsel eleştiri yöntemiyle tahlili

    Analysis of Mustafa Necati Sepetçioğlu's literary works using the archetypical criticism method

    SALİHA CÖMERT

    Doktora

    Türkçe

    Türkçe

    2024

    Türk Dili ve EdebiyatıErciyes Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. MÜMTAZ SARIÇİÇEK