Geri Dön

Improving image captioning with language modeling regularizations

Tanım oluşturma modelini dil modellemedeki başarım iyileştirme teknikleri ile geliştirmek

  1. Tez No: 603698
  2. Yazar: OKAN ULUSOY
  3. Danışmanlar: PROF. DR. EMİN ANARIM, DR. CEYHUN BURAK AKGÜL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 115

Özet

Dil modelleme konusundaki son çalışmalardan esinlenerek, bir takım başarım iyileştirme tekniğinin tekrarlayan bir sinir ağına dayalı bir tanım oluşturma modelinin performansı üzerindeki etkilerini araştırdık. Bu teknikleri kullanarak, hiçbir iyileştirme tekniği kullanmamaya oranla performansımızda 13 Bleu-4 puan iyileştirdik. Modelimizde hata-değerlendirme uyumsuzluğu olmadığını MSCOCO veri setinde deneyler yaparak gösterdik. Ayrıca, model performansının veri kümesin özelliklerine bağladığını gösterdik. Ek olarak, tanım oluşturma modelimizi temel alarak insan-bilgisayar hibrid tanım oluşturma modeli ve tek seferde nesne tanıma modeli isimlerinde iki farklı uygulama geliştirdik. İlk uygulama ile en iyi modelimizin CIDEr puanını bir görüntünün referans cümlesinin yalnızca ilk iki kelimesini kullanarak 30 puan arttırdık. İkinci uygulamamızda, tanım oluşturma modelimizi bir resimdeki nesnelerin konumlarını bulamadan sınıflandıran bir nesne dedektörü olarak eğittik. Bu dedektörün temel avantajı, eğitim aşaması sırasında nesne konumlarını gerektirmemesidir.

Özet (Çeviri)

Inspired by the recent work in language modeling, we investigate the effects of a set of regularization techniques on the performance of a recurrent neural network based image captioning model. Using these techniques, we achieve 13 Bleu-4 points improvements over using no regularizations. We show that our model does not suffer from loss-evaluation mismatch and also connect the model performance to dataset properties by running experiments on MSCOCO dataset. Further, we propose two different applications for our image captioning model, namely human in the loop system and zero shot object detection. The former application further improves CIDEr score of our best model by 30 points using only the first two tokens of a reference sentence of an image. In the latter one, we train our image captioning model as an object detector which classifies each objects in an image without finding their location. The main advantage of this detector is that it does not require object locations during the training phase.

Benzer Tezler

  1. Tıbbi görüntülerde otomatik alt yazı üretimi

    Automatic caption generation in medical images

    SEVDENUR KÜTÜK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

    DR. ÖĞR. ÜYESİ DUYGU SARIKAYA

  2. Exploring the capabilities of large language models in visual question answering: A new approach using question-driven image captions as prompts

    Büyük dil modellerinin görsel soru yanıtlama yeteneklerinin keşfedilmesi: Soru odaklı görüntü altyazılarını istem olarak kullanan yeni bir yaklaşım

    ÖVGÜ ÖZDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Modelleme ve Simülasyon Ana Bilim Dalı

    DOÇ. DR. ERDEM AKAGÜNDÜZ

  3. Automated captioning of image and audio for visually and hearing impaired

    Görme ve işitme engelliler için otomatik görüntü ve ses altyazılama

    ÖZKAN ÇAYLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİzmir Katip Çelebi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. VOLKAN KILIÇ

    DOÇ. DR. AYTUĞ ONAN

  4. Revisiting image captioning structures based on CNN and RNN, and improving the performance using modified decoders with residual connections

    Evrişimli sinir ağı ve tekrarlayan sinir ağı tabanlı tanım oluşturma yapılarını yeniden değerlendirmek ve artık bağlantıları olan kod çözücüler kullanarak performansı artırmak

    SİNAN SARAÇOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. EMİN ANARIM

  5. Grafik donanımı aracılığıyla görüntü eşlemenin hızlandırılması

    Improving image registration using graphical hardware

    UTKU YAMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    YRD. DOÇ. DR. CENGİZ GÜNGÖR