Improving image captioning with language modeling regularizations
Tanım oluşturma modelini dil modellemedeki başarım iyileştirme teknikleri ile geliştirmek
- Tez No: 603698
- Danışmanlar: PROF. DR. EMİN ANARIM, DR. CEYHUN BURAK AKGÜL
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 115
Özet
Dil modelleme konusundaki son çalışmalardan esinlenerek, bir takım başarım iyileştirme tekniğinin tekrarlayan bir sinir ağına dayalı bir tanım oluşturma modelinin performansı üzerindeki etkilerini araştırdık. Bu teknikleri kullanarak, hiçbir iyileştirme tekniği kullanmamaya oranla performansımızda 13 Bleu-4 puan iyileştirdik. Modelimizde hata-değerlendirme uyumsuzluğu olmadığını MSCOCO veri setinde deneyler yaparak gösterdik. Ayrıca, model performansının veri kümesin özelliklerine bağladığını gösterdik. Ek olarak, tanım oluşturma modelimizi temel alarak insan-bilgisayar hibrid tanım oluşturma modeli ve tek seferde nesne tanıma modeli isimlerinde iki farklı uygulama geliştirdik. İlk uygulama ile en iyi modelimizin CIDEr puanını bir görüntünün referans cümlesinin yalnızca ilk iki kelimesini kullanarak 30 puan arttırdık. İkinci uygulamamızda, tanım oluşturma modelimizi bir resimdeki nesnelerin konumlarını bulamadan sınıflandıran bir nesne dedektörü olarak eğittik. Bu dedektörün temel avantajı, eğitim aşaması sırasında nesne konumlarını gerektirmemesidir.
Özet (Çeviri)
Inspired by the recent work in language modeling, we investigate the effects of a set of regularization techniques on the performance of a recurrent neural network based image captioning model. Using these techniques, we achieve 13 Bleu-4 points improvements over using no regularizations. We show that our model does not suffer from loss-evaluation mismatch and also connect the model performance to dataset properties by running experiments on MSCOCO dataset. Further, we propose two different applications for our image captioning model, namely human in the loop system and zero shot object detection. The former application further improves CIDEr score of our best model by 30 points using only the first two tokens of a reference sentence of an image. In the latter one, we train our image captioning model as an object detector which classifies each objects in an image without finding their location. The main advantage of this detector is that it does not require object locations during the training phase.
Benzer Tezler
- Tıbbi görüntülerde otomatik alt yazı üretimi
Automatic caption generation in medical images
SEVDENUR KÜTÜK
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
DR. ÖĞR. ÜYESİ DUYGU SARIKAYA
- Exploring the capabilities of large language models in visual question answering: A new approach using question-driven image captions as prompts
Büyük dil modellerinin görsel soru yanıtlama yeteneklerinin keşfedilmesi: Soru odaklı görüntü altyazılarını istem olarak kullanan yeni bir yaklaşım
ÖVGÜ ÖZDEMİR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiModelleme ve Simülasyon Ana Bilim Dalı
DOÇ. DR. ERDEM AKAGÜNDÜZ
- Automated captioning of image and audio for visually and hearing impaired
Görme ve işitme engelliler için otomatik görüntü ve ses altyazılama
ÖZKAN ÇAYLI
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİzmir Katip Çelebi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. VOLKAN KILIÇ
DOÇ. DR. AYTUĞ ONAN
- Revisiting image captioning structures based on CNN and RNN, and improving the performance using modified decoders with residual connections
Evrişimli sinir ağı ve tekrarlayan sinir ağı tabanlı tanım oluşturma yapılarını yeniden değerlendirmek ve artık bağlantıları olan kod çözücüler kullanarak performansı artırmak
SİNAN SARAÇOĞLU
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. EMİN ANARIM
- Grafik donanımı aracılığıyla görüntü eşlemenin hızlandırılması
Improving image registration using graphical hardware
UTKU YAMAN
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
YRD. DOÇ. DR. CENGİZ GÜNGÖR