Geri Dön

Evrişimli ve yinelemeli sinir ağları ile görüntülere başlık atama

Image captioning with convolutional and recurrent neural networks

  1. Tez No: 659931
  2. Yazar: TUNAHAN KUNT
  3. Danışmanlar: PROF. DR. NECAATTİN BARIŞÇI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 103

Özet

Görüntülere başlık atama, insan yardımı olmaksızın bilgisayar tarafından görüntü içeriğini betimleyen cümle kurma olarak tanımlanabilir. Görüntülere başlık atama problemi ile sadece görüntüdeki objeleri anlamak değil aynı zamanda objelerin birbiri ile ilişkilerini anlayarak bunları bir cümle haline getirmek amaçlanmıştır. Bu bağlamda görüntülere başlık atama problemi, bilgisayarla görü ve doğal dil işleme alanlarının kesişiminde bulunur ve her iki alanın da zorluklarını bünyesinde barındırır. Karşılaşılan zorlukları çözmek adına farklı mimarilere sahip çalışmalar ortaya konulmuştur. Fakat literatürdeki çalışmaların birçoğu Cermen dil ailesine mensup dillerde özellikle İngilizce dilinde yoğunlaşmıştır. Kendi ana dilimiz olan Türkçe dilinde ise görüntülere başlık atama alanında yapılan çalışma sayısı oldukça azdır. Bu bağlamda bu tez, Türkçe dilinde görüntülere başlık atama alanında yapılmıştır. Önerilen çalışma kapsamında, Türkçe dilinin sondan eklemeli yapısı gözetilerek işlenen veri kümesi ile halihazırda İngilizce dilinde görüntülere başlık atama problemini çözmek için kullanılan modeller ve bu modeller üzerine yapılan birtakım iyileştirmeler ile oluşturulan yeni modeller eğitilmiştir. Bazı modellerde topluluk öğrenmesinin kullanıldığı, bazı modellerde de dikkat mekanizmasının eklendiği çalışmada evrişimli ve yinelemeli sinir ağlarından oluşan kodlayıcı-kod çözücü mimariye sahip modellerin çıktıları açgözlü arama veya ışın araması yöntemleriyle cümle haline getirilmiştir ve oluşturulan cümleler iki dilli değerlendirme ölçeği yöntemiyle değerlendirilmiştir. Yapılan deneylerin sonucunda en yüksek 0.424 BLEU-1 puanı elde edilmiştir. Elde edilen puan görüntülere başlık atama alanındaki Türkçe veri kümesi ile yapılan araştırmalar arasında en yüksek puan olmuştur.

Özet (Çeviri)

Image captioning can be defined as describing a content of the image without human help. With the image captioning, it is aimed not only to understand the objects in the image, but also to understand the relations between the objects then turn it to the meaningful sentence. In this context, the problem of image captioning is located at the intersection of computer vision and natural language processing and it includes the difficulties of both fields. In order to solve the faced difficulties, different studies have been were put forward with different architectures. However, most of the studies in the literature have concentrated on languages belonging to the Germanic language family, especially in English. In the Turkish language, which is our native language, the number of studies in the image captioning field is very few. In this context, this dissertation conducted in the field of image captioning in Turkish language. Within the scope of the proposed study, models that are currently used to solve the problem of assigning titles to images in English language and new models which created with some improvements made on the previous models have been trained with the dataset processed by considering the agglutinative structure of the Turkish language. In this study, some models have been created by ensemble learning and some models have been created by attention mechanism. All models that are created have encoder-decoder architecture and these models consist of convolutional and recurrent neural networks. The outputs of the models were put into sentences by greedy search or beam search techniques. Finally, created sentences were evaluated with the BLEU score method.As a result of the experiments, the highest BLEU-1 score of 0.42 was obtained. The score obtained was the highest score among the Turkish dataset studies in the field of image captioning.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Superpixel assisted deep neural network for breast tumor segmentation in ultrasound images

    Süperpiksel destekli derin sinir ağı ile meme ultrason görüntülerinde tümör segmentasyonu

    NEFİSE UYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

    ÖĞR. GÖR. MURAT GEZER

  3. Hibrit yapay sinir ağları yöntemleri ile nörögörüntüleme verilerine dayalı otizm tanılama

    Autism diagnosis based on neuroimaging data with hybrid neural network techniques

    EMEL KOÇ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Okan Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SEMİH BİLGEN

  4. Hisse senedi fiyat tahmininde otokodlayıcı ve graf evrişimli ağının uygulanması

    Application of autoencoder and graph convolutional network in stock price prediction

    MAHMUT LUTFULLAH ÖZBİLEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  5. Sağlık uygulamaları için görüntü / video işleme ile sahne sınıflandırması

    Scene classification with image / video processing for healthcare applications

    HASAN ALİ ERİŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUHAMMED ALİ AYDIN

    DR. ÖĞR. ÜYESİ MEHMET ALİ ERTÜRK