Geri Dön

Evrişimli sinir ağlarında farklı giriş ve füzyon yöntemleri ile çok modlu görüntü sınıflandırma

Multi-modal image classification with various input and fusion methods in convolutional neural networks

  1. Tez No: 911596
  2. Yazar: FERİT CAN
  3. Danışmanlar: DOÇ. DR. CAN EYÜPOĞLU
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Milli Savunma Üniversitesi
  10. Enstitü: Atatürk Stratejik Araştırmalar ve Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 97

Özet

Bilgisayarlı görme alanında kavramsal temellerinin atıldığı 1960'lı yıllardan bu yana çeşitli çalışmalar yürütülmüştür. Özellikle 2012 yılında Evrişimli Sinir Ağı (Convolutional Neural Network-CNN) mimarisinin ortaya çıkmasıyla hata oranı önemli ölçüde azalmıştır. Bu durum araştırmacıları doğruluk oranını daha da iyileştirmek için farklı CNN mimarileri aramaya yöneltmiştir. CNN'ler, görüntü sınıflandırma ve nesne tespiti görevlerinde önemli başarılar elde etmiştir. CNN modelleri genel olarak tek akıştan oluşur ve aynı anda sadece tek bir görüntü verisini işler. Halbuki bizler, çevremizi algılarken birden fazla duyu organımızdan faydalanırız. Her bir duyu organı çevremiz hakkında bize çeşitli bilgiler sağlar. Verinin yokluğu bile bize tamamlayıcı bilgi sağlayabilmektedir. Buna dayanarak, son zamanlarda birden fazla girdinin aynı anda işlenmesine izin veren çok akışlı (veya çok-modlu) modeller önerilmeye başlanmıştır. Çok modlu CNN mimarileri, girdi olarak görüntü, video veya daha farklı sensör verilerini alıp işleyebilmektedir. Çok-modluluk, aynı nesnenin bazı gizli özniteliklerini çıkarmamıza yardımcı olabilir. Ayrıca, birçok yeni çalışma aynı CNN'nin farklı akışları arasında öznitelik haritalarının paylaşımını incelemektedir. Ancak, çok-modluluk ve buna ilave olarak Öznitelik Haritası Paylaşımının (Feature Map Sharing-FMS) performansa katkısını ortaya koyabilecek sistematik çalışmalar henüz yapılmamıştır. İşlemci gücü ve kullanılabilir veri kümelerinin eksikliği, ilerlemeyi olumsuz etkileyen önemli faktörler arasındadır. Bu tez çalışması kapsamında, çok-modluluk ve FMS'nin nesne sınıflandırma performansını artırmaya yönelik katkıları ayrıntılı olarak incelenmiştir. Bu amaçla, yeni bir veri seti ve FMSNet adını verdiğimiz yeni bir çok-modlu çoklu-öznitelik haritası paylaşımlı CNN modeli geliştirilmiştir. Önerilen model, FMS olmayan muadili DenseNet-201 modelinden %3,06 daha yüksek doğruluk oranı elde etmiş ve popüler tek akışlı CNN modellerinin pek çoğunu geride bırakmıştır. Bu sonuçlar, tez kapsamında önerilen modelin görüntü sınıflandırmada başarılı bir şekilde kullanılabileceğini göstermektedir.

Özet (Çeviri)

Various studies have been conducted in the field of computer vision since the 1960s, when its conceptual foundations were laid. Especially with the emergence of Convolutional Neural Network (CNN) architecture in 2012, the error rate has decreased significantly. This situation has led researchers to search for different CNN architectures in order to further improve the accuracy rate. CNNs have achieved significant success in image classification and object detection tasks. CNN models are usually single-stream and process only one image data at a time. However, we use more than one sensory organ when perceiving our environment. Each sensory organ provides us with various information about our environment. Even the absence of data can provide us with complementary information. Based on this, multi-stream (or multi-modal) models have recently begun to be proposed that allow the processing of more than one input at the same time. Multi-modal CNN architectures can take and process images, videos, or other sensor data as input. Multi-modality may help us extract some hidden features of the same object. Furthermore, several new studies examine sharing feature maps between different streams of the same CNN. However, systematic studies that can adequately demonstrate the contribution of multi-modality and feature map sharing features to performance have not yet been conducted. Processing power and a lack of available datasets are among the important factors that negatively affect progress. In this thesis, the contributions of multi-modality and feature map sharing (FMS) to increase the performance in object classification are examined in detail. For this purpose, a new dataset and a new multi-modal multi-feature map sharing CNN model, which we call FMSNet, are developed. The proposed model achieved a 3.06% higher accuracy rate than its non-FMS counterpart, DenseNet-201, exceeding most of the state-of-the-art single-stream CNN models. These results show that the model proposed within the scope of the thesis can be utilized successfully in image classification.

Benzer Tezler

  1. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. Derin öğrenme ile görüntülerde gürültü giderme

    Image denoising with deep learning

    SERCAN SATICI

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

  4. Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini

    Forecasting the spread of covid-19 using deep learning and big data analytics methods

    CYLAS KIGANDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  5. Derin öğrenme ile cerrahi video anlama

    Surgical video understanding with deep learning

    ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DUYGU SARIKAYA