Geri Dön

Vision transformer network implementation for multi-label image classification

Çoklu etiketli görüntü sınıflandırması için görüntü dönüştürücü ağ uygulaması

  1. Tez No: 895804
  2. Yazar: EMRE AKKAŞ
  3. Danışmanlar: DOÇ. DR. SELDA GÜNEY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 74

Özet

Teknolojideki hızlı gelişmeler ve düşük maliyetli internetin yaygın olarak bulunabilirliği, uzaktan algılama alanında, özellikle yüksek ve çok yüksek çözünürlüklü görüntüler için veri hacminde önemli bir artışa yol açmıştır. Ancak, bu görüntüler daha karmaşık bilgiler içerdiğinden, görüntüleri yalnızca tek bir sahne seviyesindeki etiketle analiz etmek, diğer etiketlerin sağladığı belirgin özellikleri göz ardı etmek uygun değildir. Çok etiketli görüntü sınıflandırma uygulamalarında, sahnede bulunan çeşitli nesneleri veya özellikleri yansıtan birden fazla etiket bir görüntüye atanır. Bu görüntülerin sınıflandırılması, geniş coğrafi alanlarda çevresel değişiklikleri izlemek, afet yönetimi, şehir planlaması, tarım ve ormanlık alanların yönetimi, doğal kaynakların korunması ve askeri istihbarat gibi çeşitli alanlarda kritik önem arz etmektedir. Günümüzde bu tür görüntü sınıflandırma problemlerinde derin öğrenme algoritmaları başta olmak üzere birçok yöntem kullanılmaktadır. Bu tez çalışmasında, AlexNet, VGG16, DenseNet-201, Inception-v3 ve ConvNeXt gibi derin öğrenme yöntemlerinden olan Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) modelleri, ViT, SwinT gibi görsel dönüştürücü modelleri ve hem CNN hem de görsel dönüştürücü ağı içeren MaxViT hibrit modeli, 3000 adet resim ve 17 adet farklı etiket içeren Multi-label AID veri seti için incelenmiş ve değerlendirilmiştir. Bir CNN ve görsel dönüştürücü modelinin güçlü yönlerini birleştiren bir füzyon ağı, CNN modelinin mekansal özellik çıkarma yeteneklerini ve dönüştürücü modelinin küresel bağlam anlama yeteneklerini kullanmak amacıyla oluşturulmuş ve uygulanmıştır. Her model için iki farklı öğrenme oranı düzenleyicisi, OneCycleLR ve ReduceLROnPlateau, ve iki farklı kayıp fonksiyonu, ASL ve BCEWithLogitsLoss, sistematik olarak değerlendirilerek performansa etkileri incelenmiştir. Mevcut literatürde daha önce Multi-label AID veri setine uygulanmamış olan pencere tabanlı MaxViT algoritmasının değerlendirilmesi yapılmıştır. Bu algoritma, bu veri setinde üstün performans sergileyerek mevcut modelleri önemli ölçüde geride bırakmış ve %84.98 mAP elde ederek yeni bir standart belirlemiştir.

Özet (Çeviri)

Swift process in technology and widespread availability of low-cost internet have led to a substantial rise in data volume in remote sensing, especially for high-resolution and very-high resolution images. Still, these images contain more complex information, and it is not appropriate to analyze the images using a solitary scene-level label while ignoring the distinct features provided by other labels in the images. In multi-label image classification applications, multiple labels are assigned to an image, reflecting various objects or features present in the scene. The classification of these images is critically important for monitoring environmental changes over large geographical areas, disaster management, urban planning, agriculture and forestry management, natural resource conservation, and military intelligence. Nowadays, many methods are used in such image classification problems, primarily deep learning algorithms. In this thesis, advanced neural networks are explored and evaluated for Multi-label AID dataset which contains 3000 images and 17 different labels; AlexNet, VGG16, DenseNet-201, Inception-v3 and ConvNeXt as the CNN models, ViT, SwinT as transformer models and MaxViT as the hybrid model that initially contains both CNN and transformer network. A fusion network that combines the strengths of a CNN and transformer model is created and applied to harness the spatial feature extraction capabilities of the CNN model and the global context understanding of the transformer model. Two distinct schedulers, OneCycleLR and ReduceLROnPlaetau, and two different loss functions, ASL and BCEWithLogitsLoss, are employed for each model to systematically evaluate their impact on model performance. The window-based MaxViT algorithm, which has not been previously applied to the Multi-label AID dataset in the current literature, has been evaluated. This algorithm has demonstrated superior performance on this dataset, significantly outperforming existing models and setting a new benchmark with an mAP of 84.98%.

Benzer Tezler

  1. Çok ölçütlü sorun çözümüne yönelik bir bütünleşik karar destek modeli

    Integrated decision aid model for multiattribute problem solving

    YUSUF İLKER TOPÇU

    Doktora

    Türkçe

    Türkçe

    2000

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. FÜSUN ÜLENGİN

  2. Design and Implementation of a Hybrid algorithm for communication network reliability calculation

    Başlık çevirisi yok

    NAZIK KADHIM OBAID AL-JEBUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik Mühendisliğiİstanbul Gelişim Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSARIA KARIM MAHMOOD MAHMOOD

  3. Tasarım odaklı yenilik, sürdürülebilir rekabet avantajı ve değer yaratma: Türkiye konut pazarında girişimcilik örneği olarak foldhome

    Design driven innovation, sustainable competitive advantage and value creation: Foldhome entrepreneurship case from Turkish housing market

    ZEYNEP ERTUĞRAL

    Doktora

    Türkçe

    Türkçe

    2022

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. EMRAH ACAR

  4. Deep transformer-based asset price and direction prediction

    Derı̇n transformatör tabanlı varlık fı̇yatı ve yön tahmı̇nı̇

    ABDUL HALUK BATUR GEZİCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Yapay Zeka Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SEFER

  5. Bankacılıkta değişim yönetimi

    Change management in banking

    AYDIN ARGIN

    Doktora

    Türkçe

    Türkçe

    2000

    BankacılıkMarmara Üniversitesi

    Bankacılık Ana Bilim Dalı

    PROF. DR. NAZIM EKREN