Vision transformer network implementation for multi-label image classification

Çoklu etiketli görüntü sınıflandırması için görüntü dönüştürücü ağ uygulaması

PDF İndir

Tez No: 895804
Yazar: EMRE AKKAŞ
Danışmanlar: DOÇ. DR. SELDA GÜNEY
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Başkent Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
Sayfa Sayısı: 74

Özet

Teknolojideki hızlı gelişmeler ve düşük maliyetli internetin yaygın olarak bulunabilirliği, uzaktan algılama alanında, özellikle yüksek ve çok yüksek çözünürlüklü görüntüler için veri hacminde önemli bir artışa yol açmıştır. Ancak, bu görüntüler daha karmaşık bilgiler içerdiğinden, görüntüleri yalnızca tek bir sahne seviyesindeki etiketle analiz etmek, diğer etiketlerin sağladığı belirgin özellikleri göz ardı etmek uygun değildir. Çok etiketli görüntü sınıflandırma uygulamalarında, sahnede bulunan çeşitli nesneleri veya özellikleri yansıtan birden fazla etiket bir görüntüye atanır. Bu görüntülerin sınıflandırılması, geniş coğrafi alanlarda çevresel değişiklikleri izlemek, afet yönetimi, şehir planlaması, tarım ve ormanlık alanların yönetimi, doğal kaynakların korunması ve askeri istihbarat gibi çeşitli alanlarda kritik önem arz etmektedir. Günümüzde bu tür görüntü sınıflandırma problemlerinde derin öğrenme algoritmaları başta olmak üzere birçok yöntem kullanılmaktadır. Bu tez çalışmasında, AlexNet, VGG16, DenseNet-201, Inception-v3 ve ConvNeXt gibi derin öğrenme yöntemlerinden olan Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) modelleri, ViT, SwinT gibi görsel dönüştürücü modelleri ve hem CNN hem de görsel dönüştürücü ağı içeren MaxViT hibrit modeli, 3000 adet resim ve 17 adet farklı etiket içeren Multi-label AID veri seti için incelenmiş ve değerlendirilmiştir. Bir CNN ve görsel dönüştürücü modelinin güçlü yönlerini birleştiren bir füzyon ağı, CNN modelinin mekansal özellik çıkarma yeteneklerini ve dönüştürücü modelinin küresel bağlam anlama yeteneklerini kullanmak amacıyla oluşturulmuş ve uygulanmıştır. Her model için iki farklı öğrenme oranı düzenleyicisi, OneCycleLR ve ReduceLROnPlateau, ve iki farklı kayıp fonksiyonu, ASL ve BCEWithLogitsLoss, sistematik olarak değerlendirilerek performansa etkileri incelenmiştir. Mevcut literatürde daha önce Multi-label AID veri setine uygulanmamış olan pencere tabanlı MaxViT algoritmasının değerlendirilmesi yapılmıştır. Bu algoritma, bu veri setinde üstün performans sergileyerek mevcut modelleri önemli ölçüde geride bırakmış ve %84.98 mAP elde ederek yeni bir standart belirlemiştir.

Özet (Çeviri)

Swift process in technology and widespread availability of low-cost internet have led to a substantial rise in data volume in remote sensing, especially for high-resolution and very-high resolution images. Still, these images contain more complex information, and it is not appropriate to analyze the images using a solitary scene-level label while ignoring the distinct features provided by other labels in the images. In multi-label image classification applications, multiple labels are assigned to an image, reflecting various objects or features present in the scene. The classification of these images is critically important for monitoring environmental changes over large geographical areas, disaster management, urban planning, agriculture and forestry management, natural resource conservation, and military intelligence. Nowadays, many methods are used in such image classification problems, primarily deep learning algorithms. In this thesis, advanced neural networks are explored and evaluated for Multi-label AID dataset which contains 3000 images and 17 different labels; AlexNet, VGG16, DenseNet-201, Inception-v3 and ConvNeXt as the CNN models, ViT, SwinT as transformer models and MaxViT as the hybrid model that initially contains both CNN and transformer network. A fusion network that combines the strengths of a CNN and transformer model is created and applied to harness the spatial feature extraction capabilities of the CNN model and the global context understanding of the transformer model. Two distinct schedulers, OneCycleLR and ReduceLROnPlaetau, and two different loss functions, ASL and BCEWithLogitsLoss, are employed for each model to systematically evaluate their impact on model performance. The window-based MaxViT algorithm, which has not been previously applied to the Multi-label AID dataset in the current literature, has been evaluated. This algorithm has demonstrated superior performance on this dataset, significantly outperforming existing models and setting a new benchmark with an mAP of 84.98%.

Benzer Tezler

Tez No
100788
Çok ölçütlü sorun çözümüne yönelik bir bütünleşik karar destek modeli
Integrated decision aid model for multiattribute problem solving
YUSUF İLKER TOPÇU
Doktora
Türkçe
2000
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
PROF. DR. FÜSUN ÜLENGİN
Tez No
917469
Advanced waveform designs for 5G and 6G
5G ve 6G için gelişmiş dalga formu tasarımları
EBUBEKİR MEMİŞOĞLU
Doktora
İngilizce
2024
Elektrik ve Elektronik Mühendisliği İstanbul Medipol Üniversitesi
Elektrik-Elektronik Mühendisliği ve Fiber Sistemler Ana Bilim Dalı
PROF. DR. HÜSEYİN ARSLAN
Tez No
691533
Design and Implementation of a Hybrid algorithm for communication network reliability calculation
Başlık çevirisi yok
NAZIK KADHIM OBAID AL-JEBUR
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliği İstanbul Gelişim Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSARIA KARIM MAHMOOD MAHMOOD
Tez No
764557
Tasarım odaklı yenilik, sürdürülebilir rekabet avantajı ve değer yaratma: Türkiye konut pazarında girişimcilik örneği olarak foldhome
Design driven innovation, sustainable competitive advantage and value creation: Foldhome entrepreneurship case from Turkish housing market
ZEYNEP ERTUĞRAL
Doktora
Türkçe
2022
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
DOÇ. DR. EMRAH ACAR
Tez No
858655
Deep transformer-based asset price and direction prediction
Derı̇n transformatör tabanlı varlık fı̇yatı ve yön tahmı̇nı̇
ABDUL HALUK BATUR GEZİCİ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Özyeğin Üniversitesi
Yapay Zeka Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE SEFER

Geri Dön