Optimized deep learning approach for image augmentation and classification using generative adversarial network and vision transformer

Çekişmeli üretici ağ ve görüntü dönüştürücü kullanarak görüntü artırımı ve sınıflandırma içı̇n optı̇mı̇ze edı̇lmı̇ş derı̇n öğrenme yaklaşımı

Tez No: 961816
Yazar: EMRE YÜKSEK
Danışmanlar: DOÇ. DR. KEMAL ADEM
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Sivas Bilim ve Teknoloji Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 144

Özet

Görüntü sınıflandırma görevlerinde, büyük, çeşitli ve dengeli veri kümelerinin eksikliği; derin öğrenme modellerinin etkili ve genelleştirilebilir bir şekilde uygulanmasını önemli ölçüde kısıtlamaktadır. Bu sınırlama, yeterli miktarda etiketli görüntü verisi toplamanın zor olduğu alan-spesifik problemlerde özellikle belirgin hale gelmektedir. Bu çalışmada, Derin Evrişimli Üretken Çelişkili Ağ (Deep Convolutional Generative Adversarial Network, DCGAN) ile sentetik veri üretimi ve Görüntü Dönüştürücü (Vision Transformer, ViT) modelleri kullanılarak geliştirilen bütünleşik bir sınıflandırma yaklaşımı önerilmekte; oluşturulan model, metasezgisel hiperparametre optimizasyonu ile daha da iyileştiren bir yaklaşım önerilmektedir. İlk olarak, DCGAN modeli, sınırlı FSO türbülans veri kümesini çoğaltarak, veri kıtlığı ve dengesizliğiyle ilgili sorunları azaltmak amacıyla, yüksek kaliteli ve çeşitli sentetik görüntüler üretmek üzere optimize edilmiştir. Oluşturulan görüntülerin kalitesi, Başlangıç Puanı (Inception Score, IS) ve Fréchet Başlangıç Mesafesi (Fréchet Inception Distance, FID) ölçümleri kullanılarak değerlendirilmiştir. LeakyReLU aktivasyon fonksiyonu ve Adagrad optimizer kullanılarak oluşturulan model, 1,2342 IS ve 67,7493'lük FID değerleriyle oldukça rekabetçi sonuçlar üretmiştir. Ardından, sınıflandırma işlemi hem transformatör omurgasını hem de CNN sınıflandırma başlığını optimize ederek performansı daha da iyileştirilen bir ViT mimarisi kullanılarak gerçekleştirilmiştir. ViT-HHO, %93,33 ile en yüksek doğruluğa ulaşırken ViT-ABC ise %93,06 doğruluğa ulaşmıştır. Deneysel sonuçlar, önerilen yöntemin, EfficientNetB7, ResNet-50, DenseNet121 ve InceptionV3 dahil olmak üzere ViT yapılandırmalarına ve transfer öğrenme modellerine kıyasla sınıflandırma performansını önemli ölçüde artırdığını göstermektedir. GAN ile artırılmış veri kümeleri üzerinde eğitilen optimize edilmiş ViT modelleri, veri artırma ve optimizasyon stratejisinin etkinliğini doğrulayarak yüksek doğruluk, kesinlik, duyarlılık ve f-skor ölçümleri elde etmiştir. Bu çalışma, uzmanlaşmış bilgisayarlı görme görevlerinde sınırlı veri ve model performansının zorluklarını ele almak için GAN tabanlı veri üretimi ve ViT tabanlı sınıflandırmayı metasezgisel optimizasyonla birleştirmenin potansiyelini vurgulamaktadır.

Özet (Çeviri)

The availability of large, diverse, and balanced datasets often enables the effective applications of deep learning models in image classification tasks. This limitation becomes particularly evident in domain-specific problems where collecting a sufficient amount of labeled image data is challenging. To address this issue, this study proposes an integrated approach that combines synthetic data generation using a Deep Convolutional Generative Adversarial Network (DCGAN) with classification using a Vision Transformer (ViT) model, further enhanced through meta-heuristic hyperparameter optimization. First, the DCGAN model was optimized to generate high-quality and diverse synthetic images, augmenting the limited FSO turbulence dataset and mitigating issues related to data scarcity and imbalance. The quality of the generated images was quantitatively evaluated using Inception Score (IS) and Fréchet Inception Distance (FID) metrics. The Adagrad optimizer combined with the LeakyReLU activation function yielded highly competitive results, achieving an IS value of 1.2342 and the lowest FID value of 67.7493. Next, the classification process was performed by optimizing both the transformer backbone and the CNN-based classification head. Six nature-inspired meta-heuristic algorithms were employed for this purpose. The ViT-HHO and ViT-ABC models achieved the highest overall performance. ViT-HHO attained the highest accuracy of 93.33%. Similarly, ViT-ABC achieved an accuracy of 93.06%. Experimental results demonstrate that the proposed framework significantly enhances classification performance compared to baseline ViT configurations and state-of-the-art transfer learning models, including EfficientNetB7, ResNet-50, DenseNet121, and InceptionV3. The optimized ViT models, trained on GAN-augmented datasets, achieved high accuracy, precision, recall, and F-score metrics, confirming the effectiveness of the integrated data augmentation and optimization strategy. This study highlights the potential of combining GAN-based data generation and ViT-based classification with meta-heuristic optimization to address the dual challenges of limited data and model performance in specialized computer vision tasks.

Benzer Tezler

Tez No
948596
Prediction of microsatellite status in colorectal cancer whole slide images using deep neural networks
Derin sinir ağları kullanılarak kolorektal kanser tüm slayt görüntüleri üzerinde mikrosatellit durumu tahmini
FATMA VİLDAN ENGİN
Yüksek Lisans
İngilizce
2025
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
Tez No
911096
Diş sağlığı analizi için derin öğrenme yöntemlerin değerlendirilmesi
Evaluation of deep learning methods for dental health analysis
ALI A ABDULRAHMAN ABDULRAHMAN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Eskişehir Osmangazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞAHİN IŞIK
Tez No
949334
Derin öğrenme teknikleri kullanılarak cilt lezyonları için çok sınıflı sınıflandırma
Multi-class classification for skin lesions using deep learning techniques
ÜMMÜHAN KOPAL
Yüksek Lisans
Türkçe
2025
Biyomühendislik İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MÜRVET KIRCI
Tez No
875576
Detection of cancerous brain cells with machine learning
Makine öğrenimi ile kanserli beyin hücrelerinin tespiti
UYGAR CANKAT
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Akdeniz Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TANER DANIŞMAN
Tez No
916679
Evrişimli sinir ağları ile DNA görüntülerinde hasar tespiti yönteminin geliştirilmesi
Development of a damage detection method in DNA images using convolutional neural networks
ALİ AKTAŞ
Doktora
Türkçe
2025
Mühendislik Bilimleri Tokat Gaziosmanpaşa Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CENGİZ GÜNGÖR

Geri Dön