Geri Dön

Optimized deep learning approach for image augmentation and classification using generative adversarial network and vision transformer

Çekişmeli üretici ağ ve görüntü dönüştürücü kullanarak görüntü artırımı ve sınıflandırma içı̇n optı̇mı̇ze edı̇lmı̇ş derı̇n öğrenme yaklaşımı

  1. Tez No: 961816
  2. Yazar: EMRE YÜKSEK
  3. Danışmanlar: DOÇ. DR. KEMAL ADEM
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Sivas Bilim ve Teknoloji Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 144

Özet

Görüntü sınıflandırma görevlerinde, büyük, çeşitli ve dengeli veri kümelerinin eksikliği; derin öğrenme modellerinin etkili ve genelleştirilebilir bir şekilde uygulanmasını önemli ölçüde kısıtlamaktadır. Bu sınırlama, yeterli miktarda etiketli görüntü verisi toplamanın zor olduğu alan-spesifik problemlerde özellikle belirgin hale gelmektedir. Bu çalışmada, Derin Evrişimli Üretken Çelişkili Ağ (Deep Convolutional Generative Adversarial Network, DCGAN) ile sentetik veri üretimi ve Görüntü Dönüştürücü (Vision Transformer, ViT) modelleri kullanılarak geliştirilen bütünleşik bir sınıflandırma yaklaşımı önerilmekte; oluşturulan model, metasezgisel hiperparametre optimizasyonu ile daha da iyileştiren bir yaklaşım önerilmektedir. İlk olarak, DCGAN modeli, sınırlı FSO türbülans veri kümesini çoğaltarak, veri kıtlığı ve dengesizliğiyle ilgili sorunları azaltmak amacıyla, yüksek kaliteli ve çeşitli sentetik görüntüler üretmek üzere optimize edilmiştir. Oluşturulan görüntülerin kalitesi, Başlangıç Puanı (Inception Score, IS) ve Fréchet Başlangıç Mesafesi (Fréchet Inception Distance, FID) ölçümleri kullanılarak değerlendirilmiştir. LeakyReLU aktivasyon fonksiyonu ve Adagrad optimizer kullanılarak oluşturulan model, 1,2342 IS ve 67,7493'lük FID değerleriyle oldukça rekabetçi sonuçlar üretmiştir. Ardından, sınıflandırma işlemi hem transformatör omurgasını hem de CNN sınıflandırma başlığını optimize ederek performansı daha da iyileştirilen bir ViT mimarisi kullanılarak gerçekleştirilmiştir. ViT-HHO, %93,33 ile en yüksek doğruluğa ulaşırken ViT-ABC ise %93,06 doğruluğa ulaşmıştır. Deneysel sonuçlar, önerilen yöntemin, EfficientNetB7, ResNet-50, DenseNet121 ve InceptionV3 dahil olmak üzere ViT yapılandırmalarına ve transfer öğrenme modellerine kıyasla sınıflandırma performansını önemli ölçüde artırdığını göstermektedir. GAN ile artırılmış veri kümeleri üzerinde eğitilen optimize edilmiş ViT modelleri, veri artırma ve optimizasyon stratejisinin etkinliğini doğrulayarak yüksek doğruluk, kesinlik, duyarlılık ve f-skor ölçümleri elde etmiştir. Bu çalışma, uzmanlaşmış bilgisayarlı görme görevlerinde sınırlı veri ve model performansının zorluklarını ele almak için GAN tabanlı veri üretimi ve ViT tabanlı sınıflandırmayı metasezgisel optimizasyonla birleştirmenin potansiyelini vurgulamaktadır.

Özet (Çeviri)

The availability of large, diverse, and balanced datasets often enables the effective applications of deep learning models in image classification tasks. This limitation becomes particularly evident in domain-specific problems where collecting a sufficient amount of labeled image data is challenging. To address this issue, this study proposes an integrated approach that combines synthetic data generation using a Deep Convolutional Generative Adversarial Network (DCGAN) with classification using a Vision Transformer (ViT) model, further enhanced through meta-heuristic hyperparameter optimization. First, the DCGAN model was optimized to generate high-quality and diverse synthetic images, augmenting the limited FSO turbulence dataset and mitigating issues related to data scarcity and imbalance. The quality of the generated images was quantitatively evaluated using Inception Score (IS) and Fréchet Inception Distance (FID) metrics. The Adagrad optimizer combined with the LeakyReLU activation function yielded highly competitive results, achieving an IS value of 1.2342 and the lowest FID value of 67.7493. Next, the classification process was performed by optimizing both the transformer backbone and the CNN-based classification head. Six nature-inspired meta-heuristic algorithms were employed for this purpose. The ViT-HHO and ViT-ABC models achieved the highest overall performance. ViT-HHO attained the highest accuracy of 93.33%. Similarly, ViT-ABC achieved an accuracy of 93.06%. Experimental results demonstrate that the proposed framework significantly enhances classification performance compared to baseline ViT configurations and state-of-the-art transfer learning models, including EfficientNetB7, ResNet-50, DenseNet121, and InceptionV3. The optimized ViT models, trained on GAN-augmented datasets, achieved high accuracy, precision, recall, and F-score metrics, confirming the effectiveness of the integrated data augmentation and optimization strategy. This study highlights the potential of combining GAN-based data generation and ViT-based classification with meta-heuristic optimization to address the dual challenges of limited data and model performance in specialized computer vision tasks.

Benzer Tezler

  1. Prediction of microsatellite status in colorectal cancer whole slide images using deep neural networks

    Derin sinir ağları kullanılarak kolorektal kanser tüm slayt görüntüleri üzerinde mikrosatellit durumu tahmini

    FATMA VİLDAN ENGİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

  2. Diş sağlığı analizi için derin öğrenme yöntemlerin değerlendirilmesi

    Evaluation of deep learning methods for dental health analysis

    ALI A ABDULRAHMAN ABDULRAHMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞAHİN IŞIK

  3. Derin öğrenme teknikleri kullanılarak cilt lezyonları için çok sınıflı sınıflandırma

    Multi-class classification for skin lesions using deep learning techniques

    ÜMMÜHAN KOPAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Biyomühendislikİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. MÜRVET KIRCI

  4. Detection of cancerous brain cells with machine learning

    Makine öğrenimi ile kanserli beyin hücrelerinin tespiti

    UYGAR CANKAT

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TANER DANIŞMAN

  5. Evrişimli sinir ağları ile DNA görüntülerinde hasar tespiti yönteminin geliştirilmesi

    Development of a damage detection method in DNA images using convolutional neural networks

    ALİ AKTAŞ

    Doktora

    Türkçe

    Türkçe

    2025

    Mühendislik BilimleriTokat Gaziosmanpaşa Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CENGİZ GÜNGÖR