Optimized deep learning approach for image augmentation and classification using generative adversarial network and vision transformer
Çekişmeli üretici ağ ve görüntü dönüştürücü kullanarak görüntü artırımı ve sınıflandırma içı̇n optı̇mı̇ze edı̇lmı̇ş derı̇n öğrenme yaklaşımı
- Tez No: 961816
- Danışmanlar: DOÇ. DR. KEMAL ADEM
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Sivas Bilim ve Teknoloji Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 144
Özet
Görüntü sınıflandırma görevlerinde, büyük, çeşitli ve dengeli veri kümelerinin eksikliği; derin öğrenme modellerinin etkili ve genelleştirilebilir bir şekilde uygulanmasını önemli ölçüde kısıtlamaktadır. Bu sınırlama, yeterli miktarda etiketli görüntü verisi toplamanın zor olduğu alan-spesifik problemlerde özellikle belirgin hale gelmektedir. Bu çalışmada, Derin Evrişimli Üretken Çelişkili Ağ (Deep Convolutional Generative Adversarial Network, DCGAN) ile sentetik veri üretimi ve Görüntü Dönüştürücü (Vision Transformer, ViT) modelleri kullanılarak geliştirilen bütünleşik bir sınıflandırma yaklaşımı önerilmekte; oluşturulan model, metasezgisel hiperparametre optimizasyonu ile daha da iyileştiren bir yaklaşım önerilmektedir. İlk olarak, DCGAN modeli, sınırlı FSO türbülans veri kümesini çoğaltarak, veri kıtlığı ve dengesizliğiyle ilgili sorunları azaltmak amacıyla, yüksek kaliteli ve çeşitli sentetik görüntüler üretmek üzere optimize edilmiştir. Oluşturulan görüntülerin kalitesi, Başlangıç Puanı (Inception Score, IS) ve Fréchet Başlangıç Mesafesi (Fréchet Inception Distance, FID) ölçümleri kullanılarak değerlendirilmiştir. LeakyReLU aktivasyon fonksiyonu ve Adagrad optimizer kullanılarak oluşturulan model, 1,2342 IS ve 67,7493'lük FID değerleriyle oldukça rekabetçi sonuçlar üretmiştir. Ardından, sınıflandırma işlemi hem transformatör omurgasını hem de CNN sınıflandırma başlığını optimize ederek performansı daha da iyileştirilen bir ViT mimarisi kullanılarak gerçekleştirilmiştir. ViT-HHO, %93,33 ile en yüksek doğruluğa ulaşırken ViT-ABC ise %93,06 doğruluğa ulaşmıştır. Deneysel sonuçlar, önerilen yöntemin, EfficientNetB7, ResNet-50, DenseNet121 ve InceptionV3 dahil olmak üzere ViT yapılandırmalarına ve transfer öğrenme modellerine kıyasla sınıflandırma performansını önemli ölçüde artırdığını göstermektedir. GAN ile artırılmış veri kümeleri üzerinde eğitilen optimize edilmiş ViT modelleri, veri artırma ve optimizasyon stratejisinin etkinliğini doğrulayarak yüksek doğruluk, kesinlik, duyarlılık ve f-skor ölçümleri elde etmiştir. Bu çalışma, uzmanlaşmış bilgisayarlı görme görevlerinde sınırlı veri ve model performansının zorluklarını ele almak için GAN tabanlı veri üretimi ve ViT tabanlı sınıflandırmayı metasezgisel optimizasyonla birleştirmenin potansiyelini vurgulamaktadır.
Özet (Çeviri)
The availability of large, diverse, and balanced datasets often enables the effective applications of deep learning models in image classification tasks. This limitation becomes particularly evident in domain-specific problems where collecting a sufficient amount of labeled image data is challenging. To address this issue, this study proposes an integrated approach that combines synthetic data generation using a Deep Convolutional Generative Adversarial Network (DCGAN) with classification using a Vision Transformer (ViT) model, further enhanced through meta-heuristic hyperparameter optimization. First, the DCGAN model was optimized to generate high-quality and diverse synthetic images, augmenting the limited FSO turbulence dataset and mitigating issues related to data scarcity and imbalance. The quality of the generated images was quantitatively evaluated using Inception Score (IS) and Fréchet Inception Distance (FID) metrics. The Adagrad optimizer combined with the LeakyReLU activation function yielded highly competitive results, achieving an IS value of 1.2342 and the lowest FID value of 67.7493. Next, the classification process was performed by optimizing both the transformer backbone and the CNN-based classification head. Six nature-inspired meta-heuristic algorithms were employed for this purpose. The ViT-HHO and ViT-ABC models achieved the highest overall performance. ViT-HHO attained the highest accuracy of 93.33%. Similarly, ViT-ABC achieved an accuracy of 93.06%. Experimental results demonstrate that the proposed framework significantly enhances classification performance compared to baseline ViT configurations and state-of-the-art transfer learning models, including EfficientNetB7, ResNet-50, DenseNet121, and InceptionV3. The optimized ViT models, trained on GAN-augmented datasets, achieved high accuracy, precision, recall, and F-score metrics, confirming the effectiveness of the integrated data augmentation and optimization strategy. This study highlights the potential of combining GAN-based data generation and ViT-based classification with meta-heuristic optimization to address the dual challenges of limited data and model performance in specialized computer vision tasks.
Benzer Tezler
- Prediction of microsatellite status in colorectal cancer whole slide images using deep neural networks
Derin sinir ağları kullanılarak kolorektal kanser tüm slayt görüntüleri üzerinde mikrosatellit durumu tahmini
FATMA VİLDAN ENGİN
Yüksek Lisans
İngilizce
2025
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
- Diş sağlığı analizi için derin öğrenme yöntemlerin değerlendirilmesi
Evaluation of deep learning methods for dental health analysis
ALI A ABDULRAHMAN ABDULRAHMAN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞAHİN IŞIK
- Derin öğrenme teknikleri kullanılarak cilt lezyonları için çok sınıflı sınıflandırma
Multi-class classification for skin lesions using deep learning techniques
ÜMMÜHAN KOPAL
Yüksek Lisans
Türkçe
2025
Biyomühendislikİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MÜRVET KIRCI
- Detection of cancerous brain cells with machine learning
Makine öğrenimi ile kanserli beyin hücrelerinin tespiti
UYGAR CANKAT
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TANER DANIŞMAN
- Evrişimli sinir ağları ile DNA görüntülerinde hasar tespiti yönteminin geliştirilmesi
Development of a damage detection method in DNA images using convolutional neural networks
ALİ AKTAŞ
Doktora
Türkçe
2025
Mühendislik BilimleriTokat Gaziosmanpaşa ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CENGİZ GÜNGÖR