Frequency domain image augmentation for domaingeneralized image classification

Alan genelleştirilmiş görüntü sınıflandırması için frekansalanı görüntü arttırma

PDF İndir

Tez No: 967830
Yazar: SİNA SALEH
Danışmanlar: DOÇ. ÖZNUR TAŞTAN OKAN, PROF. ERCHAN APTOULA
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 68

Özet

Alan genellemesi (DG), modellerin kaynak alan(lar) üzerinde eğitildikten sonra hiç görmedikleri hedef alanlarda düşük performans sergilemesi nedeniyle bilgisayarla görmede hâlâ önemli bir sorundur. Bu sorunu aşmanın yollarından biri, kaynak alanlardaki veri çeşitliliğini sentetik olarak artıran görüntü artırma yöntemlerini kullanmaktır. Bu tezde, frekans alanı temelli Genlik–Faz Artırımı (Amplitude–Phase Augmentation, APA) adlı yeni bir yöntem önerilmektedir. APA, orijinal faz bilgisini korurken, kaynak görüntülerin genlik bileşenlerini diğer alanlardan elde edilen genliklerle karıştırarak yeni örnekler üretir. Bu sayede semantik içerik bozulmadan çeşitli dokusal ve frekans özellikleri taşıyan, alanlar arası zenginleştirilmiş görüntüler elde edilir ve modeller dağılım değişimlerine karşı daha dayanıklı hâle gelir. APA'yı değerlendirmek için iki yaygın DG benchmark'ı olan PACS ve VLCS üzerinde; ResNet-50, T2T-ViT-14 ve DeiT-Small olmak üzere üç farklı mimari kullanılarak deneyler gerçekleştirildi. Kapsamlı sonuçlar, APA'nın hem veri setlerinde hem de mimariler genelinde genelleme başarısını önemli ölçüde artırdığını gösteriyor. Özellikle, PACS'te güçlü temel yöntemlerle rekabetçi performans elde edilirken, VLCS'de üç mimaride de belirgin bir üstünlük sağlanmıştır. Buna ek olarak, genlik karıştırma stratejisinin model sağlamlığına katkısını değerlendirmek amacıyla ayrıntılı ablasyon çalışmaları yapıldı. Elde edilen bulgular, APA'nın DG görevlerinde alandan bağımsız ve pratik açıdan uygulanabilir bir artırma yöntemi olduğunu ortaya koymaktadır.Kod şu adreste mevcuttur: https://github.com/sina-nuel/APA

Özet (Çeviri)

Domain Shift remains a major challenge in Domain Generalization (DG), where models trained on source domain(s) tend to perform poorly on unseen target domains. One effective approach to address this problem is the use of data augmentation techniques that synthetically enhance domain diversity. In this thesis, I introduce a frequency-domain augmentation method called Amplitude-Phase Augmentation (APA). APA operates by multiplying the amplitude components of source images with those from other domains in the frequency domain, while preserving the original phase information. This controlled mixing leads to the creation of cross-domain images that retain semantic structure but carry varied textural cues, increasing the robustness of models to distributional changes. I evaluate APA on two standard DG benchmarks: PACS and VLCS, using three diverse backbone architectures—ResNet-50, T2T-ViT-14, and DeiT-Small. APA is implemented on top of a standard Empirical Risk Minimization (ERM) framework and is also tested in conjunction with existing DG strategies. Extensive experiments show that APA improves generalization performance across both datasets and three backbones. Notably, APA achieves competitive results compared to strong baselines and recent augmentation-based methods on PACS dataset and superior results on VLCS across all three backbones. In addition to performance evaluations, I conduct detailed ablation studies on the amplitude mixing strategy and its effect on model robustness. These results demonstrate the practical effectiveness and adaptability of APA as a lightweight and domain-agnostic augmentation method for DG tasks. Code available at https://github.com/sina-nuel/APA

Benzer Tezler

Tez No
810499
Derin öğrenme tabanlı yöntemler ile GPR görüntülerinde obje tespiti
Object detection in GPR images with deep learning based methods
ORHAN APAYDIN
Yüksek Lisans
Türkçe
2023
Jeofizik Mühendisliği İstanbul Teknik Üniversitesi
Jeofizik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TURGAY İŞSEVEN
Tez No
743744
Endüstriyel karo üretiminde kalite kontrol sürecinin yapay görme ve derin öğrenme teknikleri ile dijitalleştirilmesi
Digitalizing the quality control process in industrial tile production with machine vision and deep learning techniques
HÜSEYİN COŞKUN
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Süleyman Demirel Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNCAY YİĞİT
Tez No
848329
Novel fractional order calculus-based audio processing methods and their applications on neural networks for classification and synthesis problems
Kesirli mertebeden kalkülüs temelli yeni ses işleme yöntemleri ve bunların sinir ağları üzerinde sınıflandırma ve sentez problemlerine uygulanması
BİLGİ GÖRKEM YAZGAÇ
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MÜRVET KIRCI
Tez No
720406
Synthesization and reconstruction of 3d facesby deep neural networks
Başlık çevirisi yok
BARİS GECER
Doktora
İngilizce
2020
Biyoteknoloji University of London
DR. STEFANOS ZAFEİRİOU
Tez No
558859
Sensor-based activity recognition and authentication using deep learning
Derin öğrenme yöntemleri ile sensör tabanlı sistemlerde aktivite ve kimlik tanıma
NİLAY TÜFEK
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE

Geri Dön