Frequency domain image augmentation for domaingeneralized image classification
Alan genelleştirilmiş görüntü sınıflandırması için frekansalanı görüntü arttırma
- Tez No: 967830
- Danışmanlar: DOÇ. ÖZNUR TAŞTAN OKAN, PROF. ERCHAN APTOULA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 68
Özet
Alan genellemesi (DG), modellerin kaynak alan(lar) üzerinde eğitildikten sonra hiç görmedikleri hedef alanlarda düşük performans sergilemesi nedeniyle bilgisayarla görmede hâlâ önemli bir sorundur. Bu sorunu aşmanın yollarından biri, kaynak alanlardaki veri çeşitliliğini sentetik olarak artıran görüntü artırma yöntemlerini kullanmaktır. Bu tezde, frekans alanı temelli Genlik–Faz Artırımı (Amplitude–Phase Augmentation, APA) adlı yeni bir yöntem önerilmektedir. APA, orijinal faz bilgisini korurken, kaynak görüntülerin genlik bileşenlerini diğer alanlardan elde edilen genliklerle karıştırarak yeni örnekler üretir. Bu sayede semantik içerik bozulmadan çeşitli dokusal ve frekans özellikleri taşıyan, alanlar arası zenginleştirilmiş görüntüler elde edilir ve modeller dağılım değişimlerine karşı daha dayanıklı hâle gelir. APA'yı değerlendirmek için iki yaygın DG benchmark'ı olan PACS ve VLCS üzerinde; ResNet-50, T2T-ViT-14 ve DeiT-Small olmak üzere üç farklı mimari kullanılarak deneyler gerçekleştirildi. Kapsamlı sonuçlar, APA'nın hem veri setlerinde hem de mimariler genelinde genelleme başarısını önemli ölçüde artırdığını gösteriyor. Özellikle, PACS'te güçlü temel yöntemlerle rekabetçi performans elde edilirken, VLCS'de üç mimaride de belirgin bir üstünlük sağlanmıştır. Buna ek olarak, genlik karıştırma stratejisinin model sağlamlığına katkısını değerlendirmek amacıyla ayrıntılı ablasyon çalışmaları yapıldı. Elde edilen bulgular, APA'nın DG görevlerinde alandan bağımsız ve pratik açıdan uygulanabilir bir artırma yöntemi olduğunu ortaya koymaktadır.Kod şu adreste mevcuttur: https://github.com/sina-nuel/APA
Özet (Çeviri)
Domain Shift remains a major challenge in Domain Generalization (DG), where models trained on source domain(s) tend to perform poorly on unseen target domains. One effective approach to address this problem is the use of data augmentation techniques that synthetically enhance domain diversity. In this thesis, I introduce a frequency-domain augmentation method called Amplitude-Phase Augmentation (APA). APA operates by multiplying the amplitude components of source images with those from other domains in the frequency domain, while preserving the original phase information. This controlled mixing leads to the creation of cross-domain images that retain semantic structure but carry varied textural cues, increasing the robustness of models to distributional changes. I evaluate APA on two standard DG benchmarks: PACS and VLCS, using three diverse backbone architectures—ResNet-50, T2T-ViT-14, and DeiT-Small. APA is implemented on top of a standard Empirical Risk Minimization (ERM) framework and is also tested in conjunction with existing DG strategies. Extensive experiments show that APA improves generalization performance across both datasets and three backbones. Notably, APA achieves competitive results compared to strong baselines and recent augmentation-based methods on PACS dataset and superior results on VLCS across all three backbones. In addition to performance evaluations, I conduct detailed ablation studies on the amplitude mixing strategy and its effect on model robustness. These results demonstrate the practical effectiveness and adaptability of APA as a lightweight and domain-agnostic augmentation method for DG tasks. Code available at https://github.com/sina-nuel/APA
Benzer Tezler
- Derin öğrenme tabanlı yöntemler ile GPR görüntülerinde obje tespiti
Object detection in GPR images with deep learning based methods
ORHAN APAYDIN
Yüksek Lisans
Türkçe
2023
Jeofizik Mühendisliğiİstanbul Teknik ÜniversitesiJeofizik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TURGAY İŞSEVEN
- Endüstriyel karo üretiminde kalite kontrol sürecinin yapay görme ve derin öğrenme teknikleri ile dijitalleştirilmesi
Digitalizing the quality control process in industrial tile production with machine vision and deep learning techniques
HÜSEYİN COŞKUN
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNCAY YİĞİT
- Novel fractional order calculus-based audio processing methods and their applications on neural networks for classification and synthesis problems
Kesirli mertebeden kalkülüs temelli yeni ses işleme yöntemleri ve bunların sinir ağları üzerinde sınıflandırma ve sentez problemlerine uygulanması
BİLGİ GÖRKEM YAZGAÇ
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MÜRVET KIRCI
- Sensor-based activity recognition and authentication using deep learning
Derin öğrenme yöntemleri ile sensör tabanlı sistemlerde aktivite ve kimlik tanıma
NİLAY TÜFEK
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE