A distance transform-based loss function for semantic image segmentation with deep neural networks
Mesafe dönüşümü tabanlı yitim fonksiyonu ile derin sinir ağları kullanılarak görüntü bölütleme
- Tez No: 854153
- Danışmanlar: DOÇ. DR. ERCHAN APTOULA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Mekatronik Mühendisliği, Computer Engineering and Computer Science and Control, Science and Technology, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 99
Özet
Son yıllarda, otonom sürüş, uydu görüntüleme ve tıbbi görüntüleme gibi çeşitli alanlarda semantik segmentasyon veri setlerinde büyük bir artış olmuştur. Bu veri setleriyle semantik segmentasyon problemlerini çözmede sayısız ilerleme olmasına rağmen, karmaşık yapıdaki nesnelerin sınırlarının doğru segmentasyonu gibi zorluklar devam etmektedir. Çapraz entropi ve IoU gibi geleneksel yitim fonksiyonları segmentasyon bölgeleri üzerinden integral alınmasına dayanır ve bu senaryolarda genellikle yetersiz kalır. Bu fonksiyonlar nesneleri bölgesel olarak algılarlar, sınırlar ve iç kısımlar gibi tüm nesne konturlarına da eşit önem verirler. Bu yaklaşım, nesne sınırlarındaki segmentasyonun hem daha zorlu hem de daha kritik olduğunu göz ardı eder. Bu tez bu sorunu çözmek için, tahmin edilen sınırlar ve gerçek sınırlar arasındaki hizalamayı artırmak amacıyla tasarlanmış mesafe dönüşüm tabanlı bir yitim fonksiyonu önermektedir. Yaygın olarak kullanılan segmentasyon yitim fonksiyonlarında bu özellik bulunmamaktadır. Önerdiğimiz yitim fonksiyonu, modelden bağımsızdır ve herhangi bir modelinin eğitimine sınır detaylarını geliştirmek için kolayca entegre edilebilir. Yitim fonsiyonumuz, tek sınıflı segmentasyon için CelebAMask-HQ ve çok sınıflı segmentasyon için Cityscapes olmak üzere iki veri seti kullanılarak değerlendirildi. U-Net ve DeepLabv3+ olmak üzere iki model ve ResNet-34, ResNet-50 ve MobileNetV2 olmak üzere üç kodlayıcı kullanılarak, yitim fonksiyonumuzun çeşitli ağ mimarileri arasında adaptasyon yeteneğini ve etkinliğini göstermek için deneyler yapıldı. Cityscapes veri seti için farklı yitim fonksiyonlarının değerlendirmeleri ve karşılaştırmaları sonucunda yitim fonksiyonumuzun sınır IoU (bIoU) açısından U-Net modelleri bazında diğer yaygın olarak kullanılan yitim fonksiyonlarını 0.0561 kadar geride bıraktığını gösterdi. Ayrıca, yitim fonsiyonumuz %2.4 daha az GPU belleği kullanarak üstün performans sergiledi. Bu durum daha büyük sinir ağları ile büyük veri setleri eğitirken önemli bir faktördür.
Özet (Çeviri)
In recent decades, there has been a tremendous enlargement of semantic segmentation datasets across diverse complex domains, including autonomous driving, satellite imaging, and medical imaging. Despite numerous advancements in solving complex semantic segmentation problems with these datasets, certain challenges, such as the precise segmentation of object boundaries in complexly structured objects, persist. Traditional loss functions like Cross-Entropy and Intersection over Union (IoU), which are typically based on integrals over segmentation regions, often fall short in these scenarios. These functions perceive objects regionally rather than contour-based, assigning equal importance to all object contours such as boundaries and inner parts. This approach overlooks the fact that segmentation at object boundaries is both more challenging and more critical. To address this, this thesis introduces a distance transform-based loss function, specifically designed to enhance the alignment between predicted and ground-truth boundaries during training, a feature not explicitly enforced in commonly used image segmentation losses. This proposed loss function is model-agnostic and can be integrated into the training of any segmentation models to enhance boundary details. Our loss was evaluated using two segmentation datasets: CelebAMask-HQ for single-class, and Cityscapes for multi-class segmentation. Experiments were conducted using two models, U-Net and DeepLabv3+, and three encoders, ResNet-34, ResNet-50, and MobileNetV2, to demonstrate the adaptability and effectiveness of our loss across various network architectures. Our evaluations and comparisons of different loss functions revealed that our loss surpassed other commonly used loss functions by 0.0561 for the Cityscapes dataset with U-Net models in terms of boundary IoU, a metric specifically designed to assess the boundary quality of objects in images. Furthermore, our loss demonstrated superior performance by using 2.4% less GPU memory, a significant factor when training larger neural networks with big datasets.
Benzer Tezler
- Exploring dense depth predictions as a supervision source for human pose and shape estimation
Yoğun derinlik tahminlerinin insan poz ve şekil tahmini için bir denetim kaynağı olarak incelemesi
BATUHAN KARAGÖZ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE AKBAŞ
- Parmakizi görüntülerinin model tabanlı yaklaşımla sıkıştırılması
Başlık çevirisi yok
İLKER ERSOY
Yüksek Lisans
Türkçe
1996
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ.DR. GÖKMEN MUHİTTİN
- Marmara Bölgesi'nde soğurulma yapısının incelenmesi
Investigation of attenuation structure in the Marmara region
AYŞE KAŞLILAR ÖZCAN
- Fraktal geometri ve hidrolik pürüzlülük
The Fractal geometry and the hydraulic roughness
SAİT ALANSATAN