Detection of clean samples in noisy labelled datasets via analysis of artificially corrupted samples

Sanal olarak kirletilmiş örneklemlerin analizi aracılığıyla gürültülü etiketlenmiş veri setlerinde temiz örneklem tespiti

PDF İndir

Tez No: 761713
Yazar: BOTAN YILDIRIM
Danışmanlar: PROF. DR. İLKAY ULUSOY
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 95

Özet

Güdümlü derin öğrenme metodlarındaki son gelişmeler görüntü sınıflandırmada büyük başarılar sergilemiştir fakat bu methodlar başarılarını çok miktarda güvenilir etiketli veriye borçludur. Ancak büyük boyutlu veri setleri oluşturmak, kaçınılamaz olarak değişken seviyelerde gürültülü etiketlerle sonuçlanmaktadır ve bu durum, güdümlü derin öğrenme tabanlı sınıflandırıcıların performansını bozmaktadır. Bu tezde, etiket gürültüsüne karşı gürbüz olan, örneklem seçme tabanlı yöntemler kapsamlı deneysel değerlendirmeler sağlanarak analiz edilmiştir. İlk olarak, gürültülü örneklemleri ezberlemenin kötü yanları temel bir methodun sonuçlarına bakılarak incelenmiştir. İkinci olarak, gürültü bilgisinden faydalanan yöntemler için gürültü seviyesini bilmenin önemi analiz edilmiştir. Üçüncü olarak, yakın geçmişte önerilen, yarı güdümlü yapay öğrenme tabanlı ve gürbüz yöntemlerin güdümlü olanlara üstünlüğü kanıtlanmıştır. Ekstradan, yapay bir şekilde kirletilen kontrollü veri setleri, gürültü seviyesinin eğitim performansı üzerindeki etkisini göstermek için kullanılmışltır. Son olarak, örneklemleri temiz ya da gürültülü diye sınıflandırmak için eğitim kayıp değerlerini inceleyen yeni bir yapı önerilmiştir. Temiz örneklem tespiti esnasında aşırı derecede hassas ayarlanmış paremetreleri önlemek amacıyla önerilen yöntem, gürültülü veri setini sanal bir şekilde ekstradan kirletmekte ve bu yeni, sanal gürültülü örneklemleri temiz/gürültülü oylama işlemi esnasında kullanmaktadır. Ekstradan, son zamanlarda önerilen, yarı güdümlü derin öğrenme tabanlı ve etiket gürültüsüne gürbüz yöntemlere benzer bir şekilde, önerdiğimiz yöntem, örneklemlerin temiz-gürültülü sınıflandırmasından sonra yarı güdümlü ve karşılaştırmalı öğrenmeden faydalanmaktadır. Ayrıca, eş eğitim yaklaşımının yarı güdümlü eğitim esnasındaki etkisi incelenmiş ve yararlılığı kanıtlanmıştır.

Özet (Çeviri)

Recent advances in supervised deep learning methods have shown great successes in image classification but these methods are known to owe their success to massive amount of data with reliable labels. However, constructing large-scale datasets inevitably results with varying levels of label noise which degrades performance of the supervised deep learning based classifiers. In this thesis, we make an analysis of sample selection based label noise robust approaches by providing extensive experimental evaluation. First, adverse effects of memorization of the noisy samples are investigated over results of a base model. Second, importance of knowledge of noise rate is analyzed for approaches utilizing a prior about noise rate. Third, superiority of recent semi-supervised based robust approaches over supervised ones is proved. Additionally, synthetically corrupted controlled datasets are used to show effects of the noise rate over training performance. Finally, a new framework is proposed to classify samples as clean or noisy by investigating train loss dynamics. To avoid heavily tuned parameters during clean sample detection, proposed framework artificially corrupts a noisy dataset and utilizes these artificially corrupted samples in a clean/noisy voting process. Moreover, following recent semi-supervised learning based label noise robust methods, framework applies semi-supervised and contrastive learning after classification of samples as clean-noisy. Also, effect of the co-training approach during semi-supervised learning is investigated and its effectiveness is proved.

Benzer Tezler

Tez No
947702
Robust keyword spotting in noisy environments based on deep learning
Derin öğrenmeye dayalı gürültülü ortamlarda dayanıklı anahtar kelı̇me tespı̇tı̇
FATİH MERCAN
Yüksek Lisans
İngilizce
2025
Elektrik ve Elektronik Mühendisliği Başkent Üniversitesi
Elektrik-Elektronik Eğitimi Ana Bilim Dalı
PROF. DR. HAMİT ERDEM
Tez No
834363
Auditory detection of clips failures in manufacturing
Üretimde klips hatalarının ses tabanlı tespiti
SABRİ SÜER
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN İNCE
Tez No
387574
Microcantilever based lab-on-a-chip sensor for real-time mass, viscosity, density and coagulation measurements
Gerçek zamanlı kütle, özkütle, viskozite ve pıhtılaşma ölçümleri için mikroçubuk tabanlı mikroakışkan algılayıcılar
ONUR ÇAKMAK
Doktora
İngilizce
2015
Makine Mühendisliği Koç Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN ÜREY
Tez No
828468
Adversarial robustness against perceptual and unpredictable attacks in deep neural networks in images
Görüntülerdeki derin sinir ağlarında algılanabilir ve öngörülmeyen saldırılara karşı adversarıal sağlamlık
MAHMOOD FALAH KADHIM AL-SAEDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Altınbaş Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AYÇA KURNAZ TÜRKBEN
Tez No
505160
Infrastructure independent pedestrian localization using dead reckoning and particle filter
Parakete seyri hesabı ve parçacık filtresi ile altyapısız yaya konum belirleme
MEHMET ENES CAVLI
Yüksek Lisans
İngilizce
2018
Mekatronik Mühendisliği İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN TEMELTAŞ

Geri Dön