Effect of semi-supervised self-data annotation on video object detection performance
Yarı denetimli veri etiketleme işleminin video nesne tespiti üzerine etkisi
- Tez No: 770228
- Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 65
Özet
Derin öğrenme algoritmalarının geleneksel makine öğrenmesi yöntemlerinin yerini aldığı bu zamanlarda etiketlenmiş veriye ulaşmak her zamankinden daha önemli olmuştur. Bu yöntemler işlevsel olsalar bile, eğer veri kalitesi düşük ise eğitim performansları yetersiz olabilir. Verilerle ilgili sorunları gidermek için bazı yöntemler geliştirilmiştir. Ancak bu yöntemlerin algoritma karmaşıklığı ve işlem yükü üzerinde olumsuz bir etkisi olabilir. Yanlış sınıflandırma veya hatalı etiketleme gibi insan faktörleriyle ilgili hatalar da dikkate alınmalıdır. Veri etiketleme süreci, derin öğrenme modeli mimarisine göre veri toplama, etiketleme ve biçimlendirme gibi adımlardan oluşur. Maalesef, bu adımlar hala tam olarak bir standarda oturtulmamıştır ve tüm süreç birçok zorluğu beraberinde getirmektedir. Bu çalışmada, Soft Teacher algoritması kullanılarak yarı denetimli veri etiketlemenin video nesne algılama üzerine etkisi analiz edilmiştir. Soft Teacher, sınırlı verilerin üstesinden gelmede büyük bir avantaja sahip olan Swin-Transformer destekli yarı denetimli bir öğrenme yöntemidir. Görüntü parçalarını daha derin katmanlarda birleştirerek hiyerarşik özellik haritaları oluşturur ve girdi görüntü boyutu için doğrusal hesaplama kabiliyetine sahiptir. Bu nedenle, nesne sınıflandırması veya nesne tespiti gibi görevler için genel amaçlı bir temel olarak kullanılabilir. Soft Teacher algoritmasında iki asıl model vardır; Student model ve Teacher model. Teacher modeli, az değiştirilmiş ve etiketlenmemiş görüntüler üzerinde sahte etiketleme gerçekleştirir ve Student modeli, Teacher modeli ile güncellenirken hem etiketli veri ile hem de çok değiştirilmiş etiketsiz görüntüler ile eğitilir. Soft Teacher modeli toplamda 80 adet sınıf içeren bir açık kaynak olan COCO veri kümesi ile eğitilmiştir. Bu veri kümesi 118287 eğitim, 123403 etiketsiz ve 5000 adet test görüntüsü içermektedir. Bu model sırasıyla yüzde 1, 5, 10 ve 100 etiketli veri ile eğitilmiştir. Daha sonra, bu eğitilmiş Soft Teacher modelleri kullanılarak, aynı etiketsiz verilerden yeni veriler oluşturulmuştur ve bazı nesne algılama algoritmaları yeni etiketlenmiş verilerle eğitilmiştir. Sonuçları karşılaştırmak için bu nesne algılama modelleri ayrıca insan tarafından oluşturulan verilerle eğitilmiştir. İnsan verileriyle eğitilen modelin mAP'ler açısından diğerine göre daha az başarılı olduğu görülmüştür. Bununla birlikte, model ile oluşturulan verilerle eğitilen model, daha fazla yanlış pozitif üretmiştir. Çünkü eğitilmiş model yeni veri üretirken yanlış etiketleme yapabilir. Sonuç olarak, yarı-denetimli veri açıklamalarının, büyük miktarlarda eğitim süresi tasarrufu sağladığı görülmüştür ama algılama performansını düşürdüğü gözlemlenmiştir.
Özet (Çeviri)
Access to annotated data is more crucial than ever when deep learning frameworks replace traditional machine learning methodologies. Even if the method is robust, training performance can be inadequate if the data has poor quality. Some methods were developed to address data-related issues. These methods, however, have a negative impact on algorithm complexity and processing cost. Errors related to human factors, such as misclassification or inaccurate labeling, should also be considered. Multiple steps in the data annotation process cost time and money. These steps can be listed as follows. Data gathering, annotation and formatting according to deep learning model architecture. Unfortunately, these steps are still not fully set to a standard and the whole process comes with a lot of difficulties. In this study, the effect of semi-supervised data annotation on video object detection is analysed by using the Soft Teacher algorithm. Soft Teacher is a Swin-Transformer backboned semi-supervised learning method which has a major advantage on overcoming limited data. Swin Transformer is a type of vision transformer. It creates hierarchical feature maps by merging image patches in deeper layers and has linear computation complexity to input image size. As a such, it can be used as a general-purpose backbone for tasks like classification and object detection. In Soft Teacher, there are two types of models; the Student model and the Teacher model. The Teacher model performs pseudo-labeling on weak augmented unlabeled images and the Student model is trained on both labelled and strong augmented unlabeled images while updating the Teacher model. Soft Teacher model was trained with open-source COCO data set that consists of 80 labels. The data set contains 118287 train, 123403 unlabeled and 5000 validation images, was created by the human. The Soft Teacher was trained with percent of 1, 5, 10 and 100 labelled data respectively. Then, using those trained Soft Teacher models, new data was created from the same raw data and some of the state-of-the-art object detection algorithms were trained with newly annotated data. To compare results, these object detection models were also trained with manual annotated data. The model trained with human data was shown to be less successful than the other in terms of mAPs. However, the model that was trained with self annotated data produced more false positives. Because, the trained model can perform mislabeling when generating new data. In conclusion, the results suggest that semi-supervised data annotation degrades the detection performance in expense of huge amounts of training time savings.
Benzer Tezler
- Hiperspektral görüntülerde yarı güdümlü öğrenme teknikleri
Semi supervised learning techniques on hyperspectral images
MUHAMMET SAİD AYDEMİR
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN BİLGİN
- Dünya reasürans piyasalarındaki gelişmeler ve Türkiye'de reasürans tekeli uygulaması
Başlık çevirisi yok
BELKIS AKALIN
Yüksek Lisans
Türkçe
1998
SigortacılıkMarmara ÜniversitesiSigortacılık Ana Bilim Dalı
YRD. DOÇ. DR. ŞEVKİ KAYLAV
- Yari denetimli öğrenme ve füzyon teknikleri ile zayif etiketli veri kümelerinde ses olayi sezimi
Sound event detection on weakly labeled datasets with semi-supervised learning and fusion techniques
YEŞİM AKAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA SERT
- Ortaokul öğretmenlerinin öğretim programına bağlılıklarını yordayan değişkenlerin incelenmesi
An investigation of the variables predicting secondary school teachers' curriculum fidelity
EBRAR ULUDAĞ ÇINAR
Yüksek Lisans
Türkçe
2023
Eğitim ve ÖğretimSivas Cumhuriyet ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. EBRU BOZPOLAT
- Implementation of clinical supervision model in English Language Teachers' professional development: A case study
İngilizce öğretmenlerinin mesleki gelişiminde klinik danışmanlık modelinin uygulanması ve etkilerinin incelenmesi: Bir durum çalışması
MERVENUR AKSOY
Yüksek Lisans
İngilizce
2024
Eğitim ve ÖğretimBursa Uludağ ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. ESİM GÜRSOY