Effect of semi-supervised self-data annotation on video object detection performance

Yarı denetimli veri etiketleme işleminin video nesne tespiti üzerine etkisi

PDF İndir

Tez No: 770228
Yazar: VEFAK MURAT AKMAN
Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
Sayfa Sayısı: 65

Özet

Derin öğrenme algoritmalarının geleneksel makine öğrenmesi yöntemlerinin yerini aldığı bu zamanlarda etiketlenmiş veriye ulaşmak her zamankinden daha önemli olmuştur. Bu yöntemler işlevsel olsalar bile, eğer veri kalitesi düşük ise eğitim performansları yetersiz olabilir. Verilerle ilgili sorunları gidermek için bazı yöntemler geliştirilmiştir. Ancak bu yöntemlerin algoritma karmaşıklığı ve işlem yükü üzerinde olumsuz bir etkisi olabilir. Yanlış sınıflandırma veya hatalı etiketleme gibi insan faktörleriyle ilgili hatalar da dikkate alınmalıdır. Veri etiketleme süreci, derin öğrenme modeli mimarisine göre veri toplama, etiketleme ve biçimlendirme gibi adımlardan oluşur. Maalesef, bu adımlar hala tam olarak bir standarda oturtulmamıştır ve tüm süreç birçok zorluğu beraberinde getirmektedir. Bu çalışmada, Soft Teacher algoritması kullanılarak yarı denetimli veri etiketlemenin video nesne algılama üzerine etkisi analiz edilmiştir. Soft Teacher, sınırlı verilerin üstesinden gelmede büyük bir avantaja sahip olan Swin-Transformer destekli yarı denetimli bir öğrenme yöntemidir. Görüntü parçalarını daha derin katmanlarda birleştirerek hiyerarşik özellik haritaları oluşturur ve girdi görüntü boyutu için doğrusal hesaplama kabiliyetine sahiptir. Bu nedenle, nesne sınıflandırması veya nesne tespiti gibi görevler için genel amaçlı bir temel olarak kullanılabilir. Soft Teacher algoritmasında iki asıl model vardır; Student model ve Teacher model. Teacher modeli, az değiştirilmiş ve etiketlenmemiş görüntüler üzerinde sahte etiketleme gerçekleştirir ve Student modeli, Teacher modeli ile güncellenirken hem etiketli veri ile hem de çok değiştirilmiş etiketsiz görüntüler ile eğitilir. Soft Teacher modeli toplamda 80 adet sınıf içeren bir açık kaynak olan COCO veri kümesi ile eğitilmiştir. Bu veri kümesi 118287 eğitim, 123403 etiketsiz ve 5000 adet test görüntüsü içermektedir. Bu model sırasıyla yüzde 1, 5, 10 ve 100 etiketli veri ile eğitilmiştir. Daha sonra, bu eğitilmiş Soft Teacher modelleri kullanılarak, aynı etiketsiz verilerden yeni veriler oluşturulmuştur ve bazı nesne algılama algoritmaları yeni etiketlenmiş verilerle eğitilmiştir. Sonuçları karşılaştırmak için bu nesne algılama modelleri ayrıca insan tarafından oluşturulan verilerle eğitilmiştir. İnsan verileriyle eğitilen modelin mAP'ler açısından diğerine göre daha az başarılı olduğu görülmüştür. Bununla birlikte, model ile oluşturulan verilerle eğitilen model, daha fazla yanlış pozitif üretmiştir. Çünkü eğitilmiş model yeni veri üretirken yanlış etiketleme yapabilir. Sonuç olarak, yarı-denetimli veri açıklamalarının, büyük miktarlarda eğitim süresi tasarrufu sağladığı görülmüştür ama algılama performansını düşürdüğü gözlemlenmiştir.

Özet (Çeviri)

Access to annotated data is more crucial than ever when deep learning frameworks replace traditional machine learning methodologies. Even if the method is robust, training performance can be inadequate if the data has poor quality. Some methods were developed to address data-related issues. These methods, however, have a negative impact on algorithm complexity and processing cost. Errors related to human factors, such as misclassification or inaccurate labeling, should also be considered. Multiple steps in the data annotation process cost time and money. These steps can be listed as follows. Data gathering, annotation and formatting according to deep learning model architecture. Unfortunately, these steps are still not fully set to a standard and the whole process comes with a lot of difficulties. In this study, the effect of semi-supervised data annotation on video object detection is analysed by using the Soft Teacher algorithm. Soft Teacher is a Swin-Transformer backboned semi-supervised learning method which has a major advantage on overcoming limited data. Swin Transformer is a type of vision transformer. It creates hierarchical feature maps by merging image patches in deeper layers and has linear computation complexity to input image size. As a such, it can be used as a general-purpose backbone for tasks like classification and object detection. In Soft Teacher, there are two types of models; the Student model and the Teacher model. The Teacher model performs pseudo-labeling on weak augmented unlabeled images and the Student model is trained on both labelled and strong augmented unlabeled images while updating the Teacher model. Soft Teacher model was trained with open-source COCO data set that consists of 80 labels. The data set contains 118287 train, 123403 unlabeled and 5000 validation images, was created by the human. The Soft Teacher was trained with percent of 1, 5, 10 and 100 labelled data respectively. Then, using those trained Soft Teacher models, new data was created from the same raw data and some of the state-of-the-art object detection algorithms were trained with newly annotated data. To compare results, these object detection models were also trained with manual annotated data. The model trained with human data was shown to be less successful than the other in terms of mAPs. However, the model that was trained with self annotated data produced more false positives. Because, the trained model can perform mislabeling when generating new data. In conclusion, the results suggest that semi-supervised data annotation degrades the detection performance in expense of huge amounts of training time savings.

Benzer Tezler

Tez No
588113
Hiperspektral görüntülerde yarı güdümlü öğrenme teknikleri
Semi supervised learning techniques on hyperspectral images
MUHAMMET SAİD AYDEMİR
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN BİLGİN
Tez No
957966
Alternatif dil öğretim yöntemlerinin Arapça okuma-anlama becerisi öz yeterlik algısına etkisi
The effect of alternative language teaching methods on self-efficacy perception of Arabic reading-comprehension skills
SARA AKKUŞ
Doktora
Türkçe
2025
Eğitim ve Öğretim İstanbul Üniversitesi
Arap Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. ÖMER İSHAKOĞLU
Tez No
71788
Dünya reasürans piyasalarındaki gelişmeler ve Türkiye'de reasürans tekeli uygulaması
Başlık çevirisi yok
BELKIS AKALIN
Yüksek Lisans
Türkçe
1998
Sigortacılık Marmara Üniversitesi
Sigortacılık Ana Bilim Dalı
YRD. DOÇ. DR. ŞEVKİ KAYLAV
Tez No
843662
Yari denetimli öğrenme ve füzyon teknikleri ile zayif etiketli veri kümelerinde ses olayi sezimi
Sound event detection on weakly labeled datasets with semi-supervised learning and fusion techniques
YEŞİM AKAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Başkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA SERT
Tez No
929068
Yapay zekâ ve seçkin öğrenciler arasında dilsel yaratıcılığın gelişimi üzerindeki etkisi
Artificial intelligence and its impact on the development of linguistic creativity among elite students
İBRAHİM ZAKİ MOHAMED AHMED HAMDTO
Yüksek Lisans
Türkçe
2025
Bingöl Üniversitesi
Felsefe Ana Bilim Dalı
DOÇ. DR. ABDURRAZAK GÜLTEKİN

Geri Dön