Geri Dön

Effect of semi-supervised self-data annotation on video object detection performance

Yarı denetimli veri etiketleme işleminin video nesne tespiti üzerine etkisi

  1. Tez No: 770228
  2. Yazar: VEFAK MURAT AKMAN
  3. Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 65

Özet

Derin öğrenme algoritmalarının geleneksel makine öğrenmesi yöntemlerinin yerini aldığı bu zamanlarda etiketlenmiş veriye ulaşmak her zamankinden daha önemli olmuştur. Bu yöntemler işlevsel olsalar bile, eğer veri kalitesi düşük ise eğitim performansları yetersiz olabilir. Verilerle ilgili sorunları gidermek için bazı yöntemler geliştirilmiştir. Ancak bu yöntemlerin algoritma karmaşıklığı ve işlem yükü üzerinde olumsuz bir etkisi olabilir. Yanlış sınıflandırma veya hatalı etiketleme gibi insan faktörleriyle ilgili hatalar da dikkate alınmalıdır. Veri etiketleme süreci, derin öğrenme modeli mimarisine göre veri toplama, etiketleme ve biçimlendirme gibi adımlardan oluşur. Maalesef, bu adımlar hala tam olarak bir standarda oturtulmamıştır ve tüm süreç birçok zorluğu beraberinde getirmektedir. Bu çalışmada, Soft Teacher algoritması kullanılarak yarı denetimli veri etiketlemenin video nesne algılama üzerine etkisi analiz edilmiştir. Soft Teacher, sınırlı verilerin üstesinden gelmede büyük bir avantaja sahip olan Swin-Transformer destekli yarı denetimli bir öğrenme yöntemidir. Görüntü parçalarını daha derin katmanlarda birleştirerek hiyerarşik özellik haritaları oluşturur ve girdi görüntü boyutu için doğrusal hesaplama kabiliyetine sahiptir. Bu nedenle, nesne sınıflandırması veya nesne tespiti gibi görevler için genel amaçlı bir temel olarak kullanılabilir. Soft Teacher algoritmasında iki asıl model vardır; Student model ve Teacher model. Teacher modeli, az değiştirilmiş ve etiketlenmemiş görüntüler üzerinde sahte etiketleme gerçekleştirir ve Student modeli, Teacher modeli ile güncellenirken hem etiketli veri ile hem de çok değiştirilmiş etiketsiz görüntüler ile eğitilir. Soft Teacher modeli toplamda 80 adet sınıf içeren bir açık kaynak olan COCO veri kümesi ile eğitilmiştir. Bu veri kümesi 118287 eğitim, 123403 etiketsiz ve 5000 adet test görüntüsü içermektedir. Bu model sırasıyla yüzde 1, 5, 10 ve 100 etiketli veri ile eğitilmiştir. Daha sonra, bu eğitilmiş Soft Teacher modelleri kullanılarak, aynı etiketsiz verilerden yeni veriler oluşturulmuştur ve bazı nesne algılama algoritmaları yeni etiketlenmiş verilerle eğitilmiştir. Sonuçları karşılaştırmak için bu nesne algılama modelleri ayrıca insan tarafından oluşturulan verilerle eğitilmiştir. İnsan verileriyle eğitilen modelin mAP'ler açısından diğerine göre daha az başarılı olduğu görülmüştür. Bununla birlikte, model ile oluşturulan verilerle eğitilen model, daha fazla yanlış pozitif üretmiştir. Çünkü eğitilmiş model yeni veri üretirken yanlış etiketleme yapabilir. Sonuç olarak, yarı-denetimli veri açıklamalarının, büyük miktarlarda eğitim süresi tasarrufu sağladığı görülmüştür ama algılama performansını düşürdüğü gözlemlenmiştir.

Özet (Çeviri)

Access to annotated data is more crucial than ever when deep learning frameworks replace traditional machine learning methodologies. Even if the method is robust, training performance can be inadequate if the data has poor quality. Some methods were developed to address data-related issues. These methods, however, have a negative impact on algorithm complexity and processing cost. Errors related to human factors, such as misclassification or inaccurate labeling, should also be considered. Multiple steps in the data annotation process cost time and money. These steps can be listed as follows. Data gathering, annotation and formatting according to deep learning model architecture. Unfortunately, these steps are still not fully set to a standard and the whole process comes with a lot of difficulties. In this study, the effect of semi-supervised data annotation on video object detection is analysed by using the Soft Teacher algorithm. Soft Teacher is a Swin-Transformer backboned semi-supervised learning method which has a major advantage on overcoming limited data. Swin Transformer is a type of vision transformer. It creates hierarchical feature maps by merging image patches in deeper layers and has linear computation complexity to input image size. As a such, it can be used as a general-purpose backbone for tasks like classification and object detection. In Soft Teacher, there are two types of models; the Student model and the Teacher model. The Teacher model performs pseudo-labeling on weak augmented unlabeled images and the Student model is trained on both labelled and strong augmented unlabeled images while updating the Teacher model. Soft Teacher model was trained with open-source COCO data set that consists of 80 labels. The data set contains 118287 train, 123403 unlabeled and 5000 validation images, was created by the human. The Soft Teacher was trained with percent of 1, 5, 10 and 100 labelled data respectively. Then, using those trained Soft Teacher models, new data was created from the same raw data and some of the state-of-the-art object detection algorithms were trained with newly annotated data. To compare results, these object detection models were also trained with manual annotated data. The model trained with human data was shown to be less successful than the other in terms of mAPs. However, the model that was trained with self annotated data produced more false positives. Because, the trained model can perform mislabeling when generating new data. In conclusion, the results suggest that semi-supervised data annotation degrades the detection performance in expense of huge amounts of training time savings.

Benzer Tezler

  1. Hiperspektral görüntülerde yarı güdümlü öğrenme teknikleri

    Semi supervised learning techniques on hyperspectral images

    MUHAMMET SAİD AYDEMİR

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN BİLGİN

  2. Dünya reasürans piyasalarındaki gelişmeler ve Türkiye'de reasürans tekeli uygulaması

    Başlık çevirisi yok

    BELKIS AKALIN

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    SigortacılıkMarmara Üniversitesi

    Sigortacılık Ana Bilim Dalı

    YRD. DOÇ. DR. ŞEVKİ KAYLAV

  3. Yari denetimli öğrenme ve füzyon teknikleri ile zayif etiketli veri kümelerinde ses olayi sezimi

    Sound event detection on weakly labeled datasets with semi-supervised learning and fusion techniques

    YEŞİM AKAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA SERT

  4. Ortaokul öğretmenlerinin öğretim programına bağlılıklarını yordayan değişkenlerin incelenmesi

    An investigation of the variables predicting secondary school teachers' curriculum fidelity

    EBRAR ULUDAĞ ÇINAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimSivas Cumhuriyet Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. EBRU BOZPOLAT

  5. Implementation of clinical supervision model in English Language Teachers' professional development: A case study

    İngilizce öğretmenlerinin mesleki gelişiminde klinik danışmanlık modelinin uygulanması ve etkilerinin incelenmesi: Bir durum çalışması

    MERVENUR AKSOY

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Eğitim ve ÖğretimBursa Uludağ Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    PROF. DR. ESİM GÜRSOY