Geri Dön

Synthetic data generation for training and evaluation of deep learning-based computer vision models

Derin öğrenme-bazlı bilgisayarlı göre modellerinin eğitimi ve değerlendirilmesi için sentetik veri üretimi

  1. Tez No: 693816
  2. Yazar: ABDULRAHMAN KERİM
  3. Danışmanlar: YRD. DOÇ. DR. UFUK ÇELİKCAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 78

Özet

Bilgisayarla görme alanında görsel nesne izleme, anlamsal bölümleme, örnek bölümleme ve optik akış tanıma gibi üst düzey görme görevlerinin çözümünde tanık olunan son büyük başarı, büyük ölçüde eğitim için büyük ölçekli veri kümelerinin kullanılabilirliğine bağlıdır. Bu veri kümeleri yeni algoritmaları test edilmesi için kritik önem taşımaktadır. Bununla birlikte, görsel verilere el ile açıklama eklemek yalnızca zaman alan bir işlem değildir, aynı zamanda hatalara da açıktır ve gizlilik sorunlarına tabidir. Bu çalışmada, birçok değişik bilgisayar görme görevi için piksel düzeyinde gerçek değer ek açıklamaları sağlayan, insanlarla dolu 3B sanal dünyalar oluşturmak için genel amaçlı bir çerçeve olan NOVA'yı sunuyoruz. NOVA, hava koşulları veya günün farklı zamanları gibi çevresel faktörleri simüle edebilir ve her biri farklı bir görünüme ve özelliklere sahip, son derece çeşitli ve foto-gerçekçi bir insan grubunu hayata geçirebilir. NOVA'nın yeteneklerini göstermek amacıyla, görsel nesne izleme algoritmalarını eğitmek ve test etmeamaçlı foto-gerçekçi ve çeşitli sentetik diziler oluşturduk. Ana motivasyonumuz, oluşturma motorumuz tarafından üretilen sentetik verilerin gerçek dünyadaki karşılığı için iyi bir alternatif olduğunu ve öğrenmeye dayalı bilgisayarla görme modellerinin performansını artırmak için kullanılabileceğini göstermekti. Özellikle amacımız, oluşturulan verilerimizin hem eğitim hem de bilgisayarla görme modellerinin test edilmesi için kullanılabilirliğini göstermekti. İlk olarak, yaya takibi görevi için iki farklı sentetik veri kümesi oluşturuyoruz. Bu veri kümelerinden ilki, bazı son teknoloji görsel takip cihazlarının çeşitli koşullarda performansını değerlendirmek için kullanılır. Öte yandan, ikincisini, gerçek sekanslardaki performanslarını iyileştirmek için derin görsel izleyicileri eğitmek için kullanıyoruz. Çalışmamız, test edilen izleyicilerin çok kalabalık sahnelerde veya düşük aydınlatma ve sisli hava koşullarında kötü performans gösterdiğini ortaya koyuyor. Ek olarak, deneyler, oluşturduğumuz sentetik dizilerin gerçekten gerçek dizilerin iyi bir vekilini sunduğunu ve standart ve normal koşullar altında derin görsel izleyicilerin performanslarını iyileştirdiğini gösteriyor. Bunu takiben, ortaya çıkan ve kapsamlı deneyler gerektiren temel soru, sentetik verilerimizin gerçek dünyayı tamamlama ve mevcut görsel nesne izleme veri kümelerinin sınırlarını zorlama yeteneğidir. Son izleme algoritmalarının belirli zorlu koşullarda (önceki deneylerimizin ortaya koyduğu gibi) zayıf performansı olduğunu akılda tutarak, bu alanı daha ayrıntılı olarak ele aldık. Mevcut izleyicilerin performansını değerlendirmek için sisli, yağmurlu ve karlı hava koşullarında yakalanan gerçek dünya sekanslarından (PTAW172Real) yeni bir kişi izleme veri kümesi sağladık. Hem korelasyon filtresi tabanlı hem de öğrenme tabanlı olan dikkate alınan izleyiciler, bu olumsuz hava koşulları altında zayıf bir performans gösterdi. Deneysel sonuçlarımız, bu eksikliği mevcut görsel nesne izleme veri kümelerinde yeterli olumsuz hava durumu eğitimi örneğinin olmamasına bağlamaktadır. Sorunu hafifletmek için, sisli, yağmurlu ve karlı hava koşullarını kapsayan daha gerçekçi olumsuz hava koşullarını daha fazla simüle etmek için oluşturma motorumuzu genişlettik. Yağmurlu ve karlı havalarda yayalar, soğuk hava kıyafetleri ile taklit edilir. Kar kümeleri ve su birikintileri sırasıyla kar ve su birikintilerini hesaba katacak şekilde simüle edilmiştir. Ek olarak, gerçek hayattaki videolara uyması için kar parçacıkları ve yağmur damlaları oluşturulur. Buna paralel olarak, arabaların ve yayaların bıraktığı kar izleri simüle edilerek daha fazla gerçekçilik sağlanabilir. Yayalara rastgele şemsiyeler atanır ve uygun animasyon buna göre ayarlanır. Aynı zamanda işlem sonrası efektler ve Enviro sistemi kullanılarak sis simüle edilir. Hava koşullarının her birinin şiddeti, oluşturulan dizilere daha fazla çeşitlilik sağlamak için çalışma zamanında rastgele hale getirilir. Bunu takiben ve simüle edilmiş olumsuz hava koşullarının fotoğraf gerçekçiliğinden ve çeşitliliğinden yararlanarak, aynı olumsuz hava koşullarını kapsayan NOVA çerçevemiz tarafından oluşturulan sentetik dizilerin (PTAW217Synth) izlediği yeni bir kişi veri kümesi sunuyoruz. Sonuçlar, olumsuz hava koşullarında derin izleyicilerin performanslarının, sentetik olarak oluşturulmuş dizilerimiz eğitim için devreye alındığında iyileştirilebileceğini gösterdi.

Özet (Çeviri)

The recent great success witnessed in computer vision field in solving high-level vision tasks such as visual object tracking, semantic segmentation, instance segmentation, and optical flow recognition is predominantly dependent on the availability of large-scale datasets, which are critical for training and testing new algorithms. Manually annotating visual data, however, is not only a time consuming process but also prone to errors and subject to privacy issues. In this work, we present NOVA, a general-purpose framework to create 3D virtual worlds populated with humans that provides pixel-level accurate ground truth annotations for many computer vision tasks. NOVA can simulate several environmental factors such as weather conditions or different times of day, and bring an exceptionally diverse and photo-realistic set of humans to life, each having a distinct appearance and features. To demonstrate NOVA's capabilities, we utilized our framework to generate photo-realistic and diverse synthetic sequences for training and testing visual object tracking algorithms. The main motivation was to show that the generated synthetic data, by our rendering engine, constitute a good proxy of its real-world counterpart and it can be deployed to boost the performance of learning based computer vision models. Particularly, our aim was to demonstrate the usability of our generated data for both training and testing computer vision models. First, we generate two different synthetic datasets for the task of pedestrian tracking. The first of these datasets is utilized to assess the performance of some state-of-the-art visual trackers on various conditions. On the other hand, we employ the second one to train deep visual trackers to improve their performances on real sequences. Our study reveals that the tested trackers perform poorly in highly crowded scenes, or at low illumination and in foggy weather conditions. Additionally, the experiments demonstrate that our generated synthetic sequences indeed present a good proxy of the real sequences and it does improve the performances of deep visual trackers under standard and normal conditions. Following this, the essential question that emerged and required thorough experiments is the capability of our synthetic data to complement the real-world one and push the limits of current available visual object tracking datasets. Bearing in mind the poor performance of the recent tracking algorithms at certain challenging conditions (as revealed by our previous experiments), we considered adverse weather conditions in more details. We provided a new person tracking dataset of real-world sequences (PTAW172Real) captured under foggy, rainy and snowy weather conditions to assess the performance of the current trackers. The considered trackers, both correlation filter -based or learning-based, showed a poor performance under these adverse weather conditions. Our experimental results link this deficiency to the lack of enough adverse weather training samples in the current visual object tracking datasets. To mitigate the problem, we extended our rendering engine to further simulate more realistic adverse weather conditions spanning foggy, rainy and snowy weather conditions. Pedestrians in rainy and snowy weathers are simulated with outdoor cold-weather clothes. Snow banks and water puddles are simulated to account for snow and water accumulations, respectively. Additionally, snow particles and rain drops are generated to match the videos in real life. In parallel to that, snow tracks left by cars and pedestrians are simulated to give more realism. Pedestrians are randomly assigned umbrellas and the suitable animation is set accordingly. At the same time, fog is simulated using post-processing effects and the Enviro system. The severeness of each of the weather conditions is randomized at run time to give more diversity for the generated sequences. Following this and harnessing the photo-realism and diversity of the simulated adverse weather condition, we provide a novel person tracking dataset of synthetic sequences (PTAW217Synth) generated by our NOVA framework spanning the same adverse weather conditions. The results demonstrated that the performances of the deep trackers under adverse weather conditions can be improved when our synthetically generated sequences are deployed for training.

Benzer Tezler

  1. Oyun karakteri üretimi için üretken modeller

    Generative models for game character generation

    FERDA GÜL AYDIN EMEKLİGİL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. İLKAY ÖKSÜZ

  2. Yapay zeka ve mimarlık etkileşimi üzerine bir çalışma:Üretken çekişmeli ağ algoritması ile otonom mimari plan üretimi ve değerlendirmesi

    A study on interaction of artificial intelligence and architecture: Production and evaluation of architectural plans with generative adversarial networks

    CAN UZUN

    Doktora

    Türkçe

    Türkçe

    2020

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. MERYEM BİRGÜL ÇOLAKOĞLU

  3. Mimari tasarımda yapay zekâ yaklaşımı: Makine öğrenmesi ile mekân işlevlerinin tanınması ve üretken çekişmeli ağlarla mimari plan üretimi

    Artificial intelligence approach in architectural design: Recognition of space functions with machine learning and architectural plan generation with generative adversarial networks

    BERFİN YILDIZ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. GÜLEN ÇAĞDAŞ

    DR. ÖĞR. ÜYESİ İBRAHİM ZİNCİR

  4. On real-world face super-resolution and face image synthesis evaluation

    Gerçek dünya yüz süper çözünürlüğü ve yüz görüntüsü sentezi değerlendirmesi üzerine

    ERDİ SARITAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL

  5. Investigation of deep neural models for supervised emotional speech synthesis with limited data

    Sınırlı veri ile denetimli duygusal konuşma sentezi için derin sinir modellerinin incelenmesi

    HUDA MOHAMMED MOHAMMED BARAKAT

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CENK DEMİROĞLU