Geri Dön

A statistical framework for degraded underwater video generation

Bozulmuş sualtı video üretimi için istatistiksel bir yapı

  1. Tez No: 834354
  2. Yazar: SERKAN ŞATAK
  3. Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, İletişim Bilimleri, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering, Communication Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: İletişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Uydu Haberleşmesi ve Uzaktan Algılama Bilim Dalı
  13. Sayfa Sayısı: 69

Özet

Sualtı ortamında bilgisayarla görme, su yüzeyinin altında karşılaşılan farklı özellikler ve koşullar nedeniyle benzersiz zorluklar sunar. Sualtı ortamları sınırlı görünürlük, renk bozulması, ışığın saçılması ve bulanıklık ve akıntı gibi çeşitli su koşulları ile karakterize edilir. Bu faktörler, karasal görüntüler için tasarlanmış geleneksel bilgisayarla görme algoritmalarının performansını ciddi şekilde etkilemekte ve su altı görüntü ve video analizinde önemli zorluklara yol açmaktadır. Sualtı bilgisayarlı görüş alanındaki başlıca zorluklardan biri, ışığın zayıflamasının neden olduğu görüntü kalitesindeki düşüştür. Işık suda ilerlerken emilir ve saçılır, bu da kontrastın azalmasına, ayrıntıların kaybolmasına ve renk bozulmasına neden olur. Bu etkiler nesne algılama, tanıma ve takip etme görevlerini zorlaştırır. Ayrıca, ışığın saçılması bulanıklığa neden olur ve su altı görüntülerinin keskinliğini azaltarak doğru analizi daha da zorlaştırır. Bir diğer önemli engel de güvenilir derinlik bilgisinin olmamasıdır. Değişken su koşulları ve iyi tanımlanmış görsel ipuçlarının yokluğu nedeniyle su altı sahnelerinde derinliği tahmin etmek karmaşıktır. Bu sınırlama, 3B yeniden yapılandırma, sahneyi anlama ve nesne konumlandırma gibi görevlerde zorluklara yol açmaktadır. Ayrıca, bulanıklık olarak bilinen sudaki partikül madde ve asılı parçacıkların varlığı görüntü kalitesini daha da düşürür ve görünürlüğü etkiler. Işığın bu parçacıklar tarafından saçılması ve emilmesi ek gürültüye neden olur ve etkili görüş aralığını azaltarak nesnelerin arka plandan ayırt edilmesini zorlaştırır. Su akıntıları, dalgalar ve deniz organizmalarının hareketleri de dahil olmak üzere su altı ortamlarının dinamik yapısı, bilgisayarla görme görevlerine daha fazla karmaşıklık katmaktadır. Bu tür ortamlarda nesnelerin izlenmesi ve analiz edilmesi, bu dinamik faktörlerin neden olduğu öngörülemeyen hareket ve tıkanıklığın hesaba katılmasını gerektirir. Sualtı bilgisayarlı görüşünde bu zorlukların üstesinden gelmek, sualtı görüntülerinin benzersiz özelliklerine göre uyarlanmış özel algoritmalar ve teknikler gerektirir. Araştırmacılar, sualtı görüntü iyileştirme, renk düzeltme ve sınırlı görünürlük ve bozulmuş görüntü kalitesinin yarattığı zorlukların üstesinden gelebilecek sağlam nesne algılama ve izleme yöntemlerinin geliştirilmesi gibi yaklaşımları araştırmaktadır. Bu zorlukları ele alarak, sualtı bilgisayarlı görüş alanındaki ilerlemeler sualtı keşifleri, deniz araştırmaları ve sualtı robotik uygulamaları için yeni olanaklar sağlayabilir. Bu çalışmada öncelikli amaç su altında oluşan akıntı ve akıntı dolayısıyla ortaya çıkan ve ilgelenilen nesnelerin tespitini ve takibini zorlaştıran unsurların temizlenmesidir. Bu amaç üzere halihazırda pek çok sayıda olan ve gerçekte yüksek inference zamanı ve yüksek hesaplama maliyeti yüzünden gerçek dünyada kullanılaması pratik olmayan algoritmalara bir yenisini eklemek değil, su altı görü alanında eksik olan temiz-kirli verisetlerine güçlendirme getirebilecek olan temiz görüntüden bozulmuş görüntü üretebilen bir çalışma yöntemidir. Bu doğrultuda oluşturulan bir çalışma yönteminin gerçekten işe yarayıp yaramadığının sağlamasının yapılması gerekliliğinden UTB180\cite{UTB180} verisetinden oluşturulan bozulmuş-temiz görsel çiftleri ile bir görüntü iyileştirme nöral ağının eğitilmesi ve bu eğitilen nöral ağ ile temizlenen gerçek dünya görüntülerinde, su altı objelerinin tespiti ve takibinin ne derece iyileştiğini görme ihtiyacı hasıl olmuştur. Bu bütüncül amaç içerisinde önce Unity'de geliştirilen Brackish Dataset\cite{brackish} baz alınarak gerçek ve yapay kareler arasında senkronizasyonu sağlayan bir yöntem geliştirilmiş, geliştirilen çalışma yöntemi ile bir Sualtı Görüntü İyileştirme veriseti oluşturulmuştur. Bu verisetinin Tansel et al.'daki \cite{Tansel2020} veri setine benzemesi için dikkat dağıtıcı unsurlar çeşitli olasılık dağılım fonksiyonları kullanılarak yönteme eklenmiş, baloncukların ve dikkat dağıtıcı unsurların gerçek veriye uymasına dikkat edilmiştir. Veri seti üretimi her ne kadar bilgisayar grafikleri alanında yapay bir sahne üretimi şeklinde gerçekleşse de sahneye yerleştirilen dikkat dağıtıcı unsurlar ve türbiditenin hem konum hem yoğunluk hem de renk çeşitliliği açısından log-normal, üstel ve düzenli dağılım fonksiyonları gibi çeşitli istatistik modellere dayanması sebebiyle oluşturulan çalışma yöntemi istatistiksel bir yöntem olarak ele alınmaktadır. Bilgisayarla görme ve görüntü işleme üzerine çalışan akademisyenler, su altı nesne algılama, izleme ve tanıma algoritmaları geliştirmek ve karşılaştırmak için bu çalışma yapısından yararlanabilir. Eşleştirilmiş verilerin mevcudiyeti, araştırmacıların su altı ortamları için özel olarak tasarlanmış nesne algılama veya izleme modelleri oluşturmalarını ve değerlendirmelerini sağlar. Bu da sualtı gözetim sistemleri, deniz biyolojisi araştırmaları ve sualtı robotiklerinde ilerlemelere yol açabilir. Ayrıca bu çalışma yapısı, su altı görüntü ve video analizi için derin öğrenme modellerinin geliştirilmesine yardımcı olabilir. Derin öğrenme büyük ölçekli veri kümeleri üzerinde gelişir ve bozulmuş-temiz video çiftlerinin mevcudiyeti, araştırmacıların derin sinir ağlarını özellikle su altı görüntüleri için eğitmelerine olanak tanıyacaktır. Bu da sualtı sahnesini anlama, sınıflandırma ve segmentasyon gibi görevlerde daha iyi performans elde edilmesini sağlayarak sualtı ekosistemlerinin daha iyi anlaşılmasını ve deniz araştırmalarının kolaylaştırılmasını sağlayabilir. Bu çalışma yapısı aynı zamanda kıyaslama ve karşılaştırma amaçları için de değerli bir kaynak olacaktır. Araştırmacılar, oluşturulan bozulmuş-temiz video çiftlerini, farklı algoritmaların ve metodolojilerin performansını değerlendirmek için standartlaştırılmış test verileri olarak kullanabilir. Bu, farklı teknikler arasında adil karşılaştırmaları teşvik eder, tekrarlanabilirliği destekler ve sualtı görüntülerinin restorasyonu ve analizi için son teknoloji çözümlerin geliştirilmesini teşvik eder. Bu doğrultuda çalışma yapısından üretilen veriler bir veri çoğaltma yöntemi olarak görülerek bir görüntü iyileştirme derin nöral ağında test edilmiş ve başarısı kanıtlanmıştır. Özetle, sualtı görüntüleri için bozulmuş-temiz video çiftleri üreten bir çalışma yapısı, sualtı bilgisayarla görme, görüntü işleme ve derin öğrenme alanlarındaki araştırmaların ilerletilmesinde etkili olacaktır. Algoritmaların ve modellerin geliştirilmesini, değerlendirilmesini ve kıyaslanmasını sağlayarak sonuçta görüntü kalitesinin iyileştirilmesine, gelişmiş nesne tespiti ve takibine ve su altı ortamlarının daha derinlemesine anlaşılmasına katkıda bulunacaktır.

Özet (Çeviri)

Computer vision in the underwater medium presents unique challenges due to the distinct properties and conditions encountered beneath the water's surface. Underwater environments are characterized by limited visibility, color distortion, scattering of light, and various water conditions such as turbidity and currents. These factors severely impact the performance of traditional computer vision algorithms designed for terrestrial images, leading to significant difficulties in underwater image and video analysis. One of the primary hardships in underwater computer vision is the degradation of image quality caused by the attenuation of light. As light travels through water, it is absorbed and scattered, resulting in reduced contrast, loss of details, and color distortion. These effects make object detection, recognition, and tracking challenging tasks. Additionally, the scattering of light causes blurring and reduces the sharpness of underwater images, further impeding accurate analysis. Another significant hurdle is the lack of reliable, in-depth information. Estimating depth in underwater scenes is complex due to the varying water conditions and the absence of well-defined visual cues. This limitation poses challenges for tasks such as 3D reconstruction, scene understanding, and object localization. Furthermore, the presence of particulate matter and suspended particles in the water, known as turbidity, further degrades image quality and affects visibility. The scattering and absorption of light by these particles introduce additional noise and reduce the effective range of vision, making it difficult to distinguish objects from the background. The dynamic nature of underwater environments, including water currents, waves, and the movement of marine organisms, adds further complexity to computer vision tasks. Tracking and analyzing objects in such environments requires accounting for the unpredictable motion and occlusion caused by these dynamic factors. Overcoming these hardships in underwater computer vision requires specialized algorithms and techniques tailored to the unique characteristics of underwater imagery. Researchers are exploring approaches such as underwater image enhancement, color correction, and the development of robust object detection and tracking methods that can handle the challenges posed by limited visibility and degraded image quality. By addressing these difficulties, advancements in underwater computer vision can open up new possibilities for underwater exploration, marine research, and underwater robotics applications. The primary goal of this work is to remove the underwater currents that make it difficult to detect and track the objects of interest. For this purpose, it is not to add a new algorithm to the already numerous algorithms that are impractical to use in the real world due to high inference time and high computational cost, but a framework that can produce degraded images from clean images, which can strengthen the clean-dirty datasets that are lacking in the field of underwater vision. Since it is necessary to verify whether a framework created in this direction actually works or not, there was a need to train an image enhancement network with degraded - ground truth image pairs created from the UTB180 \cite{UTB180} dataset and to see how much the detection and tracking of underwater objects improved in real-world images cleaned with this trained network. Within this holistic goal, a framework that synchronizes between real and artificial frames was developed based on the Brackish Dataset \cite{brackish} developed in Unity, and an Underwater Image Enhancement dataset was created with the developed framework. In order for this dataset to be similar to the dataset in Tansel et al. \cite{Tansel2020}, distractions were implemented in the framework using various probability distribution functions, and care was taken to ensure that the bubbles and distractions match the real data. Although the framework is actually an artificial scene generation method in the field of computer graphics, it is treated as a statistical method since the distractions and turbidity placed in the scene are based on various statistical models such as log-normal, exponential, and regular distribution functions in terms of both location, intensity, and color variation. Academics working on computer vision and image processing could leverage this framework to develop and benchmark algorithms for underwater object detection, tracking, and recognition. The availability of paired data enables researchers to build and evaluate object detection or tracking models specifically designed for underwater environments. This can lead to advancements in underwater surveillance systems, marine biology research, and underwater robotics. Furthermore, the framework can aid in the development of deep learning models for underwater image and video analysis. Deep learning thrives on large-scale datasets, and the availability of degraded-clean video pairs would allow researchers to train deep neural networks specifically for underwater imagery. This could lead to improved performance in tasks such as underwater scene understanding, classification, and segmentation, enhancing the understanding of underwater ecosystems and facilitating marine research. The framework would also serve as a valuable resource for benchmarking and comparison purposes. Researchers could utilize the generated degraded-clean video pairs as standardized test data to evaluate the performance of different algorithms and methodologies. This promotes fair comparisons between different techniques, fosters reproducibility, and encourages the development of state-of-the-art solutions for underwater imagery restoration and analysis. To this end, framework-generated data was tested as augmentation data on an image restoration network, and the framework's success on data augmentation tasks has been proven. In summary, a framework that generates degraded-clean video pairs for underwater imagery would be instrumental in advancing research in underwater computer vision, image processing, and deep learning. It would enable the development, evaluation, and benchmarking of algorithms and models, ultimately contributing to improved image quality, enhanced object detection and tracking, and a deeper understanding of underwater environments.

Benzer Tezler

  1. Coğrafi konum ve sensör verileri ile gözetimsiz sürücü performansı skorlama

    Unsupervised driver performance scoring using geographical position and sensor data

    OZAN FIRAT ÖZGÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik MühendisliğiTOBB Ekonomi ve Teknoloji Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HARUN TAHA HAYVACI

  2. Pazarlama aracı olarak sosyal medyanın kullanımı: İnstagram örneği

    The use of social media as a marketing tool: The example of instagram

    MÜGE TURAN ARZITAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İşletmeAnkara Hacı Bayram Veli Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. METEHAN TOLON

  3. Life cycle assessment of anaerobic digestion for the organic fraction of municipal solid waste

    Kentsel katı atıkların organik kısmının anaerobik çürütülmesi prosesi yaşam döngüsü analizi

    HAYRUNNİSA OMRAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    PROF. DR. FATOŞ GERMİRLİ BABUNA

    DOÇ. DR. BURÇİN ATILGAN TÜRKMEN

  4. Orman köyleri ve orman sanayi ilişkisi: 2007 – 2013 yılları bölgesel ekonomik performans ölçümü

    Relationship of forest villages and forest industry: Measurement of regional economic performance years between 2007 to 2013

    SIDIKA ÖZGE KOCATÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    DOÇ. DR. ALİYE AHU AKGÜN

  5. Estimation of partially occluded human joints using a Bayesian approach and an application of human image inpainting

    Kısmi kapanmaya uğramış insan eklemlerinin Bayesyen yaklaşımla kestirimi ve insan görüntüsü tamamlama uygulaması

    AHMET ANIL DURSUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. TEMEL ENGİN TUNCER