Geri Dön

Scene change detection with triplet loss network using self-supervised learning

Üçlü kayıp ağı ile kendi kendine denetimli öğrenme metodu kullanarak sahne geçişlerinin tespiti

  1. Tez No: 887835
  2. Yazar: BURAK NAYIR
  3. Danışmanlar: DR. TANKUT AKGÜL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 79

Özet

Görüntü işleme alanında son dönemlerde en önemli konularından biri olan sahne geçişlerinin tespiti, bu araştırmanın odak noktasını oluşturmaktadır. Sahne geçişlerinin tespiti, video düzenleme, video arama ve video analizi gibi uygulamalarda önemli bir rol oynamaktadır. Özellikle sosyal medya içeriğinin artmasıyla birlikte, bu süreçlerin otomatikleştirilmesi birçok kullanıcının talebi haline gelmiştir. Sahne geçişlerinin tespiti için çeşitli yöntemler bulunmakta olup, bu yöntemler sinir ağları, klasik ses işleme ve görüntü işleme gibi farklı teknikleri içermektedir. Bu çalışmada, yeni bir veri kümesi oluşturulmuş ve bu veri kümesi üzerinde derin sinir ağı modeli geliştirilmiştir. Veri kümesi oluşturulurken, internet kaynaklarından sahneler alınmış ve film karelerinden elde edilen görüntülerle zenginleştirilmiştir. Model eğitimi sırasında, Üçlü Kayıp (Triplet Loss) işlevi ve Siyam Ağı (Siamese Network) gibi güçlü teknikler kullanılmıştır. Üçlü kayıp işlevi, benzer ve farklı örnekler arasındaki mesafeyi optimize ederek modelin sahne geçişlerini daha kesin bir şekilde öğrenmesini sağlar, Siyam ağı ise bu öğrenmeyi gerçekleştirmek için etkili bir mimari sunar. Bu çalışma, hem veri kümesi hem de model geliştirme açısından sahne geçişlerinin tespitine yeni bir yaklaşım sunarak otomatik video analizi ve düzenleme uygulamalarına katkı sağlar. Sahne geçişlerini yakalamak için kareler arasında bir ilişki kurmak gereklidir. Genel olarak düşünüldüğünde, aynı sahneye ait kareler bile çok farklı görünebilir. Ayrıca, aynı görüntünün farklı aydınlatma şartlarında olması klasik görüntü işleme yöntemlerini aldatmaya yetebilir. Bu nedenle, sahneler arasındaki ilişkiyi anlamak için FraSim adında bir derin öğrenme modeli tasarladık. FraSim, bu çalışmanın önerilen modelidir. Ayrıca, etkili bir şekilde modelimizi eğitmek için kullanılabilecek kapsamlı bir veri kümesi oluşturduk. Bu çalışma için oluşturulan veri kümesi el ile sınıflandırılmadığı için kendi kendine denetimli öğrenmeyi tercih ettik. Ayrıca, FraSim modeli ile birlikte Yapısal Benzerlik İndeksi (Structural Similarity - SSIM) klasik görüntü işleme algoritması kullanarak modelin doğruluk oranını artırdık. Son olarak, modelimizi uygulamaya koymak için bir dağıtım mimarisi tasarladık. Aşağıdaki alt bölümlerde, veri kümesi oluşturma süreci, FraSim modeli ve dağıtım mimarisi detayları sunulmaktadır. Bu çalışmanın temel katkılarından biri, sahne geçiş tespiti için derin öğrenme modellerini eğitmek amacıyla kullanılabilecek bir veri kümesinin oluşturulmasıdır. MovieCLIP, bu alandaki en çok kullanılan veri kümelerinden biridir. Ancak, bu veri kümesini oluşturmadaki motivasyon, otomatik etiketlemelerle sahte sahne geçişleri oluşturarak kendi kendine öğrenme metodu uygulayabilmekti. Sahte sahne geçişi, aynı filmdeki farklı sahnelerden kareleri birbirinin ardına yerleştirme anlamına gelir. Şu anda, 1353 filmden 230699 kare ve ses içeren bir veri kümesine sahibiz. FraSim, bu çalışmanın odak noktasını oluşturan derin öğrenme modelidir. Bu model, konvolüsyonel sinir ağı katmanları kullanılarak derin bir öğrenme modeli oluşturulmuştur. Ayrıca, eğitim verilerinin işlenmesi için dikkatlice seçilmiş ön işleme adımları uygulanmıştır. Sonuç olarak, FraSim modeli, sahne geçişlerini tespit etme konusunda yüksek doğruluk ve hassasiyet sağlar. Geliştirilen sahne geçiş algılayıcı nihai algoritma, eğitilmiş FraSim modelini klasik SSIM görüntü işleme yöntemiyle birleştirerek oluşturulmuştur. Klasik görüntü işleme metotları genellikle benzerdir ve küçük piksel tabanlı değişikliklere karşı güçlüdürler, ancak büyük miktarda piksel tabanlı değişikliklerde doğru kararlar veremezler. Öte yandan yapay zeka, büyük kare değişikliklerine rağmen gerçek anlamlı sonuçlar üretir, ancak bazen küçük piksel tabanlı değişikliklere karşı hassas olabilir. Örnek olarak zararlı saldırılar derin öğrenmedeki bu tür hassasiyetleri kullanırlar. Bu tür saldırılar, insan gözü tarafından fark edilmeyen küçük değişiklikleri içerebilir, ancak derin öğrenme modeli üzerinde önemli bir etkiye sahip olabilirler. Bir görüntüye az miktarda gürültü eklenmesi modelin yanlış sınıflandırmasına neden olabilir. Bu bir tür saldırı olsa da, aslında kareler arasındaki geçiş sırasında da istenmeden gerçekleşebilir ve örneğin kameranın hafif bir hareketi görüntü üzerinde aynı etkiye sahip olabilir. Geliştirdiğimiz nihai algoritma“Temsili Veri (Embedding) Vektörü Çıkarımı”,“SSIM İndeksi Hesaplama Modülü”,“Kosinüs Benzerlik İndeksi Hesaplama Modülü”olmak üzere üç kısımdan oluşmaktadır. Temsili veri vektörü terimi bir video karesinin FraSim modelinden geçirildikten sonra gizli uzaydaki öğrenilmiş karşılığını temsil eder. FraSim'e verilmeden önce orijinal video karesi 225x225x3 veya 225x225x1 boyutuna düşürülür. SSIM indeksi hesaplama modülü yapısal benzerlik indeksini hesaplamak için kullanılır. SSIM, iki görüntü arasındaki benzerliği nicelendirmek için yaygın olarak kullanılan bir metriktir. SSIM indeksi, insan görsel algısını taklit etmeye çalışır ve bu nedenle gerçek zamanlı kalite izleme ve video kalitesi analizi için önemli bir araç olarak kabul edilir. Bu aşamada ilk olarak, kod iki video karesi alır ve her birini gri tonlamalı hale getirir. Gri tonlamalı hale getirme, görüntülerin renk bilgisini çıkarmak ve yalnızca ışık yoğunluğunu göstermek için yapılır. Bu adım, görüntülerin yapısal benzerliğini renk bilgisinden bağımsız olarak değerlendirmemizi sağlar. Sonra, iki gri tonlamalı görüntü arasındaki yapısal benzerlik (SSIM) indeksi hesaplanır. SSIM indeksi, görüntülerin benzerliğinin derecesini ölçer. Bu indeks, 0 ile 1 arasında bir değer alır; 1'e yakın değerler, iki görüntü arasındaki benzerliğin daha yüksek olduğunu gösterir. Son olarak, Kosinüs benzerlik indeksi hesaplama modülü iki video karesinin ilk modül ile elde edilen temsili veri vektörlerinin normalize edilmiş skalar çarpımını alarak -1 ile 1 arasında bir değer üretir. Bu değer, 1'e yaklaştıkça karelerin benzer olduğunu, -1 yaklaştıkça ise karelerin birbirinden farklı olduğunu gösterir. Nihai algoritma, önce SSIM indeksini kullanarak ardışık video karelerden sahne geçişi başlangıcı olabilecek aday kareyi belirler. Daha sonra bu aday karenin FraSim modeli çıktısının kosinüs benzerlik indeksini kullanarak gerçekten bir sahne geçişi olup olmadığını doğrular. Kapsamlı deneylerimizde, yalnızca RGB veri girişlerini kullanarak iki geniş çapta tanınan model olan DenseNet121 ve MobileNetV3Large'ın performansını derinlemesine inceledik ve FraSim modelimiz ile karşılaştırdık. Her iki modelde de, eğitim sonuçları üzerindeki etkilerini belirlemek için grup boyutları, epok sayısı ve öğrenme oranlarını titizlikle ayarladık. Geleneksel doğruluk metriklerinin üçlü kayıp işlevine doğrudan uygulanamayabileceğinden, doğruluk kavramını referans, pozitif ve negatif örnekler arasındaki göreceli benzerlik üzerine tanımladık. Bu yaklaşım, model performansını etkili bir şekilde değerlendirmemizi sağladı. Ayrıca, metodolojimizde modelin başarımını doğrulamak için çapraz doğrulama tekniklerini kullandık. Özellikle, geleneksel modeller içinde DenseNet121 için 2 katlı, MobleNetV3Large ve FraSim için ise 5 katlı çapraz doğrulama kullandık. Tüm modelleri eğitmek için AdamW optimize edici işlevi kullandık. AdamW eğitimin stabil olmasına önemli katkılarda bulundu. Tüm modelleri Nvidia Rtx4080 grafik kartı kullanılarak eğittik ve AMD Ryzen 9 7950X 16 Çekirdekli işlemci üzerinde çalıştırdık. Bu donanım yapılandırmaları, tüm modellerde verimli ve sağlam eğitim süreçleri sağlayarak, tutarlı deneylerin ve değerlendirmelerin yapılmasını kolaylaştırdı. Modellerin test veri setiyle ölçülen doğruluk oranları şu şekildedir: Gri Dataset ile eğitilen FraSim modeli \%97.59 doğruluk oranına sahiptir. Aynı model, RGB dataset kullanılarak eğitildiğinde ise bu oran \%97.84'e yükselir. DenseNet121 modeli RGB Dataset ile eğitildiğinde \%94.89 doğruluk elde edilirken, MobileNetV3Large modeli ise \%81.23'lük bir başarı sağlar. Bu sonuçlar, FraSim modelinin hem Gri hem de RGB Dataset'lerinde diğer modellere göre daha üstün performans gösterdiğini göstermektedir. Özetle, geliştirdiğimiz sahne geçiş algılama algoritması, geleneksel görüntü işleme yöntemlerini derin öğrenme teknikleriyle yenilikçi bir şekilde birleştirir. Bu entegrasyon, algoritmamızın video karelerindeki ince ve önemli değişiklikleri etkili bir şekilde ayırt etmesini sağlar ve bireysel metotlardaki kısıtlamaları aşar. Bu da video analizi, gözetim sistemleri ve multimedya içerik oluşturma gibi çeşitli uygulamalar için değerli bir araç sunar. İlerleyen süreçte algoritmamızı veri setimizde yer alan ses bilgisini de kullanacak şekilde geliştirip optimize ederek gerçek zamanlı video işleme yeteneklerine katkıda bulunmayı hedefliyoruz.

Özet (Çeviri)

Scene transition detection, one of the most critical topics in image processing, has attracted considerable attention in recent research initiatives. Detecting scene transitions is essential in various fields, including video editing, search algorithms, and analytical applications. The demand for automatic scene change detection has increased among many users, especially with the rapid increase in social media content. Various methodologies for scene transition detection include neural networks, classical audio processing techniques, and image processing algorithms. In this study, we created a CNN model called FraSim and a new dataset to train it, and combined it with classical image processing method Structural Similarity (SSIM). The process of creating the dataset involved enriching the transitions of scenes with frames taken from movie scenes collected over the internet. The same dataset is available in both grayscale and RGB format and also includes audio. A unique algorithm was designed to extract frames and associated audio during dataset creation, ensuring that only the most notable frames are retained. The frames in the dataset were carefully categorized per scene and per movie. Training the model was carried out using a self-supervised approach. For this purpose, we utilized powerful techniques like Triple Loss and Siamese Network architecture. Triple loss, in particular, played a crucial role in improving the model's effectiveness by optimizing distance measurements between similar and dissimilar samples. This research effort significantly contributes to the field of automatic video analysis. By introducing a new approach to scene transition detection that encompasses both the structure of the training dataset and the architecture of the deep learning model, we have opened up new possibilities for the field. The impressive accuracy rate of up to 97.84% achieved using FraSim with the RGB Dataset clearly indicates this research's potential impact. The integration of classical image processing techniques with the development of an intelligent system using FraSim further strengthens the effectiveness of scene transition detection, underlining the versatile nature of this innovative research effort.

Benzer Tezler

  1. Derin obje sezicilerle tümleştirilmiş bayesçi filtreleme ile videoda obje izleme

    Integration of bayesian filtering and deep object detection for video object tracking

    FİLİZ GÜRKAN GÖLCÜK

    Doktora

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL KALYONCU

  2. A CMOS imager/processor for average particle velocity measurement in fluids

    Parçacık görüntülemeye dayalı ortalama hız ölçümü için CMOS optik algılayıcı-işleyici

    NABİ SERTAÇ ARTAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2001

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. UĞUR ÇİLİNGİROĞLU

  3. Change detection in digital video signals

    Sayısal video sinyallerinde değişimin tespiti

    RABİ ZAİBİ

    Yüksek Lisans

    İngilizce

    İngilizce

    1999

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. A. ENİS ÇETİN

  4. Gürültü gidermenin hiperspektral görüntü değişim tespitine etkisi

    Influence of noise reduction on hyperspectral image change detection accuracy

    EKRAM HUSSIEN MOHAMMED

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Jeodezi ve FotogrametriKocaeli Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. SARP ERTÜRK

  5. Piksel uzayında çerçeve tabanlı sayısal video damgalama işleminin genetik algoritma kullanılarak iyileştirilmesi

    Improving the performance of frame based digital video watermarking in spatial domain using genetic algorithm

    MUHAMMED ZEKAİ SEVİM

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. VEYSEL ASLANTAŞ