Geri Dön

Vision transformer ve retentive network yöntemleri ile görüntü üzerine dugu analizi

Image-based sentiment analysis with vision transformer and retentive network methods

  1. Tez No: 944694
  2. Yazar: VELİ DEMİR
  3. Danışmanlar: PROF. DR. YAKUP GENÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Gebze Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 42

Özet

Son yıllarda bilgisayarla görme ve veri odaklı modelleme alanındaki ilerlemeler sayesinde video duygu analizi alanında önemli gelişmeler yaşanmıştır. Video içeriğindeki duygusal ifadelerin anlaşılması, farklı alanlarda giderek daha fazla önem kazanmakta ve bu amaçla doğruluk ve verimliliği artırmak üzere yeni yöntemler geliştirilmektedir. Bu çalışmada, Retentive Networkler ile Vision Transformerların entegrasyonu video verilerindeki duygu analizinde kullanılan bir çerçeve olarak incelenmiştir. Geleneksel görüntü tabanlı değerlendirmelere ek olarak, performans ve kaynak kullanımı arasında denge sağlamak amacıyla kısa video segmentlerinde kare örnekleme yöntemi uygulanmıştır (örneğin, saniyede 7 kare). Ardışık kareler arasındaki yüzler mekânsal tutarlılık kullanılarak takip edilmiş ve geçerli yüz dizileri üzerindeki sonuçların ortalaması alınarak duygu sınıflandırması gerçekleştirilmiştir. YOLO, SSD, Faster R-CNN, MTCNN, Haar Cascades ve RetinaFace gibi çeşitli yüz tespit modelleri test edilmiş olup, güvenilir performansı ve hafif hesaplama gereksinimi nedeniyle RetinaFace tercih edilmiştir. Önerilen RetViT modeli, video tabanlı veri setinde 0.80 doğruluk oranı elde ederek, dinamik duygusal ifadeleri yakalamada etkinliğini göstermiştir. Karşılaştırmalı sonuçlar, önerilen modelin doğruluk, uyarlanabilirlik ve ölçeklenebilirlik açısından geleneksel modellere göre tutarlı gelişmeler sağladığını ortaya koymaktadır. Vision Transformerlar ve benzeri mimariler görüntü sınıflandırma görevlerinde yaygın olarak kullanılmış olsa da, bu çalışma onların video tabanlı duygu analizinde umut vadeden uygulamalarını vurgulamakta ve gerçek zamanlı uygulamalar gibi alanlarda gelecekteki araştırmalar için zemin hazırlamaktadır.

Özet (Çeviri)

The field of video sentiment analysis has seen considerable progress in recent years, supported by advances in computer vision and data-driven modeling. As understanding emotional expressions in video content gains importance across various domains, new methods are being developed to improve accuracy and efficiency. This study explores the integration of Retentive Networks and Vision Transformers as a framework for analyzing emotions in video data. In addition to conventional image-based evaluations, an extended approach was applied to short video segments. Frames were sampled at reduced frequency (e.g., 7 frames per second) to balance performance and resource usage. Faces were tracked across consecutive frames using spatial consistency, and emotions were classified by averaging results across valid face sequences. Among several face detection models tested—including YOLO, SSD, Faster R-CNN, MTCNN, Haar Cascades, and RetinaFace—RetinaFace was selected for its reliable performance and lightweight computational demand. Comparative results show that the proposed combination achieves consistent improvements over traditional models in terms of accuracy, adaptability, and scalability. While Vision Transformers and related architectures have been widely used in image classification tasks, this work highlights their promising application in video-based emotion analysis and sets the stage for future exploration, including potential use in real-time settings such as online meetings.

Benzer Tezler

  1. Deep learning-based building segmentation using high-resolution aerial images

    Yüksek çözünürlüklü hava görüntüleri kullanarak derin öğrenme temelli bina bölütlemesi

    BATUHAN SARITÜRK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER

  2. Kendini iyileştirebilen hidrojel esaslı kontakt lens malzemesi geliştirilmesi

    Development of self-healing hydrogel based contact lens material

    BÜŞRA KAŞAĞICI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    BiyomühendislikSakarya Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    PROF. DR. MAHMUT ÖZACAR

  3. Uzak kızılötesi ışın (FIR) yayma özelliğine sahip kumaşların geliştirilmesi üzerine bir çalışma

    A study on designing fabrics that has the feature of emitting far infrared rays (FIR)

    İSMAİL YÜCE

    Doktora

    Türkçe

    Türkçe

    2022

    Tekstil ve Tekstil MühendisliğiMarmara Üniversitesi

    Tekstil Mühendisliği Ana Bilim Dalı

    PROF. DR. SUAT CANOĞLU

    PROF. DR. SEVHAN MÜGE YÜKSELOĞLU

  4. Bitki ekstraktlarıyla bakteriyel selüloz esaslı biyo-dokusuz yüzey üretimi ve karakterizasyonu

    Production and characterization of bacterial cellulose based bio-nonwovens with plant extracts

    NUR KILINÇ

    Doktora

    Türkçe

    Türkçe

    2025

    BiyoteknolojiSüleyman Demirel Üniversitesi

    Tekstil Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DİCLE ÖZDEMİR KÜÇÜKÇAPRAZ

    DOÇ. DR. MUSTAFA CÜCE

  5. Vision transformer tabanlı öz denetimli öğrenme ile histopatolojik görüntülerde mitoz hücrelerinin tespiti

    Detection of mitosis cell in histopathological images using vit-based self-supervised learning

    MUHAMMED CİHAD ARSLANOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDicle Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN ACAR

    DOÇ. DR. ABDÜLKADİR ALBAYRAK