Geri Dön

Çok kipli video kavram sınıflandırması

Multimodal video concept classification

  1. Tez No: 487896
  2. Yazar: BERKAY SELBES
  3. Danışmanlar: YRD. DOÇ. DR. MUSTAFA SERT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Çokluortam verileri, İnternet kullanımının artmasıyla, sürekli üretilmekte ve paylaşılmaktadır. Bunun bir sonucu olarak, çokluortam verilerinin büyüklüğü hızla artmakta ve bu verilerin içeriklerini analiz eden otomatik yöntemlere ihtiyaç duyulmaktadır. Video verisi, çokluortam verilerinin önemli bir bileşenidir. Video içerik analizi, video verisi içeriğindeki zamansal veya konumsal olayların ve kavramların otomatik yöntemlerle belirlenmesi olarak tanımlanabilen önemli bir araştırma konusudur. Video içerik analizi, video içeriğinin karmaşık yapısı nedeniyle zor bir görevdir ve içerdiği bilgilerin otomatik olarak elde edilebilmesi için etkin yöntemlere ihtiyaç duyulmaktadır. Video verisinin artan büyüklüğü bu görevi zorlaştırmaktadır. Bu tez çalışmasında, video verilerinin çok kipli analizi için, görsel ve işitsel kiplerin füzyonuna dayalı bir yöntem önerilmektedir ve büyük veri platformunda uygulaması gerçekleştirilmektedir. Önerilen yöntem, Evrişimsel Sinir Ağı (ESA) öznitelikleri ile Mel-frekansı Kepstrum Katsayıları (MFCC) özniteliğinin temsillerinin füzyonuna dayanmaktadır. Büyük veri platformlarından Apache Spark kullanılarak önerilen yöntem gerçeklenmektedir. Önerilen yöntemin başarısı TRECVID 2012 SIN veri kümesi üzerinde değerlendirilmektedir. Sonuçlar göstermektedir ki, çok kipli yaklaşım tek kipli yaklaşımın başarısını geliştirmekte ve büyük veri platformu, çok kipli video içerik analizi yönteminin işlem zamanını önemli oranda düşürmektedir.

Özet (Çeviri)

The multimedia data has been continuously produced and shared out at a high rate as a result of the internet usage escalation. Thus, the size of multimedia data has rapidly increased, and hence, automated methods are needed to analyze the contents of the data produced. Video data is an important component of multimedia data. Video content analysis is an important research topic for several applications, such as audio-video based surveillance, content-based search and retrieval and can be defined as the automatic determination of temporal or spatial events/concepts in content of video data. Video content analysis is a difficult task due to the complex nature of the video content and requires efficient algorithms for extraction of high-level information included in the content. The increasing size of video data makes this task more difficult. In this thesis, a method based on the fusion of audio-visual modalities for multimodal content analysis of video data is proposed and implemented on a big data platform. The proposed method is based on the fusion of representations of Mel-frequency Cepstral Coefficient (MFCC) features with Convolutional Neural Network (CNN) features. The proposed method is implemented on Apache Spark big data platform. The success of the proposed method is evaluated on the TRECVID 2012 SIN data set. Our results show that the multi-modal method improves the accuracy of the single-model approach and also the big data platform significantly reduces the computation time of the multi-modal video content analysis method.

Benzer Tezler

  1. Multimodal machine comprehension of how-to instructions with images and text

    Görüntü ve metin içeren çok kipli nasıl yapılır talimatlarının makine ile kavranması

    SEMİH YAĞCIOĞLU

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ERKUT ERDEM

    DOÇ. DR. İBRAHİM AYKUT ERDEM

  2. Ortaöğretim 11.sınıf öğrencilerinin kimyasal denge konusundaki kavram yanıgılarının belirlenmesi

    Determination of the misconceptions of secondary education 11th grade students relating to chemical equilibrium

    TUNCAY ŞATAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Eğitim ve ÖğretimGazi Üniversitesi

    Kimya Bölümü

    PROF. DR. M. LEVENT AKSU

  3. Orientations to interculturality in a task enhanced virtual exchange setting: A multimodal conversation analysis study

    Görev temelli sanal değişim ortamında kültürlerarasılığa yönelimler: Çokkipli konuşma çözümlemesi çalışması

    ZEYNEP ÖNDER

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ UFUK BALAMAN

  4. A conversation analytic study on the displays of task difficulty in task-oriented video-mediated interactions

    Görev-odaklı video-aracılı etkileşim ortamlarında görev zorluğu üzerine bir konuşma çözümlemesi çalışması

    MERVE NUR YÜCE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DOÇ. DR. UFUK BALAMAN

  5. BilVideo-7: Video parsing, indexing and retrieval

    BilVideo-7: Video çözümleme, indeksleme ve erişimi

    MUHAMMET BAŞTAN

    Doktora

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. UĞUR GÜDÜKBAY

    PROF. DR. ÖZGÜR ULUSOY