Çok kipli video kavram sınıflandırması
Multimodal video concept classification
- Tez No: 487896
- Danışmanlar: YRD. DOÇ. DR. MUSTAFA SERT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Başkent Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Çokluortam verileri, İnternet kullanımının artmasıyla, sürekli üretilmekte ve paylaşılmaktadır. Bunun bir sonucu olarak, çokluortam verilerinin büyüklüğü hızla artmakta ve bu verilerin içeriklerini analiz eden otomatik yöntemlere ihtiyaç duyulmaktadır. Video verisi, çokluortam verilerinin önemli bir bileşenidir. Video içerik analizi, video verisi içeriğindeki zamansal veya konumsal olayların ve kavramların otomatik yöntemlerle belirlenmesi olarak tanımlanabilen önemli bir araştırma konusudur. Video içerik analizi, video içeriğinin karmaşık yapısı nedeniyle zor bir görevdir ve içerdiği bilgilerin otomatik olarak elde edilebilmesi için etkin yöntemlere ihtiyaç duyulmaktadır. Video verisinin artan büyüklüğü bu görevi zorlaştırmaktadır. Bu tez çalışmasında, video verilerinin çok kipli analizi için, görsel ve işitsel kiplerin füzyonuna dayalı bir yöntem önerilmektedir ve büyük veri platformunda uygulaması gerçekleştirilmektedir. Önerilen yöntem, Evrişimsel Sinir Ağı (ESA) öznitelikleri ile Mel-frekansı Kepstrum Katsayıları (MFCC) özniteliğinin temsillerinin füzyonuna dayanmaktadır. Büyük veri platformlarından Apache Spark kullanılarak önerilen yöntem gerçeklenmektedir. Önerilen yöntemin başarısı TRECVID 2012 SIN veri kümesi üzerinde değerlendirilmektedir. Sonuçlar göstermektedir ki, çok kipli yaklaşım tek kipli yaklaşımın başarısını geliştirmekte ve büyük veri platformu, çok kipli video içerik analizi yönteminin işlem zamanını önemli oranda düşürmektedir.
Özet (Çeviri)
The multimedia data has been continuously produced and shared out at a high rate as a result of the internet usage escalation. Thus, the size of multimedia data has rapidly increased, and hence, automated methods are needed to analyze the contents of the data produced. Video data is an important component of multimedia data. Video content analysis is an important research topic for several applications, such as audio-video based surveillance, content-based search and retrieval and can be defined as the automatic determination of temporal or spatial events/concepts in content of video data. Video content analysis is a difficult task due to the complex nature of the video content and requires efficient algorithms for extraction of high-level information included in the content. The increasing size of video data makes this task more difficult. In this thesis, a method based on the fusion of audio-visual modalities for multimodal content analysis of video data is proposed and implemented on a big data platform. The proposed method is based on the fusion of representations of Mel-frequency Cepstral Coefficient (MFCC) features with Convolutional Neural Network (CNN) features. The proposed method is implemented on Apache Spark big data platform. The success of the proposed method is evaluated on the TRECVID 2012 SIN data set. Our results show that the multi-modal method improves the accuracy of the single-model approach and also the big data platform significantly reduces the computation time of the multi-modal video content analysis method.
Benzer Tezler
- Multimodal machine comprehension of how-to instructions with images and text
Görüntü ve metin içeren çok kipli nasıl yapılır talimatlarının makine ile kavranması
SEMİH YAĞCIOĞLU
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERKUT ERDEM
DOÇ. DR. İBRAHİM AYKUT ERDEM
- Ortaöğretim 11.sınıf öğrencilerinin kimyasal denge konusundaki kavram yanıgılarının belirlenmesi
Determination of the misconceptions of secondary education 11th grade students relating to chemical equilibrium
TUNCAY ŞATAY
- Orientations to interculturality in a task enhanced virtual exchange setting: A multimodal conversation analysis study
Görev temelli sanal değişim ortamında kültürlerarasılığa yönelimler: Çokkipli konuşma çözümlemesi çalışması
ZEYNEP ÖNDER
Yüksek Lisans
İngilizce
2021
Eğitim ve ÖğretimHacettepe ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ UFUK BALAMAN
- A conversation analytic study on the displays of task difficulty in task-oriented video-mediated interactions
Görev-odaklı video-aracılı etkileşim ortamlarında görev zorluğu üzerine bir konuşma çözümlemesi çalışması
MERVE NUR YÜCE
Yüksek Lisans
İngilizce
2023
Eğitim ve ÖğretimHacettepe ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
DOÇ. DR. UFUK BALAMAN
- BilVideo-7: Video parsing, indexing and retrieval
BilVideo-7: Video çözümleme, indeksleme ve erişimi
MUHAMMET BAŞTAN
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. UĞUR GÜDÜKBAY
PROF. DR. ÖZGÜR ULUSOY