Multimodal representation learning for synchronized speech and videos
Eşzamanlı konuşma ve video için çok kipli gösterim öğrenimi
- Tez No: 652185
- Danışmanlar: PROF. DR. MURAT SARAÇLAR
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
Son yıllarda gelişen teknoloji ile birlikte çoğulortam veri miktarı hızlı bir şekilde artmaktadır. Bu artış çoklu veri kipleri için sinir ağları ile yapılan çalışmaları olanaklı kılsa da, verimli bir şekilde veri saklanımını ve geri getirimini önemli bir ihtiyaç haline getirmektedir. Bu tezde, çoklu veri kiplerinden faydalanmanın sağladığı yararları araştırmak için çeşitli veri kaynaştırma yöntemleri sunulmaktadır. Sunulan veri kaynaştırma yöntemleri sistemde kaynaşımın yapıldığı aşamaya göre farklılık göstermektedir. Ayrıca, veri saklanımı ve geri getirimi amacıyla veri altbirimleri için gösterim öğrenim sistemleri incelenmiştir. Bu gösterimler temsil ettikleri veri altbirimleri arasındaki belirlenmiş bir uzaklık metriğine göre hesaplanan uzaklığı yansıtacak şekilde oluşturulmuştur. Olası bir başarım artışı için bileşik gösterim ve uzaklık metriği öğrenimi problemi de irdelenmiştir. Gösterim öğrenimi ve veri kaynaştırma amacıyla derin sinir ağlarından faydalanılmıştır ve bu problemlerin başarım ölçümleri sırasıyla aynı-farklı kelime ayrımsaması ve sesbirim sınıflandırılmasıyla yapılmıştır. Deneylerde iki farklı veri kümesinden faydalanışmıştır: USC-TIMIT rtMRI ve Türk işaret dili haber bültenleri. Elde edilen deney sonuçları veri kaynaştırmanın faydalarını ortaya koyarken, aynı zamanda bu kaynaşımın erken safhalarda yapılmasının daha da iyi sonuçlar getirdiğini göstermektedir. Aynı zamanda, gösterim öğrenimi için sunulan yöntemler, aynı problem için daha önce kullanılmış temel sistemlerden fark edilebilir derecede daha iyi başarımlar sağlamıştır. Bu nedenle, video ve konuşma işaretlerinin altbirimleri için öğrenilmiş bu gösterimler çapraz kipli verilerin geri getirimi için önemli bir adım olarak kabul edilebilir.
Özet (Çeviri)
The amount of multimedia data has been increased rapidly in recent years. While this data growth enables multimodal neural network based studies, it has also resulted in a need for efficient storage and retrieval systems for multimodal data. In this thesis, different data fusion schemes are examined to see the benefits of the use of different data sources. Proposed fusion schemes differ in their stages in which the data fusion is performed. Additionally, several representation learning methods are investigated for efficient data storage and retrieval systems. Representations are generated in such a way that they reflect the distance between the represented data segments according to a certain distance metric. A joint representation and distance metric learning scheme is also considered for a performance gain. Several deep neural network models are designed for representation learning and data fusion, and their performances are evaluated with the same-different word-discrimination and phone classification tasks, respectively. Experiments are performed on two different multimodal data sets; USC-TIMIT rtMRI and Signed Turkish broadcast news. Outcomes of the experiments show that the data fusion indeed brings a performance improvement over unimodal approaches, and performing fusion in earlier stages yields better results than fusing the data in later stages. Additionally, the proposed methods for the representation learning outperform the corresponding baseline systems in the same-different word-discrimination task. Therefore, generated representations of video and audio segments can be considered as an important step towards a fast cross-modal query-by-sign search system.
Benzer Tezler
- Automatic deceit detection through multimodal analysis of speech videos
Konuşma videolarının çok-kipli analiziyle otomatik aldatma tespiti
BERAT BİÇER
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAMDİ DİBEKLİOĞLU
- Social behavior learning for an assistive companion robot
Yardımcı robotlar için sosyal davranış öğrenimi
PINAR ULUER
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Analysis of speech content and voice for deceit detection
Aldatma tespiti için konuşma içeriği ve ses analizi
MARIA RALUCA ESKIN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Assist. Prof. Dr. HAMDİ DİBEKLİOĞLU
- Cilt lezyonlarının sınıflandırılmasında yumuşak dikkat tabanlı çok modlu derin öğrenme modellerinin geliştirilmesi
Development of soft attention based multi-modal deep learning models for skin lesion classification
HUSSEIN MAHMOOD ABDO MOHAMMED
Doktora
Türkçe
2023
Elektrik ve Elektronik MühendisliğiAtatürk ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMİN ARGUN ORAL
- Using linguistic landscapes as a multimodal pedagogical tool in English language classrooms: A qualitative study in a high school context
İngilizce sınıflarında dilsel çevrenin çok modlu bir pedagojik araç olarak kullanılması: Lise bağlamında nitel bir çalışma
NESRİN BAL
Yüksek Lisans
İngilizce
2023
Eğitim ve ÖğretimDicle Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
DOÇ. DR. OSMAN SOLMAZ