Exploiting representative image patches for facial expression analysis
Yüz ifadesi analizi için temsil edici görüntü yamalarından yararlanma
- Tez No: 856341
- Danışmanlar: PROF. DR. NAFİZ ARICA
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 114
Özet
İnsan yüzünün ürettiği ifadeler, yüz kaslarının kasılması ile tanımlanır. Yüz Hareketi Kodlama Sistemi, tüm görsel değişikliklerin yüz kaslarının hareketlerini ifade eden Eylem Birimleri (EB) cinsinden açıklamasını sağlayan en yaygın kullanılan ve kabul edilen standarttır. Bu çalışmada EB tespiti için en iyi yöntemi bulmak amacıyla EB'ler üç farklı şekilde incelenmektedir: (1) EB'nin temsili özellikleri vurgulanarak, (2) yüzün en temsili kısımlarını bulup geri kalanından kurtularak, ve (3) her bir EB tespit görevi için en temsili yama boyutlarını bulmak. Başlangıçta Katmanlı Evrişimli Sinir Ağlarını (KESA) tanıtan bu çalışma, yüz şeklinin bozulmadığı erken katmanlardaki gizli özellikleri vurgulamak için Evrişimli Sinir Ağlarından yararlanmaktadır. KESA'nın, çeşitli yüz analizi tabanlı görüntü sınıflandırma görevleri için AU algılama oranlarını artıran güçlü bir ön işleme aşaması görevi görerek geleneksel yöntemleri alt ettiği gösterilmiştir. Her EB için yüzün önemli kısımları vurgulandıktan sonra görüntünün tamamı yerine sadece aktif kısımlarla çalışmak kaçınılmaz hale gelmiştir. Bu çalışmanın ikinci bölümünde, her EB için en aktif/tanımlayıcı yüz nirengi noktalarını öğrenmek amacıyla seyrek öğrenme kullanılmış, daha sonra aktif nirengilerden alınan yamaları, EB'leri tespit etmek için ViT ve Perceiver mekanizmalarına (bağımsız olarak) beslenmiştir. Deneyler, özellikle de daha zorlu veri kümelerinde dikkat mekanizmasını desteklemek için bir sınıflandırıcı olarak kullanıldığında aktif nirengi yamalarının kullanılmasının, tüm nirengi noktalarının kullanılmasıyla karşılaştırıldığında sonuçları iyileştirdiğini göstermektedir. Bu araştırmanın son kısmı olarak, aktif yamaların boyutu araştırılmış ve her yama için uygun boyut bulunmuştur. Sonuçlar, önerilen yöntemin kullanılan modelleri iyileştirdiğini göstermekte, veri setleri arası yapılan deneylerle de desteklemektedir.
Özet (Çeviri)
The human face displays expressions through the contraction of various facial muscles. The Facial Action Coding System (FACS) is a widely accepted standard that describes all visible changes in the face in terms of Action Units (AUs). In this study AUs are examined in three different ways for AU detection: (1) by highlighting the representative features of the AU, (2) by finding the most representative parts of the face and getting rid of the rest, and (3) by finding the most representative patch sizes for each AU detection task. Initially introducing Cascaded Convolutional Networks (CCNN), this study leverages Convolutional Neural Networks (CNN) to highlight the concealed features in early layers where the facial shape is not distorted. CCNN bypasses traditional landmark-based methods, acting as a strong pre-processing step that boosts AU detection rates. For the second part of this study, sparse learning is employed to learn the most active landmarks for each AU, then the active landmark patches are fed to ViT and Perceiver mechanisms (independently). Experiments indicate that using active landmark patches improves the results when compared to using all the landmarks, especially when it is used on more challenging datasets as a support for the attention mechanism to the classifier. Finally, the size of the patches is investigated, and a size-variant patch method is proposed to experiment the most appropriate size for each patch. The results demonstrate that the proposed method improves the performance of the employed models and are further supported by experiments conducted across different datasets.
Benzer Tezler
- Exploring fusion models in computer vision for medical image computing
Başlık çevirisi yok
DUYGU SARIKAYA
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolState University of New York at BuffaloDr. JASON J. CORSO
- Seyrek işaret işlemede sınıflandırma uygulamaları ve çekirdek tabanlı yaklaşımlar
Classification applications of sparse signal processing and kernel based methods
ABDURRAHMAN YEŞİLOĞLU
Yüksek Lisans
Türkçe
2015
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. ENDER METE EKŞİOĞLU
- Dalgacık tabanlı imge sıkıştırma
Wavelet based image compression
MEHMET ERSAN KAYKUSUZ
Yüksek Lisans
Türkçe
2004
Elektrik ve Elektronik MühendisliğiHacettepe ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. MÜCAHİT KANİ ÜNER
- Land cover and land use classification of multi-modal high-resolution satellite images using multi-task deep learning approach
Çok görevli derin öğrenme tekniği ile çok kipli yüksek çözünürlüklü uydu görüntülerinin arazi örtüsü ve arazi kullanımı sınıflandırılması
BURAK EKİM
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. ELİF SERTEL
- A survey on photographic representation in architectural magazine covers: Covers of arredamento-mimarlik
Mimari dergi kapaklarında kullanılan fotografik temsil üzerine bir araştırma: Arredamento-mimarlık kapakları
GÜL BERRAK SERT
Yüksek Lisans
İngilizce
2006
MimarlıkOrta Doğu Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. ALİ CENGİZKAN