Efficient human parsing and inpainting using advanced deep learning techniques
Gelı̇şmı̇ş derı̇n öğrenme teknı̇klerı̇nı̇ kullanarak etkı̇n ı̇nsan ayrıştırma ve inpainting
- Tez No: 876907
- Danışmanlar: DR. ÖĞR. ÜYESİ TARKAN AYDIN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 143
Özet
İnsan analizinin hayati bir yönü olan insan analizi, giysi ve vücut parçalarını segmente etmeyi ve bunları bireylerle ilişkilendirmeyi içerir. Ancak, mevcut yöntemler genellikle maliyetli yardımcı bilgilere dayanır, bu da onları gerçek dünya veya kaynak kısıtlı cihazlar için uygun hale getirir. Ayrıca, gerçekçi görüntü restorasyonu, özellikle yüz maskeleri gibi yüksek dokulu alanlarda, eğitim istikrarsızlığı ve dış segmentasyona bağımlılık da dahil olmak üzere derin öğrenme tabanlı yöntemler için önemli zorluklar sunmaktadır. Bu tez, bu zorlukları, kaynak kısıtlı ortamlarda doğruluğu, hesaplama verimliliğini ve pratik uygulanabilirliği artırmak için yenilikçi ağ mimarilerini ve optimizasyon tekniklerini araştırarak ele almaktadır. Yaklaşımımız, insan analizi performansını artırmak için çeşitli stratejileri entegre eder. Uzun menzilli bağımlılıkları ve uzamsal ilişkileri yakalamak için Vision Transformer (ViT), Convolutional Neural Network (CNN) ve Multi-scale Self-Attention (MSSA) mekanizmalarını kullanan yeni ağ mimarileri öneriyoruz. Hafif kodlayıcılar ve verimli\\ çözümleyici tasarımlar, doğruluklarından ödün vermeden analiz hızında önemli iyileştirmeler sağlar. Ayrıca, yarı hassas kantizasyon gibi optimizasyon teknikleri, kaynak kısıtlı ortamlarda verimliliği artırır. Residual attention UNet mimarisi kullanarak yeni bir körlük maskesi yüzü tamamlama yöntemi tanıtıyoruz. Bu yöntem, yüz maskelerini etkili bir şekilde kaldırır ve yüz detaylarını geri getirirken gerçek yapılarla uyumsuzlukları en aza indirir. Artık bloklar ve dikkat birimleri kullanarak, yaklaşımımız doğru ve detaylı tamamlama sonuçlarını garanti eder. Ayrıca, maske yüz tamamlamasını bir ön işleme adımı olarak içeren maskeli yüz tanıma için entegre bir yaklaşım sunuyoruz. Ayrıca, duyguları ve demografik bilgileri tahmin etmek için MobileNetV3 ve maskeli yüzler için özelleştirilmiş bir U-Net kullanan bir model geliştirdik.
Özet (Çeviri)
Human parsing, a vital aspect of human-centric analysis, involves segmenting clothing and body parts and associating them with individuals. However, existing methods often rely on costly auxiliary information, rendering them unsuitable for real-world or resource-constrained devices. Furthermore, realistic image restoration, particularly in areas with high texture like face masks, presents significant challenges for deep learning-based methods, including training instability and dependency on external segmentation. This thesis addresses these challenges by exploring innovative network architectures and optimization techniques to enhance accuracy, computational efficiency, and practical applicability in resource-constrained environments. Our approach integrates various strategies to improve human parsing performance. We propose novel network architectures leveraging Vision Transformer (ViT), Convolutional Neural Network (CNN), and Multi-scale Self-Attention (MSSA) mechanisms to capture long-range dependencies and spatial relationships. Lightweight encoders and efficient decoder designs enable significant improvements in parsing speed without compromising accuracy. Additionally, optimization techniques such as half-precision quantization enhance efficiency for deployment in resource-constrained environments. We introduce a novel blind mask face inpainting method using a residual attention UNet architecture. This method effectively removes face masks and restores facial details while minimizing discrepancies with ground truth structures. By leveraging residual blocks and attention units, our approach ensures accurate and detailed inpainting results. Furthermore, we present an integrated approach for masked face recognition, incorporating mask face inpainting as a preprocessing step. Additionally, we have developed a model for predicting emotion and demographic information, utilizing MobileNetV3 and a U-Net tailored for masked faces.
Benzer Tezler
- Face recognition and person re-identification for person recognition
Kişi tanıma için yüz tanıma ve kişinin yeniden tanınması
EMRAH BAŞARAN
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA ERSEL KAMAŞAK
PROF. DR. MUHİTTİN GÖKMEN
- Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma
Dependency parsing with deep learning methods in Turkish
MÜCAHİT ALTINTAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Error tolerant finite state parsing for a Turkish dialogue system
Bir Türkçe diyalog sistemi için hata toleranslı sonlu durum çözümleme
ATACAN ÇONDUROĞLU
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İLYAS ÇİÇEKLİ
- Sayısal hücre görüntülerinin kodlanması ve nicel analizi
Coding and quantitative analysis of the digital cell images
NEŞE APAK
Yüksek Lisans
Türkçe
1993
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiY.DOÇ.DR. MUHİTTİN GÖKMEN
- Türkçe tümcelerin yüklem odaklı anlam ve dilbilgisi çözümlemesi
Grammatical and semantic analysis of turkish sentence based on predicate
İLKNUR DÖNMEZ
Doktora
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI