Lightweight facial expression recognition systems for social robots

Sosyal robotlar için hafif ağırlıklı yüz ifadesi tanıma sistemleri

PDF İndir

Tez No: 885516
Yazar: ERHAN BİÇER
Danışmanlar: PROF. DR. HATİCE KÖSE
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 107

Özet

Bu çalışmanın motivasyonu, sosyal robotlar gibi kaynakları sınırlı cihazlar için tasarlanmış, kaynakları verimli kullanan, hafif ağırlıklı yüz duygu tanıma (FER) sistemleri geliştirmektir. Bu robotlar, çocukların sağlık ve eğitim faaliyetlerini desteklemek için aracı olarak kullanılır. Bu sosyal robotlara duygu farkındalığı yetenekleri kazandırılarak etkileşimlerin daha doğal ve etkili hale getirilmesi amaçlanmıştır. Sosyal robotların sınırlı hesaplama kaynağı göz önünde bulundurulduğunda, gerçek zamanlı performans, verimli FER modelleri ile elde edilebilir. FER sistemlerinde genel yaklaşım şu şekildedir: yüz görüntülerine ön işleme uygulamak (1); işlenmiş yüz görüntülerini FER modeline beslemek (2). Model için hafif ağırlıklı çözümleri sunmadan önce, ön işlemedeki verimlilik araştırılmıştır. Bu bağlamda, araştırma grubumuzun önceki çalışmalarında verimsizliği görülen yüz maskeleme işleminin yüz ifadesi tanımaya olan etkisi ortaya çıkarılmıştır. Yüz maskeleme deneylerinde ön işleme adımları şu şekildedir: veriyi büyütme (döndürme, yatay çevirme ve kaydırma); yüzü tespit etme; tespit edilen yüzün koordinatlarını kullanarak yüzü kırpma; 68 yüz işaretini kullanarak yüzü hizalama; aydınlatma düzeltme (“illumination correction”) tekniğini uygulama; tespit edilen işaretleri kullanarak bir yüz maskesi uygulama. Çalışmamızda, uygulanan ön işleme akışına ilişkin 4. ve sonraki maddeler“maskeleme”olarak adlandırılmıştır. Ön işleme adımlarında DLib ve OpenCV kütüphaneleri yüz tespiti ve yüz işaret tespiti (“facial landmark detection”) amacıyla kullanılmıştır. Gerçek zamanlı çalışmalarda maskeleme gecikme yaratacağından dolayı yüz ifadesi tanıma performansına olan etkisi ihmal edilebilir bir önemlilikte ise ilerleyen çalışmalarda kullanılmayacaktır. Maskelemenin FER sistemleri için önemli bir iyileşme sağlayıp sağlamadığını değerlendirmek için VGG-Face, CAFE veri kümesinin hem maskeli hem de maskesiz versiyonu için farklı aydınlatma düzeltme teknikleri altında 15 farklı hiperparametre kombinasyonu ile eğitilmiş ve değerlendirilmiştir. Bu amaçla çocuk yüz ifadesi veri kümesi olan CAFE veri kümesi kullanılmış ve eylem birimi tespiti gerçekleştirilmiştir. Kapsamlı bir karşılaştırma için 3 kat çapraz doğrulama gerçekleştirilmiştir. Her bir aydınlatma koşulu grubunun maskelenmiş ve maskelenmemiş sonuçları için Shapiro-Wilk testi uygulanmıştır. Maskeli-maskesiz sonuç çiftlerinde normallik sağlanamadığından, anlamlı bir fark olup olmadığını belirlemek için parametrik olmayan, Kruskal-Wallis H testi kullanılmıştır. Bulgular, tüm aydınlatma koşulları için, p-değerleri anlamlı olmadığı için (>0,05), maskeli ve maskesiz veriler ile elde edilen sonuçların medyanının birbirine eşit olduğu sıfır hipotezini reddedemeyeceğimizi göstermektedir. Sonuç olarak, veri setinin maskeli versiyonunun doğrulukta önemli bir farka neden olduğu sonucuna varmak için yeterli kanıt elde edilememiştir. Bu sonuçlara dayanarak, gelecekteki gerçek zamanlı robotik uygulamalarımızda maskeleme prosedürlerini eylem birimi tespitinin ön işleme aşamasından çıkaracağız. Bu nedenle, maskeleme işlemi tez kapsamındaki diğer deneylerde de kullanılmamaktadır. Ön işleme adımlarının zaman maliyeti ve yüz ifadesi tanıma performansı üzerindeki etkisi araştırıldıktan sonra, FER için verimli çözümler araştırılmıştır. Bu amaçla iki ana yaklaşım kullanılmaktadır: model budama (1) ve bilgi damıtma (2). Budamayı uygularken amaç, model ağırlık matrislerindeki gereksiz ağırlıkları, değerlerini sıfırlayarak kaldırmaktır (seyrekleştirme). Öte yandan bilgi damıtma, karmaşık bir ağdaki bilgiyi nispeten daha hafif bir ağa aktarmayı amaçlar. Budamanın etkisi, hem duygu hem de eylem birimi (AU) tespiti için CAFE veri kümesi üzerinde araştırılmıştır. Model eğitimi boyunca, her adımdan sonra (her görüntü yığını işlendikten sonra), model ağırlıkları büyüklüğe göre sıralanır ve seyreklik gereksinimini karşılamak için en düşük büyüklüğe sahip ağırlıkların büyüklüğü sıfıra eşitlenir. Budama ile yapılan deneylerde, başlangıç seyrekliği 0,5 olarak ayarlanır ve istenen nihai seyreklik 0,8 olarak ayarlanır. Seyrekliği doğrudan 0,8 yapmak yerine, bu iteratif yöntemle model seyrekliğe daha uyumlu bir şekilde adapte olabilir. Budama deneyleri için VGG-Face kullanılmıştır. 3-Kat çapraz doğrulama kullanılmıştır. Modele, 0,00001 ve 0,000001 öğrenme oranları kullanılarak ince ayar uygulanmıştır. Budama uygulandığında 0,00001 ve 0,000001 öğrenme oranları için sırasıyla 0,8913 ve 0,8090 doğruluk elde edildiği gözlemlenmiştir. Budama yapılmadığında ise, 0,00001 ve 0,000001 öğrenme oranları için sırasıyla %88,31 ve %84,72 doğrulukları elde edilmiştir. Sonuçlar, 0,00001 öğrenme oranı kullanıldığında, model budamanın model performansını olumsuz etkilemediğini, hatta doğruluğun biraz daha yüksek olduğunu göstermektedir. Öte yandan, daha küçük bir öğrenme oranı kullanıldığında (0,000001), budamanın olumsuz etkisi ortaya çıkmaktadır. Bu nedenle, eylem birimi tespiti için budama deneylerinde 0,00001 kullanılmıştır. Budama uygulandığında %57,86, uygulanmadığında ise %56,08 doğruluk elde edilmiştir. Elde edilen AU modeli, işitme engelli çocuklar (HIC) veri kümesi üzerinde test edilmiştir. Genel olarak, AU tespiti performansları budama içeren ve içermeyen senaryolar için benzerdir. Model budaması kullanılarak elde edlen AU modeli, budanmış katmanlarda %71,91 seyreklik ve tüm modelde %35,16 seyreklik elde etmiştir. Modelin depolama boyutu Keras formatında 118,3 MB'den 59,8 MB'ye düşürülmüştür. Modelin kapladığı alan, ağırlıklar nicelendirilerek (“weight quantization”) ve .tflite formatına dönüştürülerek 15 MB'a kadar azaltılmıştır. Benzer oranlar duygu tanıma modellerinde de gözlemlenmiştir. Bu sonuçlar ile birlikte, işitme engelli çocuklar için hafif bir algoritma geliştirmek üzere elde edilen modele ince ayar uygulanılarak HIC veri setindeki performans arttırılabilir. Bu tezde, ağırlık budamanın yanı sıra bilgi damıtma yöntemi de kullanılmıştır. Bilgi damıtma yönteminde karmaşık bir modeldeki bilgi birikimi, hafif ağlar geliştirmek amacıyla küçük bir ağa aktarılır. Bu eğitim metodundaki karmaşık ağ öğretmen ağını ifade ederken, küçük ağ öğrenci ağı olarak adlandırılır. Bilginin damıtılması, öğrenci modelinin öğretmen model ile benzer çıktılar üretmesini amaçlayan damıtma kayıp fonksiyonu kullanılarak gerçekleştirilir. Bu, her iki ağın yumuşatılmış (“softened”) softmax çıktıları arasındaki Kullback-Leibler mesafesi kullanılarak elde edilir. Bununla birlikte, modeli, ağırlıklarını güncellerken etiket dengesizliğini dikkate almaya zorlamak için standart çapraz entropi kayıp fonksiyonuna odak kayıp fonksiyonu (“focal loss”) eklenmiştir. FER performansı yüksek bir öğretmen ağı geliştirmek amacıyla ilk olarak, doğruluk açısından en iyi transfer öğrenimini elde etmek için son evrişimli (“convolutional”) bloğun ağırlık güncellemesi için etkinleştirilmesi gerektiğini ortaya koyan ağırlık dondurma deneyi gerçekleştirilmiştir. Bu model, AffectNet'te %61 test doğruluğu ile sonuçlanmıştır. Affect-FER ismi verilen bu model, bilgi damıtma deneylerindeki öğretmen ağlarının temelini oluşturmuştur. Aynı zamanda, budanmış öğretmen senaryosu, budanmış öğretmen ağının, öğrenci ağının doğruluğunu artırıp artıramayacağını ortaya çıkarmak için test edilmiştir. Bu amaçla AffectNet üzerinde ağırlık budama deneyleri gerçekleştirilmiştir. Budanan modeller arasında en dengeli sonuç 0,00001 öğrenme oranı ile elde edilmiş, %59,37 test doğruluğu başarımına ulaşılmıştır. Budanmış öğretmen ile yapılan deneylerde, 0,00001 öğrenme oranına sahip budanmış model, yani Affect-FER-P, öğretmen ağının temelini oluşturmak için önceden eğitilmiş bir ağ olarak kullanılır. Ayrıca, budanmış ve budanmamış modeller arasında sıkıştırılabilirlik oranı incelenmiştir. Budama, modeli seyrekleştirdiğinden dolayı budama uygulanmayan modele göre daha fazla sıkıştırılması beklenir. Budanmış bir modelin budanmamış bir modele kıyasla daha etkili bir şekilde sıkıştırılabileceği hipotezi gzip sıkıştırma metodu kullanılarak test edilmiştir. Budanmamış modelin sıkıştırılmış model boyutu sırasıyla 0,00001 ve 0,0001 için 82,59 MB ve 82,60 MB'dir. Budanan modelin sıkıştırılmış model boyutu sırasıyla 0,00001 ve 0,0001 için 36,96 MB ve 40,99 MB'tır. Bulgular, model budamanın modelin sıkıştırılabilirliğini artırdığını göstermektedir. Hafif öğrenci modeli için LITEFER-V1 ve LITEFER-V2 geliştirilmiştir. LITEFER-V1, sırasıyla 4x4x32 ve 3x3x16 filtre şekillerine sahip iki evrişimli katman bloğu; ardından tek bir maksimum örnekleme katmanı (“maximum pooling”); 16 ve 7 nöronlu iki yoğun katman içeren sığ (“shallow”) bir CNN'dir (“evrişimli sinir ağları”). Öte yandan, LITEFER-V2'de derinlemesine ayrılabilir konvolüsyon (“depthwise separable convolution”) kullanılmıştır. Standart konvolüsyon katmanının aksine, konvolüsyon işlemi derinlikli (“depthwise”) konvolüsyon ve noktasal (“pointwise”) konvolüsyon olarak iki kısma ayrılmıştır. Konvolüsyon katmanının bu çeşidi, hem yüksek performansa hem de önemli ölçüde az sayıda parametreye sahip bir model geliştirme amacına uygundur. LITEFER-V2 sırasıyla 7x7x32, 9x9x64, 3x3x32, 5x5x64 boyutlarında dört adet derinlemesine ayrılabilir konvolüsyon bloğu; ardından tek bir maksimum havuzlama katmanı; 16 ve 7 nöronlu iki yoğun katman içeren bir CNN'dir. Yetişkinlerde yüz ifadesi tanıma için kullanılacak olan öğretmen modeli, Affect-FER modelinin CK+ üzerinde ince ayar uygulanması ile elde edilmiştir. Çocuklar için öğretmen yüz ifadesi modeli ise, Affect-FER modelinin CAFE üzerinde ince ayar uygulanması sonucu ile elde edilmiştir. Budanmış öğretmen senaryosu için Affect-FER-P, CK+ veri kümesi üzerinde ince ayarlanmıştır. LITEFER-V2, tüm alfa ve sıcaklık (“temperature”) hiperparametreleri için (alfa: 0.3/0.4, sıcaklık: 3/10) CK+ veri kümesinde LITEFER-V1'den daha iyi performans göstermiştir. LITEFER-V1'in en iyisi 82.49% ile sonuçlanırken, LITEFER-V2 tarafından 89.69% doğruluk elde edilmiştir. LITEFER-V2 en iyi performansını 0,3 alfa ve 3 sıcaklık ile elde etmektedir. Budanmış öğretmen (Affect-FER-P) senaryosunda kullanılan öğrenci ağı, LITEFER-V2 ile elde edilen mevcut performansları iyileştirememektedir. Öte yandan, yoğun (“fully connected”) katmanlarda yapılan deneyler ile LITEFER ile elde edilen doğruluk oranı 90.53%'e kadar çıkmıştır. CAFE (çocuk) deneyleri için, CK+ veri setinde etiketler açısından en dengeli kat'ta (“fold”) eğitilen öğrenci modeli seçilmiştir. Seçilen model, CK+ veri setindeki en iyi performansı gösteren hiperparametre grubundaki deneylerden seçilmiştir. Seçilen öğrenci modeli, öğretmen modeli Affect-FER ile eğitilmiştir. Elde edilen model %79,43 doğruluk ve %77,27 F-1 skoru elde etmiştir. Bu bilgi damıtma deneyleri ile öğretmenden, 1 MB'tan (445.24KB) daha az öğrenci modeline bilgi aktarımı sağlanmıştır. Önerilen model LITEFER'in çıkarım hızı ölçülmüş ve hem standart keras (.h5) hem de TensorRT formatında karmaşık öğretmen modeliyle karşılaştırılmıştır. Standart keras formatı için hem CPU hem de GPU performansları değerlendirilirken, TensorRT formatı yalnızca GPU performansı açısından değerlendirilmiştir. Bu hız analizi, RTX 3060 Dizüstü Bilgisayar GPU'su ve i7-12700H'ye sahip bir dizüstü bilgisayarda gerçekleştirilmiştir. Tek bir görüntü kullanılarak 100 kere uygulanan tahminin ortalama tahmin çıkarım süresi raporlanmıştır. LITEFER, keras formatını kullanarak GPU ve CPU için sırasıyla 37 ms ve 33 ms gecikme süresini elde etmiştir. LITEFER için standart keras formatının CPU performansı GPU'dan daha iyi performans göstermiştir. Ayrıca, LITEFER hem CPU hem de GPU için keras formatındaki öğretmen ağının hız performansını geçmektedir. GPU'da kullanıldığında, LITEFER saniyede yaklaşık 5,7 kare daha fazla işleyerek öğretmen ağdan daha iyi performans gösterir. CPU'da kullanıldığında LITEFER, öğretmen ağından saniyede yaklaşık 19,7 kare daha hızlıdır. TensorRT kullanıldığında, LITEFER 5,8 ms gecikmeye ulaşırken, öğretmen model ise 6,4 ms'ye ulaşır. Aralarındaki fark saniye başına işlenen kare sayısında daha belirginleşir: LITEFER, TensorRT'de 173,82 FPS'ye ulaşırken öğretmen ağı 156 FPS'ye ulaşmaktadır. TensorRT'nin hızlanmasından tam olarak faydalanmak için görüntü yığını tahminleri de gecikme ve verim açısından analiz edilmiştir. LITEFER, 128 görüntü içeren yığınları kullanarak 10 ms gecikme süresi ve 3213 FPS elde etmiştir. Bu performans ile 106,2 ms gecikme süresi ve 301 FPS sonuçlarının elde edildiği öğretmen ağından daha iyi performans gösterir. Böylelikle, TensorRT formatıyla ile yapılan tahminlemelerin standart keras formatına göre daha hızlı olduğu görülmüştür. Ayrıca, hafif ağırlıklı modelimiz LITEFER ve nispeten karmaşık VGG-Face tabanlı öğretmen modelimiz arasında çalışma zamanı açısından verimlilik farkı hem keras formatında hem de TensorRT formatında gözlemlenmiştir.

Özet (Çeviri)

The motivation of this study was to develop resource-efficient lightweight facial emotion recognition (FER) frameworks designed for resource-limited devices, such as social robots. These robots can serve as intermediary agents to support children's health and educational activities. By introducing affect-aware capabilities to these social robots, interactions can be more natural and effective. Considering the limited computational resource of social robots, real-time performance can be achieved by efficient FER models. In FER frameworks, the general approach is as follows: apply pre-processing on the data (1); feed the pre-processed data to the FER model to acquire the emotion output (2). Before exploring the lightweight FER solutions, efficiency in pre-processing is investigated. In this regard, effect of face masking process is revealed. Pre-processing steps are as follows in face masking experiments: augmenting data (rotation, horizontal flipping and shifting); detecting the face; cropping the face using coordinates of detected face; aligning the face using facial landmarks; applying illumination correction technique; applying a face mask using detected landmarks. In this study, 4th and following items are named as“masking”regarding applied pre-processing flow. To assess whether the masking provides significant improvement for FER systems or not, VGG-Face is trained and evaluated with 15 different hyperparameter combinations under different lighting correction techniques for both masked and unmasked version of the CAFE dataset. CAFE dataset, is utilized for this purpose and action unit detection is performed. 3-fold cross validation is carried out. Shapiro-Wilk test is applied for masked and unmasked results of each illumination condition group. Since normality is not achieved in pairs of results, non-parametric test is used to determine whether there is a significant difference or not. The Kruskal-Wallis H test results indicate that, under all illumination conditions, the null hypothesis stating the population medians of both masked and unmasked data are equal cannot be rejected, as the p-values exceed the significance level (greater than 0.05). As a result, there is insufficient information to conclude that the masked version of the dataset causes a significant difference in accuracy. Based on these results, face masking procedures will be omitted in the future real-time robotic applications. Thus, masking is also not used in other experiments within the thesis. After exploring the efficiency of pre-processing steps, efficient solutions for FER are explored. To this end, two main approaches are utilized: model pruning (1), and knowledge distillation (2). The motivation when applying pruning is to remove unnecessary weights by zeroing the value of those weights (sparsify). Knowledge distillation, on the other hand, aims to transfer knowledge from a complex network to a comparably lighter network. Effect of pruning is explored on CAFE dataset for both emotion and action unit detection. Throughout model training, after each step, model weights are ordered by magnitude, and weights with the lowest magnitudes are replaced with weights with zero magnitude to meet the sparsity requirement. In experiments with pruning, beginning sparsity is set as 0.5, and desired final sparsity is set as 0.8. VGG-Face is utilized for pruning experiments. 3-Fold cross validation is utilized. The model is fine-tuned using 0.00001 and 0.000001 learning rates. Results reveal that pruning leads to 0.8913 and 0.8090 accuracies for learning rates of 0.00001 and 0.000001, respectively. Without pruning, accuracies at 0.00001 and 0.000001 learning rates are 0.8831 and 0.8472, respectively. Results show that, when using 0.00001 learning rate, model pruning does not affect the model performance negatively, however, when less learning rate is used (0.000001), accuracy is decreased. Hence, generalization advantage that pruning brings can be used in a balanced learning rate. So, for action unit detection 0.00001 is utilized in pruning experiments. 0.5786% and 0.5608% accuracies are achieved with and without pruning respectively. Resulting AU model is tested on hearing impaired children (HIC) dataset. Overall, the performance of the AU detection is similar for the scenarios with and without pruning. With utilizing model pruning, resulting AU model achieved 71.91% sparsity in the pruned layers, and 35.16% in the overall model. Storage size of the model is reduced from 118.3 MB to 59.8 MB in Keras format. By quantizing weights and transforming into .tflite network, model can be reduced up to 15 MB. With these outcomes, this model can be fine-tuned with HIC to improve the performance. In addition to weight pruning, knowledge distillation method is utilized. In knowledge distillation, knowledge of a complex model is transferred into a small network. Complex network in this training scheme refers to teacher network while small network is named as student network. Distilling knowledge is achieved using the distillation loss, which leads student model to produce similar outputs. This is achieved using Kullback-Leibler divergence between the softened softmax outputs of both networks. Along with that, focal loss is introduced onto standard cross entropy loss to force the model to consider label imbalance when updating weights. To develop a robust teacher network for FER, firstly, weight freezing experiment is performed which reveal that last convolutional block should be enabled for weight updating in order to get the best of the transfer learning regarding accuracy. This model resulted in 61% test accuracy in AffectNet. This model, called Affect-FER, formed the basis of teacher networks in knowledge distillation experiments. Pruned teacher scenario is also tested to reveal whether pruned teacher network can improve the accuracy of the student network. To this end, model pruning experiments are performed on AffectNet. Most balanced result is achieved in pruning experiments with 0.00001 learning rate as 59.37% test accuracy. For experiments with pruned teacher, the pruned model with 0.00001 learning rate, namely Affect-FER-P, is used as a pre-trained network to form the basis of the teacher network. Also, the rate of compressibility is explored among models. The hypothesis that a pruned model can be compressed more effectively than a model without pruning is tested using the gzip compression method. Zipped model size of model without pruning are 82.59 MB and 82.60 MB for 0.00001 and 0.0001 repectively. Gzipped model size of model with pruning are 36.96 MB and 40.99 MB for 0.00001 and 0.0001 repectively. The findings indicate that model pruning enhances the compressibility of the model. For lightweight student model, LITEFER-V1 and LITEFER-V2 are developed. LITEFER-V1 is a shallow CNN with: two convolutional layer block with 4x4x32 and 3x3x16 filter shapes respectively; followed by a single max pooling layer and two fully connected neural networks with 16 and 7 neurons. On the other hand, depthwise separable convolutions are utilized in LITEFER-V2. In spite of the regular convolution layer, the convolution operation is divided into two parts as depthwise convolution and pointwise convolution. LITEFER-V2 is consisted of following layers: four depthwise separable convolution block with 7x7x32, 9x9x64, 3x3x32, 5x5x64 respectively; followed by a single max pooling layer and two fully connected neural networks with 16 and 7 neurons. Teacher models are obtained for adult and child FER by fine-tuning Affect-FER model on CK+ and CAFE respectively. For pruned teacher scenario, Affect-FER-P is fine-tuned on CK+ dataset. LITEFER-V2 outperformed LITEFER-V1 on CK+ dataset for all alpha and temperature hyperparameters (alpha: 0.3/0.4, temperature: 3/10). Best of LITEFER-V1 results in 82.49%, while 89.69% accuracy is achieved by LITEFER-V2. LITEFER-V2 achieves its best performance with alpha as 0.3 and temperature as 3. Student network that is utilized in the pruned teacher (Affect-FER-P) scenario does not improve the existing performances achieved with LITEFER-V2. On the other hand, with experiments on fully connected layers, the accuracy obtained with LITEFER reached up to 90.53%. For CAFE experiments, student model of the most balanced fold in CK+ experiments with best performing hyperparameters is selected. Student model is trained with the Affect-FER being as the teacher model. Best performing models achieved 79.43% accuracy and 77.27% F-1 score in average. With these experiments in knowledge-distillation, knowledge transfer from a teacher to a student with less than 1 MB (445.24KB) is achieved. Inference speed of the proposed model (“LITEFER”) is measured and compared with complex teacher model in both standard keras (.h5) and TensorRT format. This speed analysis is performed on a notebook with RTX 3060 Laptop GPU and i7-12700H. Using a single image, average inference time of 100 inferences is reported. LITEFER has the latency of 37 ms and 33 ms for GPU and CPU respectively using keras format. CPU performance of the standard keras format for LITEFER outperforms GPU. Also, LITEFER surpasses the speed performance of the teacher network in keras format. For GPU, LITEFER outperforms by nearly 5.7 frame per seconds. For CPU, LITEFER is nearly 19.7 frames per second faster than the teacher network. Using TensorRT, LITEFER achieves 5.8 ms and teacher achieves 6.4 ms. The difference becomes more apparent in throghput as LITEFER achieves 173.82 FPS in TensorRT, while teacher network achieves 156 FPS. Performance of batch predictions are also analyzed. Using batches with 128 images, LITEFER achieves 10 ms with 3213 FPS which outperforms the teacher network that has the latency of 106.2 ms and 301 FPS throughput. Thus, the predictions with the TensorRT format are faster than with the standard keras format. Moreover, the difference in runtime efficiency between our lightweight model LITEFER and our relatively complex VGG-Face based teacher model is observed.

Benzer Tezler

Tez No
797817
Evrişimsel sinir ağlarını kullanarak sahte yüz görüntülerinin tespit edilmesi
Detection of fake face images using convolutional neural networks
EMRE ŞAFAK
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NECAATTİN BARIŞÇI
Tez No
742499
Çekişmeli üretici ağlar ile yüz ifadelerinden duygu etiketleme
Emotion labeling from facial expressions with contact manufacturer networks
GİZEM ÖZGÜL
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Kültür Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATMA PATLAR AKBULUT
Tez No
841230
Personality prediction system based on physiognomy using face recognition
Yüz tanıma kullanılarak fizyognomiye dayalı kişilik tahmin sistemi
DHUFR FAROOQ NAJI AL OBAIDI
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliği Gaziantep Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEYDİ KAÇMAZ
Tez No
876907
Efficient human parsing and inpainting using advanced deep learning techniques
Gelı̇şmı̇ş derı̇n öğrenme teknı̇klerı̇nı̇ kullanarak etkı̇n ı̇nsan ayrıştırma ve inpainting
MD IMRAN HOSEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TARKAN AYDIN
Tez No
76506
Lightweight fly aggregate production using cold bonding agglomeration process
Soğuk bağ aglemorasyon işlemi ile uçucu kül hafif agregası üretimi
ATA GÜRHAN DÖVEN
Doktora
İngilizce
1998
İnşaat Mühendisliği Boğaziçi Üniversitesi
PROF. DR. GÖKHAN BAYKAL

Geri Dön