Geri Dön

BMI prediction from face images

Yüz görüntülerinden vücut kitle indeksi tahmini

  1. Tez No: 562687
  2. Yazar: GÜLPINAR BÖLÜKBAŞ
  3. Danışmanlar: PROF. DR. MUSTAFA ERSEL KAMAŞAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 65

Özet

Vücut kitle indeks (VKİ) bilgisi yaş ve cinsiyet ile birleştirildiğinde fiziksel ve psikolojik sağlığın bir göstergesidir. Felegal vd. [5]'nde belirtildiği gibi sağlıklı bir vücut ve zihin göstergesi olarak VKİ için kabul edilen aralıklar tanımlanmıştır. Genel olarak, normal bir VKİ 18.5 ile 25 arasında olmalıdır. VKİ değeri 25 ile 30 arasında olan bir kişi fazla kilolu ve VKİ değeri 30 üzeri olan bir kişi ise obez olarak değerlendirilir. Aynı değerlendirmeye göre eğer bir kişinin VKİ değeri 18.5 den düşük ise bu kişi çok zayıf olarak değerlendirilir. Yüksek VKİ değerine sahip olmanın anlamı fazla kiloya sahip olmak demektir ve sağlık açısından ciddi sonuçları olabilmektedir.Pearson-Stuttard vd. [6]'nde değinildiği üzere fazla kiloya sahip olmak diyabet, romatizmal hastalıklar, bir çok kanser türü (göğüs, kolon ve prostat), yüksek kan basıncı (hiper tansiyon), yüksek kolestrol ve uyku apnesi gibi bir çok bozukluk için yüksek risk taşımayı da beraberinde getirmektedir. VKİ'nın“sağlığı”veya fizyolojik bir durumu ölçmediği konusunda bazı tartışmalar bulunmaktadır. Bu tartışmalara göre VKİ sadece vücut büyüklüğünün bir ölçüsüdür. Lavie vd. [7]'de,“obezite paradoksu”kavramını tanımlamışlardır. Yapılan bazı deneyler göstermiştir ki VKİ'leri biraz daha yüksek olan insanlar aslında daha uzun yaşama eğilimindedirler. Sağlıktan farklı bir alan olarak sosyal medya endüstrisinde de VKİ önemli bir bilgidir.Tüketici ürünleri geliştirilmesinde, ürün kalitesi artırma ve reklam olanakları yaratılması problemlerine uygulanabilmektedir. Tüm bu kullanım olanakları bir çok etik tartışmalara sebep olmaktadır. Bu çalışmada, bir kişinin VKİ bilgisi, yüz resminden herhangi bir boy ve kilo bilgisi olmaksızın tahmin edilmiştir. Bu tahminleme, bir makine öğrenmesi sistemi ile başarılmıştır.Bu sistem iki ana kısımdan oluşur. İlk kısımda transfer learning gibi bazı yapay sinir ağları konseptleri ve metodolojiler kullanılmış, öznitelik çıkarımı fonksiyonalitesi geliştirilmiştir. Yüz verisinden VKİ gibi daha özel bir bilgiye ulaşmak, öznitelik kestirimleriyle ilgili optimizasyon yapmayı zorunlu kılmaktadır. Bu çalışmada öznitelik çıkarımı için yapay sinir ağlarından faydalanılmıştır. Klasik yapay sinir ağı modelleri nöronlar ve katmanlardan oluşmaktadır. Yapay Sinir Ağları biyolojik sinir ağlarından esinlenmiştir. Her nöron bir dizi giriş değerini bir dizi çıktıya dönüştürür ve bir sonraki nörona bağlanır.Nöronlara giriş olarak sayısal değerler verilir ve bu değerler giriş sinyalinin gücünü temsil eder. Üretilen çıktı bu nörondan ayrılan sinyalin gücünü temsil eder. Bilgi yapay sinir ağı üzerinde nöronlar aracılığı ile akıtılır ve üretilen çıktının doğruluğuna göre nöronların ağırlıkları arttırılır veya azaltılır. Matematiksel olarak, giriş değerleri her bağlantıyla ilişkilendirilen ağırlığın değeri ile çarpılır. Bir nöron bağlantılarındanğirdi aldığında, nöron tüm girdi değerlerini toplar. Nöronun ayrıca toplanan girdi değerleri göz önüne alındığında ne kadar çıktı üreteceğini belirleyen bir aktivasyon fonksiyonu vardır. Bu fonksiyonalar üretilen çıktıların belirli bir değer aralığında kalmalarını sağlar.Nöronların ağırlıklarının her biri, nöronun matematiksel olarak nasıl davrandığını ayarlamak için arttırılıp azaltılabilen değerlerdir ve bunlara ağırlık parametreleri denir. Böylece, parametreleri değiştirmek nöronun davranışını değiştirir. Bir nöronun çıktısını matematiksel olarak hesaplamak için girdi, bağlantıların ağırlığı ve toplamı, aktivasyon işlevleri ve çıktı matematiksel bir denklem olarak gösterilir. Bu, nöronun davranışının hesaplamalı olarak modellenmesini sağlar. Bir dizi yapay nöron birbirine bağlanarak yapay sinir ağlarını oluşturur. Yapay bir sinir ağı genel olarak , bir giriş katmanından, tahmin üreten bir çıktı katmanından ve giriş ile çıkış arasında bulunan gizli katmandan oluşur.Bir sinir ağının eğitilmesi sırasında iki önemli matematiksel hesaplama yapılmaktadır. Bu iki adım [8]'de belirtildiği gibi ileri ve geri yayılma olarak bilinmektedir . İleri yayılım sırasında, eğitim veri setindeki her bir örnek için ağdaki nöronların o anki değerleri kullanılarak bir çıktı üretilir. Ağın doğru bir tahmin yapıp yapmadığını tespit etmek için veri setindeki doğru değerler ile çıktı karşılaştırılır. Tahmin hatası bir geri besleme olarak ağdaki nöronların ağırlıklıkarını değiştirmek için kullanılır ve bu matematiksel adıma da geri yayılma denir. Derin sinir ağları genellikle birden fazla gizli katman içerir. Daha fazla gizli katman daha fazla derinlik anlamına gelirken derinlik yardımıyla karmaşık fonksiyonlar gerçeklenebilir. Örneğin, derin bir sinir ağı insan yüzü tanıma yapması için eğitilecekse, giriş katmanından farklı yüzlerin neye benzediğini öğretmek için bir dizi insan yüzünü işaretli olarak ağa beslemek gerekir. Sinir ağlarında ilk gizli katmanlar, geometrik ilkelleri tespit etmeyi öğrenir. Daha çok yatay çizgiler, dikey çizgiler, çapraz çizgiler, kenarlar öğrenilir. Ortadaki gizli katmanlar daha karmaşık yüz özelliklerini algılamayı öğrenebilirler. Ortadaki katmanlarca gözler, burun veya ağız tanımlanabilir. Son gizli katmanlar, tüm yüzler için genel kalıbı algılamayı öğrenir ve çıktı katmanı, bir kişinin verisetinde kullanılan işarete bağlı olarak, isim gibi soyut bir tanımını öğrenir. Girişten çıkışa doğru her katman, önceki katmandan daha karmaşık özellikler çıkarmayı öğrenir. Sonuç olarak, her bir ek katman önceki katmandan daha fazla soyut temsil tespit eder.İlk katmanlar ayrıntıları , son katmanlar soyutlamayı öğrenmiş olur. Tüm bu nöronlar ve arasındaki bağlantılar, öğrenilen parametreler çok büyük hesaplama zorlukları ortaya çıkarmaktadır. Ve aynı zamanda çok fazla veri gerekmektedir. VKİ bilgisini bir yüz resminden tahmin edebilmek için öncelikle yüz öğrenilmiş olmalıdır,yani yanak dolgunluğu, göz şekli surat yuvarlaklığı veya keskinliği gibi özelliklerin tespit ediliyor olması gerekir. Tüm bu özelliklerin en başından sinir ağına öğretilmesi için çok derin bir ağ, çok fazla parametre ve veri gerekir. İşte tam bu noktada hali hazırda bu özellikleri öğrenmiş modelleri öznitelik çıkarmak için kullanmak mümkündür. Yeni ek bir öğrenme sağlanmadan, ön öğrenilmiş model kullanılmasının sebebi yeterince veri bulunmamasıdır.Bu çalışmada da iki farkı ön öğrenilmiş model kullanılmıştır. Kullanılan bu modeller [2] de belirtildiği gibi VGG-Face ve [9] de belirtildiği gibi InceptionV3 tür.Deneyler her iki model için de gerçekleştirilmiş ve ikinci adım için girdi olarak kullanılmıştır. İkinci adım olarak, regresyon fonksiyonalitesi parametre düzenleme gerçekleştirilerek geliştirilmiştir. Regresyon fonksiyonalitesi için, Gradient Boost Regresyon, Rastlantısal Orman Regresyon ve Epsilon Destek Vektör regresyon olmak üzere üç farklı regresyon metodu kullanılmıştır. Ayrıca öznitelik boyutu indirgeme yaklaşımı olarak , Temel Bileşen Analizi (TBA), [10] de belirtildiği gibi kullanılarak yapay zeka sisteminin çıktısı olan öznitelik vektörüne uygulanmıştır. Sonuçlar TBA'lı ve TBA'sız olarak değerlendirilmiştir. Bu çalışmanın bir parçası olarak, VisualBMI [11] veri seti arttırılmaya çalışılmıştır.Bu eforun amacı daha büyük veri seti elde ederek, ön öğrenilmiş modelleri VK İtahmini için özelleşmiş veri seti ile eğitmek ve VK İtahmin değerini etkileyen, daha başarılı öznitelikler öğrenmektir. Veri toplama çalışmaları bu motivasyon ile başlamıştır. Bu çalışmanın bir çıktısı olarak, bir test veri seti önerilmiştir. Tüm veri sosyal medya reimleri üzerinden topanmıştır ve veri temizleme yöntemleri kullanılarak işlenmiştir. Yeni veri seti sadece test amaçlı kullanılmıştır. Bu çalışmada kullanılan esas veri seti [11] de belirtildiği gibi Visual BMI verisetidir. Bu veri seti tüm eğitim ve doğrulama için kaynak olarak kullanılmıştır.

Özet (Çeviri)

Body mass index (BMI) with age and gender is one of the good indicators of physical and psychological health. As an indicator of the healthy body and mind, there is a range that is accepted as normal for BMI [5]. In general, a normal BMI is between 18.5 and 25. A person with a BMI between 25 and 30 is considered overweight, and a person with a BMI over 30 is considered obese. A person is considered underweight if the BMI is less than 18.5. Having higher BMI indicates the excess weight which may result in serious consequences for human health [6]. Excess weight comes with a higher risk of developing a variety of health issues. Some of these disorders are listed as diabetes, arthritis, liver disease, several types of cancer (such as those of the breast, colon, and prostate), high blood pressure (hypertension), high cholesterol, and sleep apnea. There is also some controversy on that BMI itself does not measure“health”or a physiological state. It is simply a measure of body size. Also in a study,“obesity paradox”is defined and some experiments show that people tend to live longer if their BMI is a bit on the higher side [7]. In a different field than health, in the social media industry, BMI prediction is a possible tool to increase recommendation qualities and advertisement possibilities for consumer products. On the other hand, some dating sites have similar face image data, which may be used to predict matches. All these possibilities come with a lot of ethical issues. In this study, we will try to predict BMI from any face image. In the scope of this study, BMI value of a person is predicted from a face image without any height and weight information. This prediction is achieved with machine learning algorithms. This system consists of two main parts. In the first part, some neural networks concepts and methodologies such as transfer learning have been used, and feature extraction functionality has been improved. Retrieving more specific information from face data, such as BMI, requires optimization of feature extraction.In this study, feature extraction is implemented with the neural networks. Artificial Neural Networks are inspired by biological neural networks. Each neuron converts a set of input values into output and connects to the next neuron. The generated output represents the power of the signal which leaves from this neuron. The information flows through the neurons on the artificial neural network and the weights of the neurons are increased or decreased according to the accuracy of the output produced. Mathematically, input values are multiplied by the value of the weight associated with each link. The neuron collects all input values from incoming neuron connections. The neuron also has an activation function which determines the outputs produced to remain within a certain range of values. Thus, changing the parameters changes the behavior of the neuron. In order to mathematically calculate the output of a neuron, the inputs are multiplied with the weight and sum of the connections are used as an input for activation functions. The output of the activation function is a mathematical equation. This allows computational modeling of the behavior of a neuron. An artificial neural network is a series of artificial neurons which are connected to each other. An artificial neural network generally consists of an input layer, an output layer producing an estimate, and hidden layers between the input and output. Two important mathematical calculations are made during the training of a neural network. These two steps are known as forward and backward propagations [8]. During forward propagation, an output is generated using the current weights of the neurons in the network for each sample in the training data set. The output is compared with the labeled values in the data set to determine if the network is making an accurate prediction. The estimation error is used to update the weight of the neurons in the network as a feedback, and this mathematical step is called backward propagation. Deep neural networks generally contain multiple hidden layers. More hidden layers mean more depth and more complex functions can be implemented with deeper neural networks. For example, if a deep neural network is to be trained to make human face recognition, a series of people face should be used to teach how a face differs from one to another. The first hidden layers of the neural networks learn to detect geometric primitives. Generally, in these first layers, horizontal lines, vertical lines, diagonal lines, edges are learned. Hidden layers in the middle can learn more complex facial features. In the middle layers, eyes, nose or mouth can be detected. The last hidden layers learn the general pattern for all faces, and the output layer learns an abstract definition, such as the name, depending on the label used in the data set. From input to output, each layer learns to extract more complex features from the previous layer. As a result, each additional layer detects more abstract representation than the previous layer. The first layers learn the details, the final layers learn abstraction. The links between all these neurons and the learned parameters bring enormous calculation difficulties. And it also requires a large amount of data. In order to estimate BMI from a face image, firstly facial, fullness, eye shape face roundness or sharpness should be detected. To learn all these features requires a deep neural network, too many parameters and a lot of data to be taught from scratch. At this point, it is possible to use models that have already learned these features, for the feature extraction. In this study, for feature extraction, two different pre-trained models are used. The reason behind using pre-trained models without any additional training activities is the lack of enough data. These models are VGG-Face [2] and InceptionV3 [9]. Experiments are performed with both models and both are used as input for the regression. As the second step regression functionality is developed with parameter tuning studies. For the first part, we used neural network concepts and methodologies like transfer learning and for the second part we tried three types of regression methods which includes Gradient Boost Regression, Random Forest Regression and e-SVR. Also as a dimensionality reduction approach, principal component analyses (PCA) is applied to the feature vector which is the output of the neural network [10]. As a part of this study, we tried to extend the VisualBMI dataset. The purpose of the effort is the create a bigger dataset to train pre-trained models with the BMI specific dataset and learn more accurate features which are affecting the BMI. Data collection studies started with this motivation. As the output of this study we propose a test set. All data are collected from social media images and processed with data cleaning techniques. New dataset is used as only for testing purposes. The main dataset which is used in this study is VisualBMI dataset [11].

Benzer Tezler

  1. Morbid obez hastalarda ultrason kullanılarak zor havayolu tahmini

    Difficult airway prediction using ultrasound in morbidly obese patients

    SEVİM AKIN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2021

    Anestezi ve ReanimasyonFırat Üniversitesi

    Anesteziyoloji ve Reanimasyon Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ESEF BOLAT

  2. Okul öncesi çocuklarda beslenme tarama aracının geçerlik güvenirliği ve web tabanlı eğitimin riskli beslenmeye etkisi

    Validity and reliability of the nutrition screening tool for every preschooler and the effect of web based education on nutritional risk

    MERVE AZAK

    Doktora

    Türkçe

    Türkçe

    2023

    Hemşirelikİstanbul Üniversitesi-Cerrahpaşa

    Çocuk Sağlığı ve Hastalıkları Hemşireliği Ana Bilim Dalı

    PROF. DR. DUYGU GÖZEN

  3. Non-obez geç adölesanlarda yağlı karaciğer indeksleri (yağlı karaciğer indeks, FIB-4 skoru, APRİ skoru, NAFLD fibrozis skoru) ve antropometrik ölçümlerin değerlendirilmesi

    Evaluation of fatty liver indexes (fatty liver index, FİB-4 score, APRİ score, NAFLD fibrosis score) and anthropometric measurements in non-obesic late adolescents

    FURKAN DUMAN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Aile HekimliğiSağlık Bilimleri Üniversitesi

    Aile Hekimliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ELİF SERAP ESEN

  4. Obez hastalarda zor entübasyonu ve zor maske ventilasyonunu tahmin edebilmede boyun çevresinin çene-ense çevresine oranının diğer ölçümlerle karşılaştırılması

    Comparison of the ratio of the neck circumference to the jaw-neck circumference in obese patients to estimate difficult intubation and difficult mask ventilation

    ADEM SELVİ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2020

    Anestezi ve ReanimasyonSağlık Bilimleri Üniversitesi

    Anesteziyoloji ve Reanimasyon Ana Bilim Dalı

    DOÇ. DR. ESRA ÖZAYAR

  5. A cross-sectional study: prevalence of obesity and related factors (knowledge, perceptions, attitudes and behaviors) in women aged ≥18 years in Mogadishu Somalia

    Mogadişu (Somali)'de 18 yaş ve üzeri kadınlarda obezite prevalansı ve ilişkili faktörler (bilgi, algı, tutum ve davranışlar)

    BISMA ABDULLAHI ALI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Halk SağlığıYeditepe Üniversitesi

    Halk Sağlığı Ana Bilim Dalı

    PROF. DR. RECEP EROL SEZER