Geri Dön

Deep convolutional neural network based unconstrained ear recognition

Derin evrişimsel sinir ağı tabanlı kısıtsız kulak tanıma

  1. Tez No: 541786
  2. Yazar: FEVZİYE İREM EYİOKUR
  3. Danışmanlar: DOÇ. DR. HAZIM KEMAL EKENEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 85

Özet

Günümüzde derin öğrenme teknolojisi ile birlikte bilgisayarla görü uygulamaları başta pek çok kişi tarafından kullanılan akıllı telefonlar olmak üzere, üretimde fabrikalarda, kamu alanlarında, güvenlik ve gözetleme sistemlerinde kullanılmaktadır. Bu tür ürünlerin özellikle güvenlik sisteminde kullanımları sırasında insanların biyometrik özelliklerinden faydalanılır. Biyometrik özellikler kişi kimliklendirmek amacıyla kullanılan fiziksel ve davranışsal özelliklerdir. Biyometri tabanlı sistemler denilince akla, parmak izi tanıma, yüz tanıma, el ve retina tarama sistemleri gelmektedir. Fakat bu sistemlerin tümünde kullanılan biyometrik özellikler kişi tanımada güçlü özniteliklere sahip olmalarına karşın, zamanla değişme ve ya tahrip olma konusunda dezavantajlıdırlar. Örneğin, el zanaatleri ile uğraşan bir kişinin parmak izi görünümünde zaman içerisinde okunanama ve önceki parmak izi ile eşleştirilememe gibi problemler görülebilir ya da bir kişi gözlük/maske takmak suretiyle yüz tanıma sistemlerinde tanınma olasılığını azaltabilir. Aynı zamanda el, parmak izi ve iris gibi biyometrik özelliklerin kullanılması için bu organların taratılması gerekmektedir ve tarama işlemi kimi zaman zahmetli olabilecek bir aşamadır. Bu ve benzeri birçok durum göz önünde bulundurulduğunda, otomatik kişi kimliklendirme amacıyla kulak biyometrisinden yararlanmanın sistemlerin güvenilirliğine katkı sağlayacağı aşikardır. Biz de bu motivasyondan yola çıkarak, çalışmamızda kulak biyometrisi tabanlı kişi kimliklendirme problemini ayrıntılarıyla ele aldık. İnsan kulağı fiziksel yapısı bakımından (kıvrımları, girinti ve çıkıntıları, bütünsel görünümü) kişilere özgüdür ve biyometri tabanlı tanıma sistemlerinde kullanılmak için uygundur. Aynı zamanda kulağın yapısal gelişiminin büyük bir kısmını doğum öncesi tamamlaması ve doğumdan sonra boyutsal ve yaşlanmaya bağlı dokusal değişimler dışında yapısal herhangi bir değişime uğramaması kulağı güçlü bir biyometrik özellik haline getirir. Ayrıca, fotoğraflarda birçok açıdan görüntülenip kullanılabilmesi, estetikle ya da zamanla değişime karşı dirençli bir yapıya sahip olması kulak biyometrisinin başlıca avantajlı yönleridir. Ek olarak, kulak görünümü yüzün aksine mimiklerle birlikte değişime uğramaz, ışık koşullarından ve kafanın pozisyonuna ya da açısına bağlı değişimlerden daha az etkilenir. Kişinin sağ ve sol kulağı bile birebir aynı değildir. Bundan dolayı kulak biyometrisi ikizlerin ayırt edilmesinde yüze göre daha başarılıdır. Kulak biyometrisi günümüzde sıkça kullanılan yüz tanıma biyometrisine yardımcı bir modül olarak da kullanılabilir. Örneğin, bir güvenlik kamerasıyla kişinin profilden görüntüsü elde edilmiş ve yüz tanıma gerçekleştirilemiyorsa, profil imgesinden kulak tespti yapılarak tanıma gerçekleştirilebilir. Kulağı biyometrik yapısı ilk olarak 19. yüzyılda tespit edilmiştir. Adli bilimlerde uzun yıllardır kullanılan kulak biyometrisi, 1995 yılından beri kişi tanıma için otomatik sistemler geliştirilmesi aracılığıyla araştırılmaktadır. Kulak tanıma en temel anlamda 4 aşamadan oluşmaktadır. İlki, profil imgelerinden ya da kulak tespiti yapılabilecek açılardan görüntü elde edilmesidir. Daha sonra bu görüntülerden kulak tespiti yapılarak, sadece kulak bölgesini içeren imgeler kırpılır. Kesilmiş bu imgeler üzerinde bazı normalizasyon ve hizalama işlemleri yapılıp öznitelik çıkarma algoritmaları ile öznitelikler elde edilir. Son olarak, elde edilen bu öznitelikler makine öğrenmesi algoritmaları ile eğitilerek tanıma ve doğrulama için kullanılır. Bu sistemleri yaklaşımsal olarak incelediğimizde ise, son bir kaç yıldır yaygınlaşan evrişimsel sinir ağları (CNN) tabanlı çalışmalar dışında, kulak tanıma üzerine yapılan çalışmaları temel olarak dört gruba ayırabiliriz. Bunlar; lokal, bütünsel, geometrik ve hibrit öznitelik çıkarma tabanlı yaklaşımlardır. Geometrik tabanlı yaklaşımlarda kulağın geometrik yapısından faydalanılarak, örneğin; kulağın şekli ve antropometrik noktaları ve parçaları (tragus bölgesi gibi), çalışmalar yapılmıştır. Bu geometrik öznitelikler, geometrik anlamda oluşabilecek problemlere karşı dayanıklı olurken kulak doku bilgisinden faydalanılmaması bu yöntemin eksik yönlerindendir. Bir diğer yaklaşım olan bütünsel öznitelik çıkarma tabalı yöntemlerde ise, kulağın bütünsel yapısından öznitelikler öğrenilmeye çalışılmıştır. Bu sebeple bütünsel yaklaşımlarda aydınlanma, poz gibi koşulların değişmesinden kaynaklı zararlardan kaçınmak için kulak imgeleri normalizasyonu doğru bir şekilde yapılmalıdır. Lokal öznitelik tabanlı yaklaşımlarda ise kulak imgesinin lokal kısımları ya da lokal blok görünümlerinden faydalanılarak öznitelikler elde edilir. Geometrik özniteliklerden farklı olarak bu lokal parçalar lokasyon bazlı bir etkileşimde olmak ya da kulağın biyolojik olarak anlamlı bir parçası olmak zorunda değildir. Son yaklaşımda ise tüm bu yaklaşımlardan yararlanılarak öznitelikler elde edilip, yaklaşımların eksik yönleri diğerleri ile tamamlanıp yüksek tanıma başarımları elde edilmeye çalışılmıştır. Bütünsel ve lokal özniteliklerden farklı özellikte öznitelikler birleştirilerek güçlü tanıma performansı sağlamak hedeflenmiştir. Kulak tanıma alanında kullanılan veri kümeleri incelendiğinde ise genellikle toplanma koşullarına göre 2 farklı gruba ayrıldığı görülmektedir. Bunlar kontrollü koşullar altında toplanan veri kümeleri ve kontrolsüz koşullar altında toplanan veri kümeleridir. Kontrollü koşullar altında toplanan veri kümelerinde kulak imgeleri genellikle belirli poz ve ışık koşulları altında laboratuvar şartlarında toplanmaktadır. Bu veri kümelerinde zorlu koşullar bulunmasına rağmen, gerçek dünya koşullarına kıyasla yeterince farklı senaryonun ve zorluğun bulunmaması öğrenme algoritmaları için problemi kolaylaştırmaktadır. Bu sebeple özellikle derin öğrenme algoritmalarıyla gerçekleştirilen çalışmalarda çok yüksek kişi tanıma performansları elde edilmiştir. Fakat bu sonuçlar gerçek dünya koşullarında genellenebilirlik konusunda güven vermemektedir. Bu sebeple son yıllarda“unconstrained ear recognition challenge”ismiyle kontrolsüz koşullarda kulak tanıma konusunda düzenlenen yarışma ile internet üzerinden kontrolsüz koşullar altında toplanmış ilk kulak veri kümesi olan UERC veri kümesi sunulmuştur. Bu veri kümesi internetten rastgele bir biçimde toplandığı için veri çeşitliliği fazladır. Çözünürlük, aydınlatma, poz, etnik köken, aksesuar, kulak görüntülerinde saç vb. faktörlerden kaynaklı kısmi kapanma gibi pek çok yönden farklı koşullarda imgeler bulunmaktadır. Bu durum kulak tanıma problemini zorlayıcı bir hale getirmiştir ve bu veri kümesi üzerinde elde edilen başarımlar geçmiş çalışmalara göre düşüktür. Böylece kulaktan kişi tanıma problemi konusunda araştırmalar tekrar hız kazanmıştır. Ek olarak çalışmalar genellikle iki boyutlu imgeler kullanılarak yapılırken, üç boyutlu görüntülerden oluşan veri kümeleri de bulunmaktadır. Son yıllarda derin öğrenmenin popülaritesi başta bilgisayarla görü alanı olmak üzere pek çok farklı alanda sağladığı yüksek başarımlar nedeniyle önemli ölçüde artmıştır. CNN temelli yaklaşımlar ile özellikle sınıflandırma, tespit ve bölütleme alanlarında yüksek başarımlar elde edilmiştir. Geçmiş yıllarda kulaktan kişi tanıma alanında en iyi başarımlar SIFT, SURF gibi öznitelik çıkarma yöntemleri ile öznitelikler çıkartılıp sınıflandırma algoritmalarıyla eğitilerek elde edilirken derin öğrenme algoritmalarının yaygınlaşmasıyla CNN tabanlı yaklaşımlar önerilmiş ve çok daha yüksek başarımlar elde edilmiştir. CNN modelleri esas olarak eğitim için büyük miktarda veri gerektirdiğinden sınırlı sayıda örnek sayısına sahip olan kulak tanıma veri kümeleri ile sıfırdan CNN modeli eğitmek mümkün değildir. Bunun yerine transfer öğrenmesi adı verilen genellikle çok sayıda imge içeren ImageNet gibi veri kümeleri ile eğitilmiş ön eğitimli bir modelin ağırlıkları kullanılarak eğitim başlatılmaktadır. Bu durum küçük veri kümeleri üzerinde de CNN tabanlı yaklaşımların kullanılmasına imkan vermiş ve derin öğrenme modellerinin gücünden yararlanarak yüksek başarımlı çözümler üretilmesi sağlanmıştır. Bu çalışmada CNN modellerinin güvenilir öznitelik çıkarma özelliğinden yararlanılarak kulak tanıma alanında yeni bir zorluk olan“in the wild”veri kümesi üzerinde kulaktan kişi tanıma başarımları artırılmaya çalışılmış ve eğitim detayları incelenmiştir. Bunun yanı sıra kulak tanıma alanındaki bilindik birçok referans veri kümesi üzerinde önerilen yaklaşım uygulanmıştır. Bu veri kümeleri sırasıyla WPUT, IITD, AMI, CP ve AWE'dir. İnce-ayar gerçekleştirmek için AlexNet, VGG gibi popüler ön eğitimli modellerden faydalanılmıştır. Kulak veri kümelerinde genel olarak az miktarda veri (maksimum 2304 imge) olduğundan transfer öğrenmesinden yararlanılmış ve ayrıca transfer öğrenmesi uygulanırken kulak alanını modele öğretmek amacıyla iki aşamalı ince-ayar yöntemi önerilmiştir. Alan uyarlaması olarak adlandırılan bu yöntemi gerçekleştirmek amacıyla popüler bir yüz imgeleri veri kümesi olan Multi-PIE veri kümesinden kulakların görülebildiği tüm pozlar kullanılarak kulaklar tespit edilmiş ve kırpılmıştır. Bu sayede Multi-PIE kulak veri kümesi olarak adlandırdığımız yeni bir kulak veri kümesi elde eğilmiştir. Oluşturulan bu kulak imgeleri veri kümesi içerdiği 205 kişiye ait 17183 kulak imgesiyle literatürdeki en büyük veri kümelerinden biridir. Alan adaptasyonunun ilk adımında ImageNet veri kümesi üzerinde eğitilmiş ön eğitimli modellere Multi-PIE kulak veri kümesi üzerinde ince-ayar gerçekleştirilerek modellerin kulak alanına uyarlanması amaçlanmıştır. Daha sonra kulak alanına uyarlanan bu model hedef veri kümemiz olan UERC üzerinde tekrardan ince-ayar yapılarak performans artırımı hedeflenmiştir. Bunların yanı sıra, tanıma başarımlarını arttırmak amacıyla veri arttırma, yön olarak hizalama, skor seviyesinde birleştirme gibi yöntemler önerilmiş ve center loss, large-margin softmax loss gibi yenilikçi kayıp fonksiyonlarından faydalanılmıştır. Veri artırımında verinin miktarını ve çeşitliliğini artırarak derin öğrenme modellerinin daha çok veri ve daha çeşitli senaryo görmesini sağlayarak performansının artması amaçlanmıştır. Yön olarak hizalama yönteminde ise tüm kulaklar tek bir yöne hizalanarak performans üzerinde etkisi incelenmiştir. Daha sonra test aşamasında farklı derin öğrenme modelleri skor seviyesinde birleştirilerek başarımların artırılması hedeflenmiştir. Bu amaç doğrultusunda, CNN modellerinin her bir test imgesi için yaptığı tahminlerin olasılık değerlerinden yararlanılarak modellerin güvenilirlik skorları hesaplanmış ve en yüksek güvenilirlik skoruna sahip modelin o test imgesi için yaptığı tahmin geçerli sayılmıştır. Her test imgesi için bu işlem tekrar edilerek başarım hesaplanmıştır. Son olarak kişilere özgü özniteliklerin daha iyi ayırt edilebilmesi amacıyla“large-margin softmax loss”ve“center loss”kayıp fonksiyonlarında yararlanılmıştır. Softmax kayıp fonksiyonunun aksine large-margin softmax kayıp fonksiyonu sınıflar arası bir tolerans (margin) değeri belirleyerek özniteliklerin birbirlerinden uzaklaşması ve böylece daha iyi ayırt edilebilir olmasını sağlamaktadır. Center loss ise her bir sınıfın merkezini tespit ederek bu merkez ile öznitelikler arası mesafeleri kayıp fonksiyonuna ekleyerek öznitelikleri ait oldukları sınıfın merkezine yakınlaşmaya zorlamaktadır. Tüm bu analizler sonucunda veri artırımının, skor seviyesinde birleştirmenin ve yenilikçi kayıp fonksiyonlarının başarımlar üzerinde önemli katkıları olduğu gözlenmiştir. Fakat kulakları yön bazlı hizalamanın performansta düşüşe sebep olduğu tespit edilmiştir. Hedef veri kümesi olarak kullanılan UERC veri kümesinin imge kalitesinin kulak başarımı üzerindeki etkisi incelenmiştir. Bu amaçla imgelerin ortalama piksel değerlerinin ve kırpılan kulak görüntülerinin en-boy oranlarının performansa etkisi analiz edilmiştir. Tüm bu deneylere ek olarak kullanılan farklı kulak veri kümelerinin her biri bir sınıf olacak şekilde veri kümesi sınıflandırma deneyleri gerçekleştirilmiştir. Bu deneyler sonucunda veri kümelerinin %99.71 gibi yüksek bir başarımla ayırt edilerek dataset bias probleminin varlığı ortaya konmuştur. Kontrollü koşullar altında toplanmış olan ve yukarıda adı geçen veri kümelerinde (bu çalışma ile oluşturulan Multi-PIE kulak veri kümesi de dahil) %90'ların üzerinde başarımlar elde edilirken, AWE veri kümesinde %50 civarında performans elde edilmiştir. Asıl hedef veri kümemiz olan UERC veri kümesinde ise alan uyarlaması ve veri artırımı yöntemleri kullanılarak SqueezeNet derin CNN modeli ile derece-1 %65.25 , derece-5 %81.97 sınıflandırma başarımları elde edilmiştir. Önceki çalışmada elde edilen en iyi sonuç bu yöntemle %3.25 farkla geçilmiştir. Diğer derin öğrenme modelleri kıyaslandığında ise yaklaşık %12'lere varan bir başarım artışı elde edilmiştir. Daha sonra skor seviyesinde birleşme yöntemi uygulanarak başarım %65.25'ten %67.53'e çıkarılmıştır. Son olarak ise yenilikçi kayıp fonksiyonlu large-margin softmax loss VGG-16 modeli ile kullanılarak %68.18 sınıflandırma başarımı elde edilmiştir ve bu tezde elde edilen en iyi sonuçtur.

Özet (Çeviri)

Biometrics is absolutely a critical point on security where human beings interact with machines since it is the key for human identification based on the uniqueness of biometric traits such as fingerprint, iris and ear. Currently, ear biometry is becoming one of the popular research topics on the biometrics and forensic fields. Especially, the ear recognition in-the-wild domain gains importance due to the usability on security purposes and being assistive to the other frequently used biometrics such as face recognition. In addition to being supportive, it may sometimes be an alternative method relative to being more stable over time and not affected from expressions as much as faces. However, ear recognition under unconstrained conditions is a challenging task by reasons of occlusions, variety of head poses, different illumination and low resolution conditions. With ear datasets which were collected under laboratory-like conditions, the high recognition performances are achieved but it is not guaranteed that these type of systems can be robust to the real-world environments. Besides, deep learning models have easily become aware of controlled conditions and obtain high performance on constrained ear datasets that is proven with recent researches. In this thesis, we have comprehensively analyzed ear recognition problem under both constrained and unconstrained conditions. To address this problem, we have benefited from deep convolutional neural networks to enhance the recognition model. We leveraged the ability of deep learning models to learn features for high performance. For this purpose, we used most popular CNN models, which are AlexNet, VGG-16, GoogLeNet, and SqueezeNet. Then, we proposed a domain adaptation approach to improve the performance on UERC dataset which is one of the recently collected unconstrained ear dataset. To enable the domain adaptation, we have generated a new dataset which is one of the biggest ear datasets to the best of our knowledge, from Multi-PIE face dataset and we named it as Multi-PIE ear dataset. Also, we utilized transfer learning method by using pretrained models and we have adapted them to the ear domain. Moreover, we used the common approaches such as data augmentation and data alignment to obtain better results. To improve the performance further, score level fusion with different CNN models has been employed. Besides, one of the developed new loss functions which are center loss and large margin softmax loss have been applied. The domain adaptation technique improved the classification performance around 4% for almost all models. Then, with data augmentation technique, the accuracy is increased 3%. Unlike domain adaptation and data augmentation, the alignment technique did not work in terms of performance gain. Further, with score level fusion approach, we obtained 3-4% performance improvement and we achieved 67.53% accuracy. After, we have achieved 68.18% classification performance with VGG-16 model using center loss. These results show that domain adaptation and data augmentation lead to a significant performance improvement even for unconstrained ear datasets. Further, we analyzed the effect of image quality such as illumination change, resolution and view angle on performance and we have concluded that image quality has significant effect on accuracies. In our last experiment, we have conducted a dataset identification experiment to addressed whether dataset bias problem exists in ear domain. As a result of this, we obtained 99.71% classification accuracy which indicates that there is a strong bias between ear datasets. And this issue has to be investigated further.

Benzer Tezler

  1. Age and gender classification from ear images

    Kulak imgelerinden yaş ve cinsiyet sınıflandırma

    DOĞUCAN YAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL

  2. Scorenet: Derin kaskat skor seviyesi füzyonu ile kısıtlanmamış görüntüler üzerinden kulak tanıma

    Scorenet: Unconstrained ear recognition with deep cascade score level fusion

    ÜMİT KAÇAR

    Doktora

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MÜRVET KIRCI

  3. Unconstrained face recognition under mismatched conditions

    Eşleşmeyen koşullar altında yüz tanıma

    OMID ABDOLLAHI AGHDAM

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL

  4. Human activity recognition using deep learning

    Derin öğrenme ile insan aktivitesi tanıma

    MURAT YALÇIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜLYA YALÇIN

  5. An improved transfer learning based siamese network for face recognation

    Yüz tanıma için geliştirilmiş aktarım öğrenme tabanlı sıamese ağı

    DALHM GHALIB HALBOOS AL-SHAMMARI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    البروفيسور. دكتور. DEVRİM AKGÜN