Geri Dön

Scorenet: Derin kaskat skor seviyesi füzyonu ile kısıtlanmamış görüntüler üzerinden kulak tanıma

Scorenet: Unconstrained ear recognition with deep cascade score level fusion

  1. Tez No: 546461
  2. Yazar: ÜMİT KAÇAR
  3. Danışmanlar: DOÇ. DR. MÜRVET KIRCI
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 104

Özet

Günümüzün en büyük problemlerinden biri kişisel verilerin saklanması, doğrulanması ve yapay bilgilerden doğru bir biçimde ayrıştırılmasıdır. Kişisel kimlik bilgisi söz konusu olduğunda da biyometrik veriler ilk akla gelen veriler olmaktadır. Biyometrik verilerin elde edilmesinde yaygın olarak kullanılan kapalı devre televizyon (CCTV) kameralar şüpheli kişi tespit ve tanıma için oldukça büyük bir potansiyele sahiptir. CCTV kameralar ile şüpheli kişilerin yüz ve kulak biyometrik verileri elde edilebilmektedir. Ancak, gerçek dünya senaryolarında biyometrik verinin poz, aydınlatma, arka plan, düşük çözünürlük, oklüzyon vb. nedenlerden dolayı kaliteli olarak elde edilmesi oldukça zordur. Ayrıca güvenlik ve emniyet birimlerinin veri tabanında, bireylerin biyometrik verisi sınırlı sayıda mevcuttur. Bununla birlikte, şüpheli kişilerin doğal olarak işbirlikçi olmamaları nedeni ile şüpheli kişilerden elde edilecek biyometrik verinin kalitesi oldukça düşük olabilmektedir. Tüm bu bahsedilen sorunlar“Kısıtlanmamış ve Sınırlı Veri Problemi (ULDP)”olarak tanımlanmıştır. Bu problemin üstesinden gelebilmek için“ScoreNet”adı verilen yeni bir mimari önerilmiştir.“ScoreNet”mimarisi hem modalite havuzunu hem de füzyon öğrenme algoritmasını içermektedir. Füzyon öğrenme algoritması için“Derin Kaskat Skor Seviyesi Füzyon (DCSLF)”algoritması geliştirilmiş; modalite havuzu için de çeşitlilik bakımından zengin ve modüler yapıya sahip özgün bir modalite havuzu oluşturulmuştur.“ScoreNet”, bugüne kadar geliştirilen kulak tanımalarını değerlendirmek için en zor veri tabanı olarak kabul edilen“Kısıtlanmamış Görüntüler Üzerinde Kulak Tanıma Yarışması (UERC)”kulak veri seti kullanılarak değerlendirilmiştir. Genel performans ve ölçeklenebilirlik olmak üzere iki deney gerçekleştirilmiştir. Ayrıca, yüz tanıma literatüründe standart hale gelen ve kulak tanıma performansının iyileştirilmesini sağlayan yerel işaretçilere dayalı oryantasyon ve normalizasyon işlemleri uygulandıktan sonra söz konusu iki deney tekrarlanmıştır. Genel performans için yapılan birinci deney, bireyin biyometrik özelliklerinin veri tabanında mevcut olduğu kapalı set kimliklendirme senaryosunu temsil etmektedir. Genel performans değerlendirme sonucunda, önerilen“ScoreNet-1”, UERC kulak tanıma sonuçlarına göre Sıra-1'de en az %9 daha iyi performans göstermiştir. Ölçeklenebilirlik değerlendirmesi için yapılan ikinci deney, bireyin veri tabanında olup olmadığını belirleyen ve veri tabanındaki kişinin kimliğini teşhis eden açık set kimliklendirme senaryosuna uygundur. Ölçeklenebilirlik değerlendirmesi sonuçlarına göre“ScoreNet-2”, UERC kulak tanıma yöntemlerinden Sıra-1'de en az %12,5'luk bir iyileşme sağlamıştır. Yerel işaretçilere dayalı oryantasyon ve normalizasyon işlemleri uygulandıktan sonra iki deney tekrar gerçekleştirilmiş olup“ScoreNet-3”ve“ScoreNet-4”, UERC sonuçlarına göre sırasıyla en az %23 ve %19'luk bir iyileştirme sağlarken; oryantasyon ve normalizasyon işlemlerinden sonra el yapımı ve evrişimsel sinir ağları (CNN) tabanlı derin öğrenme algoritmaları içeren daha yeni bir çalışmadan da sırasıyla %12 ve %3,5'luk bir iyileştirme gerçekleştirmiştir. Böylece“ScoreNet”mimarisi kısıtlanmamış görüntülerden oluşan ve bilinen en zorlu kulak veri seti olan UERC kulak veri setinde en son teknoloji doğruluğunu elde etmiştir. Ancak,“ScoreNet”mimarisinin oluşturulması ve eğitilmesi önemli bir iş yükü de getirmektedir.“ScoreNet”mimarisi için modalite havuzunun oluşturulması ve eğitim sürecinin uzun sürmesi bu mimarinin dezavantajlarıdır.“ScoreNet”mimarisi kısıtlanmamış görüntüler üzerinde kulak tanıma için ilk“Otomatik Füzyon Öğrenme (AutoFL)”yaklaşımını temsil etmektedir. Aynı zamanda bu mimarinin gelecekteki“AutoFL”uygulamalarına öncülük edeceği değerlendirilmektedir.“ScoreNet”mimarisi modüler bir yapıda olmasından dolayı geliştirilmeye yatkındır. Füzyon çalışmalarının performansının iyileştirilmesi için gerekli en önemli ihtiyaç çeşitliliktir. Daha iyi sonuçlar için“ScoreNet”mimarisinin modalite havuzunun çeşitliliği genişletilebilir. Bununla birlikte, eğitim ve validasyon (doğrulama) setinde içerik olarak karmaşıklık artırılarak daha iyi füzyon öğrenme gerçekleştirilebilir. Sonuç olarak,“ScoreNet”in özgün mimarisi ile kısıtlanmamış görüntüler üzerinde kulak tanıma alanında önemli bir iyileştirme sağladığı UERC deney sonuçları ile kanıtlanmıştır.

Özet (Çeviri)

Nowadays, closed circuit television (CCTV) cameras, which are widely used in the electronic security industry, have a tremendous potential for detecting and recognizing suspicious people. Face and ear biometric data of suspicious persons can be obtained with CCTV cameras. However, in real-world scenarios, biometric data is exposed to exposure, lighting, background, low resolution, occlusion, and so on. It is very difficult to obtain quality as a result. There is also a limited number of biometric data of individuals in the database of security and security units. However, the quality of biometric data from suspicious persons has the potential to be very low due to the fact that suspicious persons are not naturally cooperative. All of these problems are defined as Unconstrained and Limited Data Problem (ULDP). To overcome this problem, a new architecture called“ScoreNet”was proposed. The“ScoreNet”architecture includes both the modality pool and the fusion learning algorithm. Proposed“Deep Cascade Score Level Fusion (DCSLF)”algorithm for fusion learning algorithm; for the modality pool, a unique pool of modality (rich in diversity) and modular structure was created. The“ScoreNet”was evaluated using the Unconstrained Ear Recognition Challenge (UERC) ear data set on images, which is considered to be the most difficult database to evaluate ear recognition ever developed. Two experiments were performed, namely general performance and scalability. In addition, these two experiments were repeated after applying orientation and normalization procedures based on landmarks which became standard in facial recognition literature and improved ear recognition performance. The first experiment for general performance represents the closed set identification scenario in which the individual's biometric properties are present in the database. The“ScoreNet-1”, which was proposed as a result of the overall performance evaluation, performed at least 9% better in the Rank-1 compared to the UERC ear recognition results. The second experiment for scalability assessment is in accordance with the open set identification scenario, which determines whether the individual is in the database and identifies the person in the database. According to the results of the scalability assessment, the“ScoreNet-2”provided an improvement of at least 12.5% in Rank-1 from UERC ear recognition methods. After performing orientation and normalization procedures based on landmarks, two experiments were repeated and the“ScoreNet-3”and the“ScoreNet-4”provided an improvement of at least 23% and 19% respectively according to the UERC results. After the orientation and normalization procedures, a 12% and 3.5% improvement was achieved in a new study which included deep learning algorithms based on hand-crafted and convolutional neural networks (CNN). Thus, the“ScoreNet”architecture has achieved the state-of-the-art accuracy in the UERC ear data set, which is the most challenging ear data set of unconstrained images. However, the creation and training of“ScoreNet”architecture brings with it an important workload. The creation of a modality pool for the“ScoreNet”architecture and the long time of the training process are the disadvantages of this architecture. The“ScoreNet”architecture represents the first“Automated Fusion Learning (AutoFL)”approach for unconstrained ear recognition. It is also considered that this architecture will lead the future of AutoFL applications. The“ScoreNet”architecture is modular in nature and is prone to development. The most important need for improving the performance of fusion studies is diversity. For better results, the diversity of“ScoreNet”architecture can be extended. However, better fusion learning can be achieved by increasing complexity as content in the training and validation set. As a result, the“ScoreNet”has been proven with UERC experiment results that provide a significant improvement in the field of unconstrained ear recognition with its original architecture.

Benzer Tezler