Geri Dön

Deep neural network (DNN) based multilingual speaker age estimation

Derin sinir ağı (DSA) tabanlı çok dilli konuşmacı yaş tahmini

  1. Tez No: 702964
  2. Yazar: MOHAMMED MUNTAZ OSMAN
  3. Danışmanlar: DOÇ. DR. OSMAN BÜYÜK
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Çok Dilli Eğitim, Derin Öğrenme, Konuşmacı Yaş Tahmini Öznitelik Füzyonu, Parabolik Filtre Bankası, Multilingual Training, Deep Learning, Speaker Age Estimation, Feature Fusion, Parabolic Filter Bank
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 153

Özet

Finans, perakende ve diğer sektörler için çevrimiçi faaliyetlerin çarpıcı bir şekilde büyümesiyle birlikte, internet kullanıcılarının uzaktan profillenmesi çok önemli bir gereklilik haline geldi. Konuşmacı yaşı tahmini, özellikle uzak kullanıcılar için bu ihtiyacın etkin bir şekilde ele alınmasına büyük ölçüde yardımcı olabilir. Konuşmacı yaş tahmini, konuşmayı kullanarak yaş sınıflarını ve ya gerçek yaş değerlerini tahmin etmek olarak tanımlanabilir. En önemlisi, çocuklar internetteki grafik ve şiddet barındıran içeriklere genellikle fark edilmeden eriştikleri için, çocukların korunmasında konuşmacı yaşı tahmin sistemleri kullanılabilir. Bu çalışmada, farklı sınıflandırma ve öznitelik çıkarma teknikleri konuşmadan yaş sınıflandırma ve regresyon problemleri için kullanılmıştır. Bu özniteliklerin çoğu, konuşmacı yaşı tahmini için daha önce kullanılmamıştır. Parabolik filtre mel frekansı kepstral katsayısı (PFMFKK), mel frekansı kepstral katsayılarında (MFKK) filtre bankalarının (bant geçiren filtre dizisinin) şeklini değiştirerek yeni bir öznitelik çıkarma yöntemi olarak önerilmiştir. PFMFKK, uyarlanmış tüm öznitelik setlerine kıyasla kadın ve erkek veritabanları için olasılıksal doğrusal ayrım analizi (ODAA, PLDA) sınıflandırıcısı ile en iyi performansı sunmuştur. Ayrıca diğer sınıflandırıcılarla da karşılaştırılabilir sonuçlar vermiştir. Konuşmacı tanıma için önerilen i-vektör ve x-vektör vektör gösterimleri de yaş tanıma problemine uygulanmıştır. Bu tezde ayrıca veri tabanları arasındaki dil ve ortam farklılığının yaş tanıma performansı üzerindeki etkisi incelenmiştir. Bu amaçla Türkçe, Almanca ve İngilizce üç farklı veri tabanı kullanılmıştır. Bu veri tabanlarının hedef dilleri ile birlikte toplandıkları ortamlar/geri plan gürültü oranları da birbirinden oldukça farklıdır. Deneysel sonuçlar, çok dilli eğitim senaryosunun, tek dilli senaryoya göre yaş tahmini performansını çok fazla etkilemediğini, ancak diller arası eğitim/test senaryosuna kıyasla performansı önemli ölçüde iyileştirdiğini göstermiştir.

Özet (Çeviri)

With the dramatic growth of online activities for finance, retail and other sectors remote profiling of internet users has become a crucial necessity. Speaker age estimation can greatly help in effectively addressing this need especially for remote users. Speaker age estimation can be defined as predicting either age classes or actual age values exploiting speech. Most importantly, speaker age prediction systems can be applied in safeguarding children as they usually access graphic and violent contents on the internet unnoticed. In this study, several feature extraction techniques are adapted and employed on selected classification and regression models. Most of these features have never been used for speaker age estimation. These features are used as input to selected machine learning and deep neural network (DNN) models over age labeled multilingual databases. i-Vector and x-vector embedding are applied for fixed dimensional representation. Parabolic filter mel-frequency cepstral coefficient (PFMFCC) is proposed as a new feature extraction method by modifying the shape of the filter banks in mel-frequency cepstral coefficients (MFCC). PFMFCC offered the best performances with probabilistic linear discriminant analysis (PLDA) classifier for female and male databases compared to all adapted feature sets. It also showed comparable results with other classifiers. Multilingual settings are established to introduce diversity in language and are observed making differences especially when there is language mismatch. Experimental results indicate that multilingual training setup does not affect the performance of speaker age estimation in single language approaches much, but it improves the performance compared to cross-language evaluations significantly.

Benzer Tezler

  1. Derin sinir ağının sınıflandırma başarımının artırılması için yeni bir eğitim stratejisi geliştirilmesi ve biyomedikal veri setleri üzerinde test edilmesi

    Development of a new training strategy to improve the classification performance of the deep neural network and testing on biomedical data sets

    ABDULLAH ÇALIŞKAN

    Doktora

    Türkçe

    Türkçe

    2017

    BiyomühendislikErciyes Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET EMİN YÜKSEL

  2. Novel AI- based face recognition framework using deep neural networks and bounding box annotation

    Başlık çevirisi yok

    RASHA KHALID OMAR AL-OMARY

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULLAHI ABDU IBRAHIM

  3. Deep learning-based face recognition with raspberry Pi and USB accelerator for IoT environments

    IoT için rapsberry Pi ve USB hızlandırıcı ile derin öğrenme tabanlı yüz tanıma

    KUTAY YILDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    PROF. DR. MURAT KOYUNCU

  4. Speaker adapted speech synthesis with deep neural networks

    Derin yapay sinir ağları kullanan konuşma sentezi sistemlerinde konuşmacıya uyarlama

    MİRAÇ GÖKSU ÖZTÜRK

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

    DOÇ. DR. CENK DEMİROĞLU

  5. Nesnelerin interneti temelli akıllı şebekelerde güvenlik zafiyetlerinin tespiti ve çözümüne yönelik yeni yaklaşımların geliştirilmesi

    Developing new approaches for detecting and solving security vulnerabilities in internet of things based smart grids

    MUHAMMED ZEKERİYA GÜNDÜZ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. RESUL DAŞ