Deep neural network (DNN) based multilingual speaker age estimation
Derin sinir ağı (DSA) tabanlı çok dilli konuşmacı yaş tahmini
- Tez No: 702964
- Danışmanlar: DOÇ. DR. OSMAN BÜYÜK
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Çok Dilli Eğitim, Derin Öğrenme, Konuşmacı Yaş Tahmini Öznitelik Füzyonu, Parabolik Filtre Bankası, Multilingual Training, Deep Learning, Speaker Age Estimation, Feature Fusion, Parabolic Filter Bank
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 153
Özet
Finans, perakende ve diğer sektörler için çevrimiçi faaliyetlerin çarpıcı bir şekilde büyümesiyle birlikte, internet kullanıcılarının uzaktan profillenmesi çok önemli bir gereklilik haline geldi. Konuşmacı yaşı tahmini, özellikle uzak kullanıcılar için bu ihtiyacın etkin bir şekilde ele alınmasına büyük ölçüde yardımcı olabilir. Konuşmacı yaş tahmini, konuşmayı kullanarak yaş sınıflarını ve ya gerçek yaş değerlerini tahmin etmek olarak tanımlanabilir. En önemlisi, çocuklar internetteki grafik ve şiddet barındıran içeriklere genellikle fark edilmeden eriştikleri için, çocukların korunmasında konuşmacı yaşı tahmin sistemleri kullanılabilir. Bu çalışmada, farklı sınıflandırma ve öznitelik çıkarma teknikleri konuşmadan yaş sınıflandırma ve regresyon problemleri için kullanılmıştır. Bu özniteliklerin çoğu, konuşmacı yaşı tahmini için daha önce kullanılmamıştır. Parabolik filtre mel frekansı kepstral katsayısı (PFMFKK), mel frekansı kepstral katsayılarında (MFKK) filtre bankalarının (bant geçiren filtre dizisinin) şeklini değiştirerek yeni bir öznitelik çıkarma yöntemi olarak önerilmiştir. PFMFKK, uyarlanmış tüm öznitelik setlerine kıyasla kadın ve erkek veritabanları için olasılıksal doğrusal ayrım analizi (ODAA, PLDA) sınıflandırıcısı ile en iyi performansı sunmuştur. Ayrıca diğer sınıflandırıcılarla da karşılaştırılabilir sonuçlar vermiştir. Konuşmacı tanıma için önerilen i-vektör ve x-vektör vektör gösterimleri de yaş tanıma problemine uygulanmıştır. Bu tezde ayrıca veri tabanları arasındaki dil ve ortam farklılığının yaş tanıma performansı üzerindeki etkisi incelenmiştir. Bu amaçla Türkçe, Almanca ve İngilizce üç farklı veri tabanı kullanılmıştır. Bu veri tabanlarının hedef dilleri ile birlikte toplandıkları ortamlar/geri plan gürültü oranları da birbirinden oldukça farklıdır. Deneysel sonuçlar, çok dilli eğitim senaryosunun, tek dilli senaryoya göre yaş tahmini performansını çok fazla etkilemediğini, ancak diller arası eğitim/test senaryosuna kıyasla performansı önemli ölçüde iyileştirdiğini göstermiştir.
Özet (Çeviri)
With the dramatic growth of online activities for finance, retail and other sectors remote profiling of internet users has become a crucial necessity. Speaker age estimation can greatly help in effectively addressing this need especially for remote users. Speaker age estimation can be defined as predicting either age classes or actual age values exploiting speech. Most importantly, speaker age prediction systems can be applied in safeguarding children as they usually access graphic and violent contents on the internet unnoticed. In this study, several feature extraction techniques are adapted and employed on selected classification and regression models. Most of these features have never been used for speaker age estimation. These features are used as input to selected machine learning and deep neural network (DNN) models over age labeled multilingual databases. i-Vector and x-vector embedding are applied for fixed dimensional representation. Parabolic filter mel-frequency cepstral coefficient (PFMFCC) is proposed as a new feature extraction method by modifying the shape of the filter banks in mel-frequency cepstral coefficients (MFCC). PFMFCC offered the best performances with probabilistic linear discriminant analysis (PLDA) classifier for female and male databases compared to all adapted feature sets. It also showed comparable results with other classifiers. Multilingual settings are established to introduce diversity in language and are observed making differences especially when there is language mismatch. Experimental results indicate that multilingual training setup does not affect the performance of speaker age estimation in single language approaches much, but it improves the performance compared to cross-language evaluations significantly.
Benzer Tezler
- Derin sinir ağının sınıflandırma başarımının artırılması için yeni bir eğitim stratejisi geliştirilmesi ve biyomedikal veri setleri üzerinde test edilmesi
Development of a new training strategy to improve the classification performance of the deep neural network and testing on biomedical data sets
ABDULLAH ÇALIŞKAN
Doktora
Türkçe
2017
BiyomühendislikErciyes ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET EMİN YÜKSEL
- Novel AI- based face recognition framework using deep neural networks and bounding box annotation
Başlık çevirisi yok
RASHA KHALID OMAR AL-OMARY
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ABDULLAHI ABDU IBRAHIM
- Deep learning-based face recognition with raspberry Pi and USB accelerator for IoT environments
IoT için rapsberry Pi ve USB hızlandırıcı ile derin öğrenme tabanlı yüz tanıma
KUTAY YILDIZ
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiBilişim Teknolojileri Ana Bilim Dalı
PROF. DR. MURAT KOYUNCU
- Speaker adapted speech synthesis with deep neural networks
Derin yapay sinir ağları kullanan konuşma sentezi sistemlerinde konuşmacıya uyarlama
MİRAÇ GÖKSU ÖZTÜRK
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
DOÇ. DR. CENK DEMİROĞLU
- Nesnelerin interneti temelli akıllı şebekelerde güvenlik zafiyetlerinin tespiti ve çözümüne yönelik yeni yaklaşımların geliştirilmesi
Developing new approaches for detecting and solving security vulnerabilities in internet of things based smart grids
MUHAMMED ZEKERİYA GÜNDÜZ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
PROF. DR. RESUL DAŞ