Ses sinyallerinden yaş grubu ve cinsiyet bilgisinin tahmin edilmesi
Estimating age group and gender information from speech signals
- Tez No: 511582
- Danışmanlar: DR. ÖĞR. ÜYESİ YILMAZ KAYA
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Siirt Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
Teknolojinin hızla gelişimi, büyük veri teknolojilerinin artışı ve veri depolama ve işleme yöntemleri ile daha fazla meşguliyet; konuşma tanıma sistemlerinin önemini ileri ölçüde artırmıştır. Konuşmacının cinsiyetini ve yaş aralığını belirleyebilmek ise konuşma tabanlı uygulamalarda büyük önem arz etmektedir. Uygulama alanı olarak çocuk seslerini ayırmaya yönelik çalışmalar; çocuklarda ortaya çıkan disleksi gibi bazı konuşma bozukluklarının tanımlama aşamasında veya çocuklara yönelik geliştirici interaktif oyun programlarında önem kazanmaktadır. Ayrıca yetişkin seslerini ayırmaya yönelik çalışmalarda ise insan kaçırma, tehdit telefonları, yanlış ihbarlar gibi kriminal durumlarda konuşmacının karakteristik özelliklerini daha iyi tanımlamayacak verilere ulaşabilmesi, polis istasyonlarına veya hastanelere gelen aramalarda yaşlı ve çocuk ses profillerine öncelik verilmesi veya müşterilerin daha iyi tanımlanabilmesi gibi durumlarda önem arz etmektedir. Bu çalışmada, konuşmacılardan alınan ses örneklerinden çeşitli yöntemlerle elde edilen öz niteliklerin kullanılması ile kişilerin cinsiyeti ve yaş grubu tahmin edilmiştir. İlkokul, ortaokul, lise ve üniversite öğrenci gruplarının her birinden 8 erkek ve 8 kız öğrencinin sesi alınmıştır. Bu dört grup için toplamda 64 öğrenciden ses kaydı alınmıştır. Veri seti için bir kısmı Türkçe 'de birleşim gücü yüksek kelimeler bir kısmı da sık kullanılan rastgele kelimelerden oluşan 32 adet Türkçe kelime seçilmiştir. Alınan ses örneklerinden öznitelik çıkarımı için literatürde sıkça kullanılan Mel-frekansı kepstral katsayıları (Mel-Frequency Cepstral Coefficients, MFCC) ve Doğrusal öngörüm kepstrum katsayıları (Linear predictive cepstrum coefficients, LPCC) yöntemleri kullanılmıştır. Ayrıca iki öz nitelik vektörünün elemanları beraber alınarak MF&LP karışım modeli denenmiştir. Elde edilen öznitelik vektörleri k en yakın komşu (KNN), yapay sinir ağları (YSA) ve destek vektör makineleri (DVM) gibi makine öğrenmesi yöntemleri kullanılarak sınıflandırılmıştır. Sınıflandırma performansı; yaş grubu tahmini için %96 civarında iken cinsiyet tespiti için %94,6 civarında olmaktadır.
Özet (Çeviri)
The rapid development of technology, the increase of large data technologies and the enhancement in occupation of data storage and processing methods has significantly increased the importance of speech recognition systems. The ability to determine the gender and age group of the speaker has great importance in speech-based applications. Studies considering application areas as distinguishing children voices are gaining significance in the process of detecting speech disorders such as dyslexia that occurs in children, or in improving interactive game programs for children. In addition, the studies have been done to distinguish adult voices can be utilized to access data which can characterize the characteristics of the speaker in criminal situations such as human abduction, threatening telephones and false alarms. It may serve in giving priority to elderly and child voices at police stations or hospital calls, withal it may lead to a better user-profiling the age interval of the customers. In this study, gender and age category of the speakers has been estimated based on the features extracted by various methods from the speech recording samples. The voices of 8 male and 8 female students were taken from each elementary school, secondary school and high school and university student groups. A total of 64 students' voice recordings were taken from these four groups. For the dataset, 32 Turkish words were chosen, some of which are high-word combinations in Turkish and some of which are frequently used random words. Mel-Frequency Cepstral Coefficients (MFCC) and Linear Predictive Cepstrum Coefficients (LPCC) methods, which are frequently used in the literature, have been used to extract the features from the speech samples. In addition, the MF&LP mixture model was tested by taking the elements of the two feature vectors together. Obtained feature vectors are classified using machine learning methods such as K nearest neighbors (KNN), Artificial neural networks (ANN), and support vector machines (SVM). Classification performance; for age group estimation is about 96% while for gender detection is around 94.6%.
Benzer Tezler
- Okuma yazma problemi olan çocuklarda gazi okuma yazma eğitim programının etkililiğinin işitsel işlemleme açısından incelenmesi
Examination of the effect of gazi reading writinig education program in children having reading and writing problem with regard to auditory processing
IŞIK SİBEL KÜÇÜKÜNAL
Doktora
Türkçe
2019
Eğitim ve ÖğretimGazi ÜniversitesiÇocuk Gelişimi ve Eğitimi Ana Bilim Dalı
PROF. DR. AYŞE DİLEK ÖĞRETİR ÖZÇELİK
- Dini yapıların açık-yarı açık-iç mekânlarında işitsel peyzaj algısının değerlendirilmesi: Diyarbakır Ulu Cami örneği
Evaluation of soundscape perception in open-semi open-indoor spaces of religious buildings: The case of Diyarbakir grand mosque
BERİTAN OCAKLIK
Yüksek Lisans
Türkçe
2022
MimarlıkDicle ÜniversitesiMimarlık Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DERYA ÇAKIR AYDIN
- Odyometri konfigürasyonuna göre presbiakuzi tiplerinin sınıflandırılması
Classification of presbiacusis types according to audiometry configuration
BÜŞRA GÖL
Yüksek Lisans
Türkçe
2023
Kulak Burun ve Boğazİstanbul Gelişim ÜniversitesiOdyoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NEBİ MUSTAFA GÜMÜŞ
- Komple bir kan basıncı ölçüm ve korotkoff sesleri kayıt sistemi
A complete blood pressure measurement and korotkoff sounds recording system
SABRİ ALTUNKAYA
Yüksek Lisans
Türkçe
2005
Elektrik ve Elektronik MühendisliğiSelçuk ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF.DR. MEHMET BAYRAK
- Yeni Cami'nin akustik açıdan performans değerlendirmesi
Evaluation of the acoustical performance of the New Mosque
EVREN YILDIRIM
Yüksek Lisans
Türkçe
2003
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. SEVTAP YILMAZ DEMİRKALE