Akustik ve prosodik özniteliklere dayalı olarak konuşmacıların yaş ve cinsiyet grubuna göre sınıflandırılması
Classification of speakers based on acoustic and prosodic features according to age and gender groups
- Tez No: 467937
- Danışmanlar: PROF. DR. VASIF NABIYEV
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: Türkçe
- Üniversite: Karadeniz Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 184
Özet
Bu çalışmada konuşmacının yaş ve cinsiyet grubunun otomatik olarak belirlenmesi konusu ele alınmıştır. Başta ticari, medikal ve adli olmak üzere geniş bir uygulama alanına sahip olan otomatik yaş ve cinsiyet tanıma sistemleri doğrudan bir servisin seçiminde kullanılabileceği gibi farklı tanıma sistemlerinde ön işlem olarak da kullanılır. Ancak konuşma sinyali oldukça değişkendir ve başarılı bir sistemin gerçekleştirilmesi için konuşmayı etkileyen tüm faktörlerin değerlendirilmesi gerekir. Bu çalışmada ses işleme alanında kullanılan çeşitli öznitelik çıkarma ve sınıflandırma yöntemleri incelenerek bu yöntemlerle geliştirilen yaş ve cinsiyet sınıflandırma sistemlerinin performans değerlendirmeleri yapılmıştır. Her bir sistemin avantaj ve dezavantajları ortaya koyularak bu sistemler için en uygun model büyüklüğü, konuşma süresi, öznitelik boyutu gibi parametreler belirlenmiştir. Çalışmada, yaygın olarak kullanılan akustik ve prosodik özniteliklerin yanı sıra ses kaynağından çıkarılan parametrelerde incelenmiştir. Sınıflandırma yöntemi olarak dinamik zaman bükme, vektör nicemleme, Gauss karışım modeli (GMM), Destek Vektör Makineleri ve GMM süpervektörler kullanılmıştır. Çalışmada ayrıca 7 farklı alt sistemin skor seviyeli birleşimine dayanan yeni bir sistem önerilerek %5 civarında başarı artışı sağlanmıştır. Sıkıntı öznitelik projeksiyonu (NAP) yöntemi ile gerçekleştirilen kanal dengelemenin başarı üzerindeki etkisi ise %1.5 olmuştur.
Özet (Çeviri)
In this study, age and gender determination of a speaker is investigated. Automatic age and gender recognition systems having applications mainly in trade, medicine and forensic can directly be used for selection of a service or as an initial operation for different recognition systems as well. However, speech signal is quite variable. Therefore all factors affecting speech are required to realize a successful system. In this study by examining feature extraction and classification methods used in speech processing, performance evaluations of age and gender classification systems developed by these methods are carried out, pros and cons of each system are presented and the most suitable parameters such as model size, speech duration and feature size for these systems are determined. Beside, commonly used acoustic and prosodic features and parameters obtained from the voice source are also examined. Dynamic time warping, vector quantization, Gaussian mixture model (GMM), support vector machine, and GMM supervectors are used as classification methods. In the study, moreover, a new system based on score-level fusion of 7 subsystems is proposed and %5 success rate increase is achieved. The effect of channel compensation developed with nuisance attribute projection method on success rate became as 1.5%
Benzer Tezler
- Mutual information based feature selection for acoustic autism diagnosis
Akustik otizm teşhisi için ortak bilgiye dayalı öznitelik seçimi
ŞEFİKA YÜZSEVER
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SADIK FİKRET GÜRGEN
- Türkçe ağızların tanınmasında derin öğrenme tekniğinin kullanılması
Identification of Turkish dialects using deep learning techniques
GÜLTEKİN IŞIK
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HARUN ARTUNER
- Modeling phoneme durations and fundamental frequency contours in Turkish speech
Türkçe konuşmada sesbirim sürelerinin ve temel frekans eğrimlerinin modellenmesi
ÖZLEM ÖZTÜRK
Doktora
İngilizce
2005
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
DOÇ.DR. TOLGA ÇİLOĞLU
- Automatic detection of attachment style in married couples through conversation analysis
Başlık çevirisi yok
TUĞÇE MELİKE KOÇAK
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik MühendisliğiÖzyeğin ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. CENK DEMİROĞLU
- Bipolar bozuklukta parkinson hastalığı ve demans risk skorunun ses kayıt bulgularıyla ilişkisinin incelenmesi
An investigation of the relationship between parkinson's disease and dementia risk score and voice recording findings in bipolar disorder
BURCU TUTUK
Yüksek Lisans
Türkçe
2023
NörolojiDokuz Eylül ÜniversitesiSinir Bilimi Ana Bilim Dalı
PROF. DR. İBRAHİM EMRE BORA