Geri Dön

Akustik ve prosodik özniteliklere dayalı olarak konuşmacıların yaş ve cinsiyet grubuna göre sınıflandırılması

Classification of speakers based on acoustic and prosodic features according to age and gender groups

  1. Tez No: 467937
  2. Yazar: ERGÜN YÜCESOY
  3. Danışmanlar: PROF. DR. VASIF NABIYEV
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: Türkçe
  9. Üniversite: Karadeniz Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 184

Özet

Bu çalışmada konuşmacının yaş ve cinsiyet grubunun otomatik olarak belirlenmesi konusu ele alınmıştır. Başta ticari, medikal ve adli olmak üzere geniş bir uygulama alanına sahip olan otomatik yaş ve cinsiyet tanıma sistemleri doğrudan bir servisin seçiminde kullanılabileceği gibi farklı tanıma sistemlerinde ön işlem olarak da kullanılır. Ancak konuşma sinyali oldukça değişkendir ve başarılı bir sistemin gerçekleştirilmesi için konuşmayı etkileyen tüm faktörlerin değerlendirilmesi gerekir. Bu çalışmada ses işleme alanında kullanılan çeşitli öznitelik çıkarma ve sınıflandırma yöntemleri incelenerek bu yöntemlerle geliştirilen yaş ve cinsiyet sınıflandırma sistemlerinin performans değerlendirmeleri yapılmıştır. Her bir sistemin avantaj ve dezavantajları ortaya koyularak bu sistemler için en uygun model büyüklüğü, konuşma süresi, öznitelik boyutu gibi parametreler belirlenmiştir. Çalışmada, yaygın olarak kullanılan akustik ve prosodik özniteliklerin yanı sıra ses kaynağından çıkarılan parametrelerde incelenmiştir. Sınıflandırma yöntemi olarak dinamik zaman bükme, vektör nicemleme, Gauss karışım modeli (GMM), Destek Vektör Makineleri ve GMM süpervektörler kullanılmıştır. Çalışmada ayrıca 7 farklı alt sistemin skor seviyeli birleşimine dayanan yeni bir sistem önerilerek %5 civarında başarı artışı sağlanmıştır. Sıkıntı öznitelik projeksiyonu (NAP) yöntemi ile gerçekleştirilen kanal dengelemenin başarı üzerindeki etkisi ise %1.5 olmuştur.

Özet (Çeviri)

In this study, age and gender determination of a speaker is investigated. Automatic age and gender recognition systems having applications mainly in trade, medicine and forensic can directly be used for selection of a service or as an initial operation for different recognition systems as well. However, speech signal is quite variable. Therefore all factors affecting speech are required to realize a successful system. In this study by examining feature extraction and classification methods used in speech processing, performance evaluations of age and gender classification systems developed by these methods are carried out, pros and cons of each system are presented and the most suitable parameters such as model size, speech duration and feature size for these systems are determined. Beside, commonly used acoustic and prosodic features and parameters obtained from the voice source are also examined. Dynamic time warping, vector quantization, Gaussian mixture model (GMM), support vector machine, and GMM supervectors are used as classification methods. In the study, moreover, a new system based on score-level fusion of 7 subsystems is proposed and %5 success rate increase is achieved. The effect of channel compensation developed with nuisance attribute projection method on success rate became as 1.5%

Benzer Tezler

  1. Mutual information based feature selection for acoustic autism diagnosis

    Akustik otizm teşhisi için ortak bilgiye dayalı öznitelik seçimi

    ŞEFİKA YÜZSEVER

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SADIK FİKRET GÜRGEN

  2. Türkçe ağızların tanınmasında derin öğrenme tekniğinin kullanılması

    Identification of Turkish dialects using deep learning techniques

    GÜLTEKİN IŞIK

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HARUN ARTUNER

  3. Modeling phoneme durations and fundamental frequency contours in Turkish speech

    Türkçe konuşmada sesbirim sürelerinin ve temel frekans eğrimlerinin modellenmesi

    ÖZLEM ÖZTÜRK

    Doktora

    İngilizce

    İngilizce

    2005

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    DOÇ.DR. TOLGA ÇİLOĞLU

  4. Automatic detection of attachment style in married couples through conversation analysis

    Başlık çevirisi yok

    TUĞÇE MELİKE KOÇAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiÖzyeğin Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CENK DEMİROĞLU

  5. Bipolar bozuklukta parkinson hastalığı ve demans risk skorunun ses kayıt bulgularıyla ilişkisinin incelenmesi

    An investigation of the relationship between parkinson's disease and dementia risk score and voice recording findings in bipolar disorder

    BURCU TUTUK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    NörolojiDokuz Eylül Üniversitesi

    Sinir Bilimi Ana Bilim Dalı

    PROF. DR. İBRAHİM EMRE BORA