Geri Dön

Emotion and gender identification on speech signals using deep learning methods

Konuşma sinyalleri üzerinde derin öğrenme yöntemleri kullanarak duygu ve cinsiyet tespiti

  1. Tez No: 748448
  2. Yazar: ÖZGÜR ÖZDEMİR
  3. Danışmanlar: DOÇ. DR. GÖKHAN BİLGİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 54

Özet

İletişimin temel bileşenlerinden biri olan konuşma sinyalleri, konuşmacının kimliğinden bağlamsal bilgilere kadar değişen niteliklerin öz bir temsilini sağlayan zengin kaynaklardır. Konuşma sinyallerini kaydetmek ve işlemek için gerekli araçların diğer iletişim yöntemleri kadar pahalı olmaması nedeniyle, örn. görsel analiz için kullanılacak kameralar, konuşma sinyallerinden çıkarılacak niteliklerin kullanılması geniş bir uygulama yelpazesine fayda sağlayabilecektir. Bu çalışmada, duygu ve cinsiyet bilgisi olmak üzere konuşma işaretlerinin taşıdığı iki niteliğin elde edilmesi amaçlanmaktadır. Duygu tanıma, duygusal ifadelerin geniş skalada üretimindeki zorluklar, elde edilmiş verinin değerlendirilmesinde fikir birliğine varılamaması gibi nedenlerle zorlayıcı bir görevdir. Benzer şekilde, cinsiyet tanımlama görevi, veri toplamadaki kolaylıklara rağmen, cinsiyetlerin çakışan ses özelliklerini işlemede zorlayıcı hale gelebilmektedir. Konuşma sinyallerinin işlenmesi için, log-Melspektrogram ve Mel-Frekans Kepstral Katsayıları yöntemleri olmak üzere iki farklı yüksek-seviyeli sinyal temsili kullanılmıştır. Sözcelerin süresindeki farklılıklar, konuşma temsillerinin boyutlarında karmaşıklığa yol açmaktadır. Bu sorunun üstesinden gelmek adına, literatürdeki yaygın yaklaşıma karşı, Uyarlanabilir Pencere Uzunluğu seçimi yöntemi geliştirilmiş ve üzerinde tartışılmıştır. Sunulan yöntemin, duygu tanıma görevinde sınıflandırıcı ağların performansına katkı sağladığı, ancak cinsiyet bilgisinin uzun aralıklı ölçülerde bulunması nedeniyle, cinsiyet tanımlama görevinde etkisiz olduğu deneysel çalışmaların sonucunda görülmüştür. Verilen yüksek-seviyeli konuşma temsillerinin analizinde, öznitelik çıkarımı için Konvolüsyonel Sinir Ağları, sınıflandırma için Çok Katmanlı Algılayıcı modellerinden yararlanan bir derin ağ mimarisi kullanılmıştır. Farklı yaklaşımları uygulayan çeşitli KSA mimarileri araştırılmış ve mimarilerin elde ettikleri performanslar yapılan deneylerin ışığında tartışılmıştır. Deneylerin genelinde en iyi performansı Artık Öğrenme yapısını kullanmayan VGG mimarisinin elde etmesi göz önüne alındığında, ağ mimarilerinde artık bağlantıların kullanımının, verilen görevler dahilinde, konuşma temsilleri üzerindeki dezavantajları gözlemlenmiştir. Ayrıca, ağların dil özelinde bağımsızlık kabiliyetleri, diller arası deneyler ile değerlendirilmiştir. Bu bağlamda, ağların Türkçe ve İngilizce dilleri ortaklığında cinsiyet tanımlara görevinde başarısız oldukları görülmektedir.

Özet (Çeviri)

As one of the essential constituents of communication, speech signals are rich resources providing an abstract representation of properties ranging from the speaker's identity to contextual information. Due to the fact that the required tools to record and process speech signals are not expensive as other modalities of communication, like cameras for visual analysis, utilization of the properties extracted from speech signals can benefit a broad range of applications. This study aims to obtain two properties carried by speech signals, i.e. emotion and gender. Emotion recognition is a challenging task because of the difficulties in generating a wide range of emotional utterances and annotating the samples in agreement. Similarly, the gender identification task can become demanding in processing conflicting vocal characteristics of genders, despite the ease in data collection. In order to process the speech signals, two high-level signal representation is employed, i.e. log-Melspectrogram and Mel-Frequency Cepstral Coefficients. The variance in the duration of utterances causes dimensionality complications in the speech representations. To tackle this problem, an adaptive window length procedure is presented and discussed against the common approach in literature. It is shown in the finding of the empirical studies that utilizing adaptive window length selection contributes to the performance of the networks in the emotion recognition task, yet it is ineffective in the gender identification task due to the presence of gender information in prosodic features of the speech signals. A deep framework employing Convolutional Neural Networks for feature extraction and Multi-Layer Perceptron models for classification is implemented in the analysis of the given high-level speech representations. A variety of CNN architectures exploiting different approaches are surveyed and their performances are comprehensively discussed in the light of empirical studies. Given that the VGG architecture that does not perform residual learning achieved the best performance in overall experiments, the drawbacks of the residual connection on the speech representations in the given tasks are observed in the empirical studies. Moreover, the networks are assessed in capabilities of language independencies by cross-lingual experiments. To this extent, it is observed that they fail the gender identification task in the joint of Turkish and English languages.

Benzer Tezler

  1. Türkçe ağızların tanınmasında derin öğrenme tekniğinin kullanılması

    Identification of Turkish dialects using deep learning techniques

    GÜLTEKİN IŞIK

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HARUN ARTUNER

  2. The prediction level of childhood traumas and self-compassion level on emotion regulation difficulties

    Çocukluk çağı travmaları ve öz şefkat düzeyinin duygu düzenleme güçlüğünü yordama gücü

    AYŞENUR AKSU

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Eğitim ve ÖğretimYeditepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU AYKAÇ

  3. Adölesan dönemde duygusal zekanın empatik eğilim ve duygu düzenlemeye karşı yordayıcı etkisi

    The predictive effect of emotional intelligence on empathic tendency and emotion regulation in adolescence

    YAĞMUR DEMİRCİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimKırklareli Üniversitesi

    Çocuk Gelişimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ELİFCAN CESUR

  4. Ergenlerin anne-baba tutum algısı ve arkadaşlık ilişkileri ile duygu düzenlemelerinin incelenmesi

    The examination of parental attitude and friendship relations and emotional regulation of the adolescents

    DERYA ATALAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Çocuk Sağlığı ve HastalıklarıKarabük Üniversitesi

    Çocuk Gelişimi ve Eğitimi Ana Bilim Dalı

    DOÇ. DR. ARZU ÖZYÜREK

  5. Duyguların psikoterapistlerin etik kararları ile ilişkisi

    The relationship between emotions and psychotherapists' ethical decisions

    FİLİZ KUMOVA

    Doktora

    Türkçe

    Türkçe

    2020

    PsikolojiDoğuş Üniversitesi

    Psikoloji Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HASAN GALİP BAHÇEKAPILI