Geri Dön

Unsupervised affective state learning from speech

Konuşmadan gözetimsiz duygusal durum öğrenme

  1. Tez No: 879055
  2. Yazar: GÖKHAN KUŞÇU
  3. Danışmanlar: PROF. DR. ENGİN ERZİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 61

Özet

Konuşmadan sürekli duygu durumlarını tahmin etmeye yönelik geleneksel paradigma, zaman içinde bir regresyon problemi olarak yorumlanmış ve yaygın olarak kabul görmüştür. Bu tez, tek tip uzunluklara sahip duygu konturları kümeleri oluşturarak bu zorluğu sınıflandırma alanına aktaran yeni bir metodoloji sunmaktadır. Bu yaklaşım, her yinelemede duygulanım konturlarının bağımsız sınıflar halinde kümelenmesini içeren yeni bir ortak kümeleme ve sınıflandırma şeması içermektedir. Gözlemlenen sınıf içi örnek benzerlikleri ile farklı kümeleri tanımlayarak bu sınıfları sınıflandırmaya çalışılmaktadır. Sınıflandırma yapısı, Wav2Vec 2.0 modeline dayalı bir ses özelliği çıkarıcıyı ve ardından bir evrişimli sinir ağını (CNN) içermektedir. Eş zamanlı olarak, kümeleme bileşeni, boyutsallığı azaltmak ve ardından k-means kümelemesini uygulamak için bir evrişimli ağ kullanarak etki konturunun eşit uzunluktaki bir birimini işler. Kümeleme bileşeni tarafından üretilen kümeler sınıflandırma ağı tarafından tahmin edilir. Kümülatif kayıp daha sonra ağırlık güncellemeleri için sinir ağına yayılır. Ampirik bulgular, elde edilen kümelerin birbirinden farklı ayırt edici özellikler sergilediğini ortaya koymaktadır. Eş zamanlı olarak, eğitilmiş sınıflandırma ağına bir regresyon başlığının dahil edilmesi, RECOLA ve USC CreativeIT veri kümelerinde sadece ses kullanıldığında literatürdeki sonuçları yakalayan bir performans sağlar. Bu sonuçlar, regresyon baz performansları ve mevcut literatür ile karşılaştırılarak yaklaşımımızın etkinliği gösterilmiştir. Temelde bir sınıflandırma çerçevesi olan yaklaşımımız rekabetçi sürekli duygu tanıma performansına ulaşırken iyi çalışılmış sürekli regresyon problemi doğasını dönüştürmektedir.

Özet (Çeviri)

The conventional paradigm for estimating continuous emotional states from speech, investigated as a regression problem over time, has been widely acknowledged. This thesis introduces a novel methodology that transposes this challenge into the classification domain by learning clusters of affect contours of uniform lengths. Our approach involves a novel joint clustering and classification scheme, wherein each iteration involves clustering affect contours into independent classes. We seek to classify these classes, identifying distinct clusters with observed intra-class sample similarities. The classification structure integrates an audio feature extractor based on a Wav2Vec 2.0 model, followed by a convolutional neural network (CNN). Concurrently, the clustering component processes a segment of the affect contour, employing a convolutional network for dimensionality reduction and subsequent application of k-means clustering. The classification network predicts these generated clusters. The cumulative loss is then propagated to neural networks for weight updates. Empirical findings reveal that the obtained clusters exhibit distinctive and insightful characteristics. Simultaneously, incorporating a regression head into the trained classification network yields competitive audio-only performance on the RECOLA and USC CreativeIT datasets regarding continuous emotion recognition (CER). The results for CER are compared against baselines and existing literature, illustrating the efficacy of our approach. Our results demonstrate that while achieving competitive continuous emotion recognition performance, our approach, fundamentally a classification framework, converts the nature of the well-studied continuous regression problem.

Benzer Tezler

  1. Emotion aware artificial intelligence for cognitive systems

    Bilişsel sistemler için duygu farkındalıklı yapay zeka

    DEĞER AYATA

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

    PROF. DR. MUSTAFA ERSEL KAMAŞAK

  2. Yapay sinir ağları ile doku sınıflandırma

    Tissue classification using artificial neural networks

    AYSU SEVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    1993

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. ERTUĞRUL YAZGAN

  3. Yapay zekâ ve demokrasi

    Artificial intelligence and democracy

    AYŞE NUR YAZICILAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. ŞULE ÖZSOY BOYUNSUZ

  4. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. Face recognition with local Walsh transform

    Yerel Walsh dönüşümü ile yüz tanıma

    MERYEM UZUN PER

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHİTTİN GÖKMEN