Geri Dön

Automatic audio emotion detection based on perceptual features

Algısal öznitelikler kullanarak sesten otomatik duygu durum tanıma

  1. Tez No: 452742
  2. Yazar: MEHMET CENK SEZGİN
  3. Danışmanlar: PROF. DR. BİLGE GÜNSEL KALYONCU
  4. Tez Türü: Doktora
  5. Konular: Mühendislik Bilimleri, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Telekomünikasyon Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 134

Özet

Konuşmacıların kısa ve orta vadeli duygu hallerinin otomatik kestirimi, hızla gelişmekte olan insan-bilgisayar kullanıcı arayüzü tasarımında ele alınan zorlu bir problemdir. Tez kapsamında, konuşma verisindeki kısa ve orta vadeli duygu hallerini kapsayan duygu ve uykululuk durumlarını sezme problemi araştırılmıştır. Bu probleme yönelik olarak farklı ortamlarda kaydedilen konuşma verisinden otomatik duygu sınıflandırma gerçeklemede kullanılabilecek yeni ses öznitelikleri önerilmektedir. Bu öznitelikler telefon hattı üzerinden iletilen sesin algısal kalitesini ölçmeyi amaçlayan ITU BS.1387 standardını temel almaktadır. Sınıflandırıcı çıkışında bulunan değerler geliştirilen özel bir oylama algoritması kullanılarak karara dönüştürülmektedir. Konuşmacıların orta vadeli duygu durumlarından olan uykululuk halini sezebilmek amacıyla, algısal öznitelikleri kullanan iki sınıflı bir sınıflandırıcı tasarlanmıştır. Mevcutlardan farklı olarak önerilen öznitelikler frekans, zaman maskeleme ve algısal seslilik modelleri kullanarak sesin spektral ve zamansal içeriğini başarıyla modelleyebilmektedir. Önerilen öznitelikler ile uykulu ve uyanık durumlar arasındaki farkı sezmek için öznitelik-öbekleme tekniği kullanılarak uykululuk durumlarındaki istatistiksel sapmaları modelleyen bir sözcük-öğrenme gerçeklenmiştir. Önerdiğimiz çözüm literatürdeki çalışmalarla (Munich Open-Source Emotion and Affect Recognition Toolkit, Hidden Markov Toolkit, and Generalized Discriminant Analysis) kıyaslandığında, EMO-DB veritabanında %7-16 aralığında ve VAM veritabanı için %7-11 oranında performans iyileşme gözlenmiştir. Diğer yandan SLC veritabanındaki sonuçlara göre de, uyku durumu sezmede mevcut referanslara göre %20 iyileşme sağlanmıştır. Sınıflandırıcı olarak Destek Vektör Makinası, Gauss Karışım Modelleri ve Öğrenimli Vektör Nicemleme kullanıldığında, önerilen öznitelikler ile literatürdeki sınıflandırma başarımının üzerine çıkıldığı ve aynı zamanda hesaplama karmaşıklığının azaldığı gösterilmektedir.

Özet (Çeviri)

Automatic detection of short term and medium term speaker states is a challenging problem in the design of recently developed human-computer-interaction systems. In the context of the thesis, we deal with audio emotion detection and sleepiness detection from speech that constitutes short term and medium term speaker states, respectively. We introduce a new set of acoustic features for automatic emotion classification from audio. The features are based on the perceptual quality metrics that are given in perceptual evaluation of audio quality known as ITU BS.1387 recommendation. A soft-majority voting decision rule that strengthens the conventional majority voting is proposed to assess the classifier outputs. In order to efficiently detect the medium term speaker states, we propose a two-class classification scheme with the perceptual features for sleepiness detection. Unlike the conventional methods that rely on the linguistic content of speech, we work with prosodic features extracted by psychoacoustic masking in spectral and temporal domain. Compared to the state-of-the-art systems including Munich Open-Source Emotion and Affect Recognition Toolkit, Hidden Markov Toolkit, and Generalized Discriminant Analysis, it is shown that the emotion recognition rates are improved between 7-16% for EMO-DB and 7-11% in VAM for 'all' and 'valence' categories. Recall rates reported based on Karolinska Sleepiness Scale (KSS) for Support Vector Machine (SVM) and Learning Vector Quantization (LVQ) classifiers show that the developed system enables monitoring sleepiness efficiently with a lower complexity compared to the reported benchmarking results for Sleepy Language Corpus (SLC).

Benzer Tezler

  1. Automatic extraction of affective multimodal face videos

    Duygu içerikli çok biçimli yüz videolarinin elde edilmesi için otomatik bir yöntem

    CAN KANSIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Elektrik ve Elektronik MühendisliğiBahçeşehir Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÇİĞDEM EROĞLU ERDEM

  2. Robust machine learning methods for computational paralinguistics and multimodal affective computing

    Hesaplamasal paralinguistik ve çok-kipli duyuşsal hesaplama için gürbüz yapay öğrenme yönemleri

    HEYSEM KAYA

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ALBERT ALİ SALAH

    PROF. DR. SADIK FİKRET GÜRGEN

  3. Audio-visual affect recognition

    Yüz ifadeleri ve sesten çok-kipli duygu tanıma

    SARA ZHALEHPOUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Elektrik ve Elektronik MühendisliğiBahçeşehir Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. ÇİĞDEM EROĞLU ERDEM

  4. Music emotion recognition: A multimodal machine learning approach

    Müzik duygusu tanıma: Çok-modlu makine öğrenmesi yaklaşımı

    CEMRE GÖKALP

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilim ve TeknolojiSabancı Üniversitesi

    Yönetim Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET ONUR DURAHİM

    DOÇ. ABDULLAH DAŞCI

  5. Derin öğrenme tabanlı bas konuş/interkom sistemlerinde ses duygu analizi

    Deep learning based voice emotion analysis in intercom systems

    KÜBRA SİNAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. PAKİZE ERDOĞMUŞ