Geri Dön

Fusing acoustic and linguistic parameters for multilingual emotion recognition

Akustik ve dilbilimsel parametrelerle çok dilli duygu tanıma

  1. Tez No: 286345
  2. Yazar: MUSTAFA ERDEN
  3. Danışmanlar: PROF. DR. LEVENT ARSLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 61

Özet

Sesten duygu tanıma çağrı merkezlerinde problemlerin tespitinde, operatör performansınıngözlemlenmesinde, otomatik konuşma tanıma sistemlerinin iyileştirilmesinde, insan-robot veinsan-makine etkileşiminin artırılmasında kullanılabilir. Bu tezde iki farklı doğal veritabanı ikiliduygu tanıma açısından incelenmiştir. Türkçe çağrı merkezi veritabanı üzerinde duygutanıma problemi sinirli ve sinirli-olmayan sınıflar üzerinde tanımlanmıştır. Robot bir evcilhayvanla oynayan çocukların kayıtlarından oluşan Almanca Fau Aibo veritabanı üzerindede negatif ve negatif-olmayan sınıflar göz önünde bulundurulmuştur.Akustik bilgiyi çıkarmak için sözcük grubu bazında parametreler kullanılarak DestekçiVektör Makineleri ve çerçeve bazında parametreler kullanılarak Gauss Karışım Modelleritabanlı modeller karşılaştırılmışlardır. Çağrı merkezi veritabanında kök+ek bazlı dil modelien yüksek sonuçlar sağlarken, Fau Aibo veritabanında kelime tabanlı dil modeli en iyi sonuçlarıvermiştir. Bu durum Türkçe'nin bitişken yapısına bağlanabilir. Akustik ve dil modelisınıflandırıcılarının skorları çok katmanlı algılayıcı kullanılarak birleştirildiğinde, çağrı merkezi ve Fau Aibo veritabanları için sırasıyla 89\% ve 69\% doğru tanıma elde edilmiştir.

Özet (Çeviri)

Emotion recognition from speech can be used for detection of customer problemsin call centers, agent performance monitoring, improving automatic speech recognitionaccuracies, enhancing human robot as well as human machine interaction. In thisthesis two different spontaneous databases are investigated in terms of binary emotionclassification. On Turkish call center dataset (CCD) which consists of human-humandialogs, emotion recognition problem is defined on angry and non-angry classes. OnFau Aibo dataset (FAD) which is composed of recordings of children playing with apet robot, the negative and idle classes are considered.For extracting acoustic information we have implemented Support Vector Machineswith utterance level features and Gaussian Mixture Models with frame levelfeatures. In terms of language modeling we compared word based, stem-only andstem+ending structures using manual transcriptions. Stem+ending based system resultedin the highest accuracies on CCD whereas the word based LM performed thebest on FAD. This can be mainly attributed to the agglutinative nature of Turkish language.When we fused the acoustic and LM classifiers using a Multi Layer Perceptron(MLP) we could achieve 89% and 69% correct detection of both classes for CCD andFAD respectively.

Benzer Tezler

  1. Kameraların sınırlı alan derinliğini artırmak için metasezgisel algoritmalar kullanılarak çok odaklı görüntülerin birleştirilmesi

    Fusing multi-focus images using metaheuristic algorithms to increase the limited depth of field of cameras

    FATMA ÇAKIROĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik MühendisliğiKayseri Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ DURMUŞ

    DR. ÖĞR. ÜYESİ RİFAT KURBAN

  2. Fusing the RGB image and LiDAR data for road detection

    Yol tespiti için RGB kamera ve LiDAR füzyonu

    ARDA TAHA CANDAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HABİL KALKAN

  3. Fusing length and voicing information and HMM decision in speaker dependent isolated word recognition systems

    Konuşmacıya bağlı ayrık sözcük tanıma sistemlerinde uzunluk ve ses bilgilerini ve HMM kararının birleştirilmesi

    FAHRİ KARAHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2000

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MÜBECCEL DEMİREKLER

  4. Fusing local appearance models for face recognition

    Yüz tanıma için yerel görünüm modellerinin tümleştirilmesi

    NURİ MURAT ARAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. LALE AKARUN

    YRD. DOÇ. HAZIM KEMAL EKENEL

  5. Fusing semantic information extracted from visual, auditory and textual data of videos

    Videolarda görüntü, ses ve metin verilerinden çıkarılan anlamsal bilgilerin birleştirilmesi

    ELVAN GÜLEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADNAN YAZICI