Geri Dön

Yeni Türkçe duygusal veri seti üzerinde konuşmadan duygu tanıma

Speech emotion recognition in a new Turkish emotional speech dataset

  1. Tez No: 832367
  2. Yazar: EMEL ÇOLAKOĞLU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SERHAT HIZLISOY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mühendislik Bilimleri, Engineering Sciences
  6. Anahtar Kelimeler: Makine Öğrenmesi, OpenSMILE, Derin Öğrenme, Konuşmadan Duygu Tanıma, Machine Learning, OpenSMILE, Deep Learning, Speech Emotion Recognition, emo_large
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Kayseri Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 100

Özet

İnsanlar arasındaki iletişimin en doğal ve hızlı yöntemi konuşmaktır. Konuşma sinyalleri konuşmanın içeriği haricinde konuşan kişinin ruh hali, yaşı, cinsiyeti, fizyolojisi ve lehçesi gibi birçok veriyi de barındırmaktadır. Duygu ise gerçekleşen bir olayın, kişilerin ya da varlıkların insanın iç dünyasında oluşturduğu etkidir. Duygular mutluluk, heyecan, öfke, sakinlik gibi gruplara ayrılabilir. Bireyler duygularını hem beden dili yoluyla hem de sesli iletişim ile birbirlerine aktarırlar. Ancak bazı durumlarda beden dilini yorumlamak ya da görebilmek mümkün olmamaktadır. Böyle durumlarda sesten duygunun çıkarımı daha fazla önem kazanmaktadır. Bu alanda yapılan ilk çalışmalarda genelde görüntü sinyallerinden duygu analizi yapılması üzerinde durulmuştur. Son yıllarda ise ses sinyali üzerinden duygu analizi çalışmaları gelişme göstermeye başlamıştır. Literatür incelendiğinde ise konuşmadan duygu tanıma alanında birçok çalışma olduğu görülmektedir. Yapılan çalışmalarda hem makine öğrenim hem de derin öğrenme algoritmaları kullanılmakta ve oldukça başarılı tanıma oranlarına ulaşılmıştır. Bu tez kapsamında ise önceki çalışmalardan farklı olarak verisetini kendimiz oluşturduk. Bunun için Türk yapımı dizi ve filmler incelendi. Veriseti içindeki tüm kayıtlar 5 saniyeden oluşmakta ve 4 duygu içermektedir. Burada tezin önceki çalışmalardan en önemli farkı konuşmadan duygu tanıma için oluşturulmuş; yüksek veri kalitesi ve etiketlendirmesine sahip olan hazır veri setlerinin kullanılmamasıdır. Ayrıca Türkçe dili üzerinde yayın yapan çok az sayıda çalışma bulunmaktadır. Diğer bir noktada konuşmacı bağımsız bir model oluşturulmuş olmasıdır. Bu durumda aslında model performansını olumsuz etkileyebilecek bir durumdur. İncelenen çalışmalarda düşük tanıma oranları nedeniyle genelde tercih edilmemiştir. Özniteliklerin çıkarılmasında OpenSMILE uygulaması kullanılmıştır. Ön işleme sürecinde sıralama, standardizasyon, resample, discretize işlemleri uygulanmıştır. Öznitelik seçme sürecinde farklı algoritmalar ve uygulamalar incelenmiş. Performansa ek bir katkı gözlemlenmediği için süreç içinde bu kısım kullanılmamıştır. Sınıflandırma sürecinde ise hem makine öğrenim hem de derin öğrenme algoritmaları kullanılmıştır. Makine öğrenim tarafında en başarılı tanıma oranı Lojistik Regresyon (%94,25) ile elde edilmiştir. Derin öğrenme tarafında ise DNN modeli (%92,57) ile yüksek tanıma oranına ulaşılmıştır.

Özet (Çeviri)

The most natural and fast method of communication between people is talking. Apart from the content of speech, speech signals also contain many data such as the mood, age, gender, physiology and dialect of the person speaking. Emotion is the effect of an event, people or beings in the inner world of a person. Emotions can be divided into groups such as happiness, excitement, anger, calmness. Individuals convey their emotions to each other both through body language and through voice communication. However, in some cases, it is not possible to interpret or see body language. In such cases, the extraction of emotion from the sound becomes more important. In the first studies in this field, it was generally focused on the analysis of sentiment from image signals. In recent years, sentiment analysis studies over sound signal have started to develop. When the literature is examined, it is seen that there are many studies in the field of speech to emotion recognition. In the studies carried out, both machine learning and deep learning algorithms are used and highly successful recognition rates have been achieved. Within the scope of this thesis, unlike previous studies, we created the dataset ourselves. For this purpose, Turkish series and films were examined. All records in the dataset consist of 5 seconds and contain 4 emotions. Here, the most important difference of the thesis from previous studies was created for emotion recognition without speaking; not to use ready-made data sets with high data quality and labeling. In addition, there are very few studies published on the Turkish language. Another point is that an independent model of the speaker has been created. In this case, it is actually a condition that can adversely affect the performance of the model. In the studies examined, it was generally not preferred due to low recognition rates. The OpenSMILE implementation was used to extract attributes. In the pre-processing process, sorting, standardization, resample, discretize processes were applied. During the attribute selection process, different algorithms and implementations were examined. Since no additional contribution to performance was observed, this part was not used in the process. In the classification process, both machine learning and deep learning algorithms were used. On the machine learning side, the most successful recognition rate was obtained by Logistic Regression (94.25%). On the deep learning side, a high recognition rate was achieved with the DNN model (92.57%).

Benzer Tezler

  1. Sosyal ağlarda veri madenciliği üzerine bir uygulama

    The application related with data mining on social networking

    MEHMET ULVİ ŞİMŞEK

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SUAT ÖZDEMİR

  2. EEG sinyallerinden duygu tanıma için akıllı yöntemlerin geliştirilmesi

    Development of intelligent methods for emotion recognition from EEG signals

    MERVE AKAY YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Adli Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TÜRKER TUNCER

  3. Köpekler örneğinde evcil hayvanlarda kemik kırıkların görüntü işleme yöntemleri ile tespiti ve sınıflandırılması

    Detection of bone of pets on the example of dogs by image processing methods and their classification

    MUHAMMED FURKAN AĞGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırgızistan-Türkiye Manas Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. RAYIMBEK SULTANOV

    PROF. DR. ABUZER TAŞ

  4. Gerçek eylem olarak nöropazarlama: Tüketici davranışları uygulaması

    Neuromarketing as a real action: Consumer behavior implementation

    AIMAN BAYASSOVA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    İşletmeİstanbul Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. HALİM KAZAN

  5. Ölçme araçlarının boyutluluk yapısının yapısal eşitlik modellemesine dayalı yöntemler ile değerlendirilmesi

    Evaluation of measurement tools'dimensionality structure with the methods based on structural equation modeling

    SERHAT HAYME

    Doktora

    Türkçe

    Türkçe

    2021

    BiyoistatistikAnkara Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. DERYA GÖKMEN