Yeni Türkçe duygusal veri seti üzerinde konuşmadan duygu tanıma
Speech emotion recognition in a new Turkish emotional speech dataset
- Tez No: 832367
- Danışmanlar: DR. ÖĞR. ÜYESİ SERHAT HIZLISOY
- Tez Türü: Yüksek Lisans
- Konular: Mühendislik Bilimleri, Engineering Sciences
- Anahtar Kelimeler: Makine Öğrenmesi, OpenSMILE, Derin Öğrenme, Konuşmadan Duygu Tanıma, Machine Learning, OpenSMILE, Deep Learning, Speech Emotion Recognition, emo_large
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Kayseri Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 100
Özet
İnsanlar arasındaki iletişimin en doğal ve hızlı yöntemi konuşmaktır. Konuşma sinyalleri konuşmanın içeriği haricinde konuşan kişinin ruh hali, yaşı, cinsiyeti, fizyolojisi ve lehçesi gibi birçok veriyi de barındırmaktadır. Duygu ise gerçekleşen bir olayın, kişilerin ya da varlıkların insanın iç dünyasında oluşturduğu etkidir. Duygular mutluluk, heyecan, öfke, sakinlik gibi gruplara ayrılabilir. Bireyler duygularını hem beden dili yoluyla hem de sesli iletişim ile birbirlerine aktarırlar. Ancak bazı durumlarda beden dilini yorumlamak ya da görebilmek mümkün olmamaktadır. Böyle durumlarda sesten duygunun çıkarımı daha fazla önem kazanmaktadır. Bu alanda yapılan ilk çalışmalarda genelde görüntü sinyallerinden duygu analizi yapılması üzerinde durulmuştur. Son yıllarda ise ses sinyali üzerinden duygu analizi çalışmaları gelişme göstermeye başlamıştır. Literatür incelendiğinde ise konuşmadan duygu tanıma alanında birçok çalışma olduğu görülmektedir. Yapılan çalışmalarda hem makine öğrenim hem de derin öğrenme algoritmaları kullanılmakta ve oldukça başarılı tanıma oranlarına ulaşılmıştır. Bu tez kapsamında ise önceki çalışmalardan farklı olarak verisetini kendimiz oluşturduk. Bunun için Türk yapımı dizi ve filmler incelendi. Veriseti içindeki tüm kayıtlar 5 saniyeden oluşmakta ve 4 duygu içermektedir. Burada tezin önceki çalışmalardan en önemli farkı konuşmadan duygu tanıma için oluşturulmuş; yüksek veri kalitesi ve etiketlendirmesine sahip olan hazır veri setlerinin kullanılmamasıdır. Ayrıca Türkçe dili üzerinde yayın yapan çok az sayıda çalışma bulunmaktadır. Diğer bir noktada konuşmacı bağımsız bir model oluşturulmuş olmasıdır. Bu durumda aslında model performansını olumsuz etkileyebilecek bir durumdur. İncelenen çalışmalarda düşük tanıma oranları nedeniyle genelde tercih edilmemiştir. Özniteliklerin çıkarılmasında OpenSMILE uygulaması kullanılmıştır. Ön işleme sürecinde sıralama, standardizasyon, resample, discretize işlemleri uygulanmıştır. Öznitelik seçme sürecinde farklı algoritmalar ve uygulamalar incelenmiş. Performansa ek bir katkı gözlemlenmediği için süreç içinde bu kısım kullanılmamıştır. Sınıflandırma sürecinde ise hem makine öğrenim hem de derin öğrenme algoritmaları kullanılmıştır. Makine öğrenim tarafında en başarılı tanıma oranı Lojistik Regresyon (%94,25) ile elde edilmiştir. Derin öğrenme tarafında ise DNN modeli (%92,57) ile yüksek tanıma oranına ulaşılmıştır.
Özet (Çeviri)
The most natural and fast method of communication between people is talking. Apart from the content of speech, speech signals also contain many data such as the mood, age, gender, physiology and dialect of the person speaking. Emotion is the effect of an event, people or beings in the inner world of a person. Emotions can be divided into groups such as happiness, excitement, anger, calmness. Individuals convey their emotions to each other both through body language and through voice communication. However, in some cases, it is not possible to interpret or see body language. In such cases, the extraction of emotion from the sound becomes more important. In the first studies in this field, it was generally focused on the analysis of sentiment from image signals. In recent years, sentiment analysis studies over sound signal have started to develop. When the literature is examined, it is seen that there are many studies in the field of speech to emotion recognition. In the studies carried out, both machine learning and deep learning algorithms are used and highly successful recognition rates have been achieved. Within the scope of this thesis, unlike previous studies, we created the dataset ourselves. For this purpose, Turkish series and films were examined. All records in the dataset consist of 5 seconds and contain 4 emotions. Here, the most important difference of the thesis from previous studies was created for emotion recognition without speaking; not to use ready-made data sets with high data quality and labeling. In addition, there are very few studies published on the Turkish language. Another point is that an independent model of the speaker has been created. In this case, it is actually a condition that can adversely affect the performance of the model. In the studies examined, it was generally not preferred due to low recognition rates. The OpenSMILE implementation was used to extract attributes. In the pre-processing process, sorting, standardization, resample, discretize processes were applied. During the attribute selection process, different algorithms and implementations were examined. Since no additional contribution to performance was observed, this part was not used in the process. In the classification process, both machine learning and deep learning algorithms were used. On the machine learning side, the most successful recognition rate was obtained by Logistic Regression (94.25%). On the deep learning side, a high recognition rate was achieved with the DNN model (92.57%).
Benzer Tezler
- Sosyal ağlarda veri madenciliği üzerine bir uygulama
The application related with data mining on social networking
MEHMET ULVİ ŞİMŞEK
Yüksek Lisans
Türkçe
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SUAT ÖZDEMİR
- EEG sinyallerinden duygu tanıma için akıllı yöntemlerin geliştirilmesi
Development of intelligent methods for emotion recognition from EEG signals
MERVE AKAY YILDIRIM
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiAdli Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. TÜRKER TUNCER
- Köpekler örneğinde evcil hayvanlarda kemik kırıkların görüntü işleme yöntemleri ile tespiti ve sınıflandırılması
Detection of bone of pets on the example of dogs by image processing methods and their classification
MUHAMMED FURKAN AĞGÜN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırgızistan-Türkiye Manas ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. RAYIMBEK SULTANOV
PROF. DR. ABUZER TAŞ
- Gerçek eylem olarak nöropazarlama: Tüketici davranışları uygulaması
Neuromarketing as a real action: Consumer behavior implementation
AIMAN BAYASSOVA
- Ölçme araçlarının boyutluluk yapısının yapısal eşitlik modellemesine dayalı yöntemler ile değerlendirilmesi
Evaluation of measurement tools'dimensionality structure with the methods based on structural equation modeling
SERHAT HAYME
Doktora
Türkçe
2021
BiyoistatistikAnkara ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. DERYA GÖKMEN