Makine öğrenimi tekniklerini kullanarak konuşma duygularını tanıma

Speech emotion recognition using machine learning techniques

PDF İndir

Tez No: 823254
Yazar: ÜLKÜ BAYRAKTAR
Danışmanlar: DOÇ. DR. ZEYNEP HİLAL KİLİMCİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: Kocaeli Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilişim Sistemleri Bilim Dalı
Sayfa Sayısı: 88

Özet

Konuşma duygu tanıma, konuşma işleme alanında zorlu bir görevdir. Bu nedenle, özellik çıkarım işlemi konuşma sinyallerini göstermek ve işlemek için son derece önemlidir. Bu çalışmada, altı farklı veri kümesi kullanarak duyguların tanınması için özellik çıkarım aşaması, doğrudan ham ses dosyalarını derin sinir ağlarına besleyen bir model ve makine öğrenmesi algoritmaları üzerine çalışmalar yapılmıştır. Bu veri kümeleri şunlardır: Berlin Duygusal Konuşma Veritabanı, Ryerson Sesli-Görsel Duygusal Konuşma ve Şarkı Veritabanı, Toronto Duygusal Konuşma Veritabanı, Crowd-Sourced Duygusal Multimodal Aktörler , Surrey Sesli-Görsel İfade Edilmiş Duygu ve TESS+RAVDESS. Modeller mel-ölçekli spektrogram, mel-frekanslı spektral katsayılar gibi geleneksel özellik çıkarım teknikleri kullanılarak makine öğrenmesi algoritmaları, topluluk öğrenme yöntemleri, derin öğrenme ve hibrit derin öğrenme teknikleri ile çalıştırılmıştır. Destek vektör makinesi, karar ağacı, naif Bayes, rastgele ormanlar, makine öğrenmesi algoritmaları olarak değerlendirilirken, çoğunluk oylaması ve yığın yöntemleri topluluk öğrenme teknikleri olarak değerlendirilmiştir. Ayrıca, evrişimsel sinir ağları, uzun kısa vadeli bellek ağları ve hibrit CNN-LSTM modeli derin öğrenme teknikleri olarak değerlendirilmiş ve uygulanan her bir modelin performansı kıyaslanmıştır. Dahası, tez kapsamında kullanılan modellerin performansı çalışmanın katkısını göstermek amacıyla literatür çalışmaları ile karşılaştırılmıştır.. Transformer modelleri, gelişen teknoloji ile birlikte doğal dil işlemede büyük bir ilerleme kaydedilmesine olanak sağlayan derin öğrenme yöntemleridir. HuBert, Wav2Vec2, M-CTC-T gibi popüler dil modelleri kullanılarak çalışmamızdaki 6 farklı veri kümesi üzerinde deneyler yapılmış ve sonuçları değerlendirilmiştir. Bu çalışma, konuşma duygu tanıma alanındaki gelişmelere katkıda bulunmakta ve gelecekte bu alanda daha iyi sonuçlar elde etmek için yapılacak çalışmalara öncülük etmektedir.

Özet (Çeviri)

Recognizing emotions in speech is a challenging task in the field of speech processing. Therefore, feature extraction is of utmost importance in representing and processing speech signals. In this study, a feature extraction stage for emotion recognition is investigated, as well as deep neural network models and machine learning algorithms fed directly with raw audio files. Six different datasets were utilized for this purpose: Berlin Emotional Speech Database, Ryerson Audio-Visual Database of Emotional Speech and Song, Toronto Emotional Speech Set, Crowd-Sourced Emotional Multimodal Actors, Surrey Audio-Visual Expressed Emotion and TESS+RAVDESS. Models were trained using traditional feature extraction techniques such as mel-scale spectrogram, mel-frequency spectral coefficients, as well as machine learning algorithms, community learning methods, deep learning, and hybrid deep learning techniques. Support vector machines, decision trees, naive Bayes, random forests were evaluated as machine learning algorithms, while majority voting and ensemble methods were evaluated as community learning techniques. In addition, convolutional neural networks, long short-term memory networks, and the hybrid CNN-LSTM model were evaluated as deep learning techniques, and the performance of each applied model was compared. Furthermore, the performance of the models used in the thesis was compared with literature studies to demonstrate the contribution of the study. Transformers are deep learning algorithms that have facilitated significant progress in natural language processing with the advancement of technology. In this study, experiments were conducted on six different datasets in our work using popular language models such as HuBert, Wav2Vec2, and M-CTC-T, and their results were evaluated. This study contributes to the advancements in speech emotion recognition and paves the way for future research to achieve better results in this field.

Benzer Tezler

Tez No
712020
Speech emotion recognition: Application in distance learning education
Uzaktan eğitim uygulamalarında konuşma duygu tanıma
DAHIRU TANKO
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Adli Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞENGÜL DOĞAN
Tez No
379634
Otomatik duygu sözlüğü çevirimi ve duygu analizinde kullanımı
Automatic sentiment dictionary translation and using in sentiment analysis
ALAETTİN UÇAN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. HAYRİ SEVER
DOÇ. DR. EBRU AKCAPINAR SEZER
Tez No
142597
Yeni Cami'nin akustik açıdan performans değerlendirmesi
Evaluation of the acoustical performance of the New Mosque
EVREN YILDIRIM
Yüksek Lisans
Türkçe
2003
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. SEVTAP YILMAZ DEMİRKALE
Tez No
836752
Backchannel prediction in human-robot interaction for engaging agents
İnsan-robot etkileşiminde ilgi düzeyinin iyileştirilmesine yönelik arka-kanal sinyal kestirimi
BEKİR BERKER TÜRKER
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ENGİN ERZİN
Tez No
827867
Classification of abnormal respiratory sounds using deep learning techniques
Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması
AHAMADI ABDALLAH IDRISSE
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ

Geri Dön