Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks
Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz
- Tez No: 885929
- Danışmanlar: PROF. DR. HATİCE KÖSE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 117
Özet
Yapay zeka teknolojilerinin hızlı gelişimi, insan-bilgisayar etkileşimi (HCI) ve ilgili alanlarda büyük ilerlemelere yol açmıştır. HCI'de kullanıcı deneyimini artırmak amacıyla, makinelerin kullanıcıların duygusal durumlarını gerçek zamanlı olarak algılama ve anlama yeteneği büyük önem taşımaktadır. Duyguların doğru bir şekilde algılanması, makinelerin daha kişiselleştirilmiş ve etkili hizmetler sunmasına olanak tanır. Son elli yılda konuşma tanıma ve konuşma duygusu tanıma (SER) üzerine yapılan araştırmalar önemli ilerlemeler kaydetmiş ve bu alandaki bilgi birikimi sürekli olarak artmıştır. Konuşma, insan iletişiminin temel taşlarından biridir ve konuşmacının duygusal durumu hakkında zengin bilgiler sunar. Ses tonundaki değişiklikler, hız, vurgu ve ses yüksekliği gibi özellikler, konuşmacının duygularını yansıtmakta önemli rol oynar. Bu nedenle, konuşmanın analiz edilmesi, konuşmacının duygularını, düşüncelerini ve niyetlerini daha iyi anlamayı sağlar. İnsan sesinin duygusal ifadenin birincil aracı olduğu ve ses tonunun en eski ve evrensel iletişim biçimi olduğu kabul edilmektedir. Bu bağlamda, makinelerin bu tonları yorumlayabilme yeteneği, HCI sistemlerinin performansını önemli ölçüde artırabilir. Duyguların konuşmadan tanınması, duygusal bilgi işlem alanında önemli bir araştırma konusudur. Bu görev, duyguların son derece kişisel olması ve insanların bile onları doğru bir şekilde anlamakta zorlanması nedeniyle zorlu bir iştir. Konuşma duygusu tanıma, duygusal farkındalığa sahip HCI sistemleri, trafik sorunlarını çözme, robotlar ve zihinsel sağlık tanı ve tedavisi gibi birçok pratik uygulamaya sahiptir. Örneğin, müşteri hizmetleri sistemlerinde veya mobil iletişimde bir müşterinin duygusal durumu ses tonundan anlaşılabilir ve bu bilgi, daha iyi hizmet sunmak için kullanılabilir. Eğitim destek sistemlerinde kullanıldığında, çocukların sosyal-duygusal becerileri ve akademik yetenekleri geliştirilebilir. Duyguların konuşmadan çıkarılması, sürücülerin aşırı sinirli veya kızgın olduklarında erken uyarı sağlayarak trafik kazalarının olasılığını azaltabilir. Ayrıca, bu tür sistemler, otizm spektrum bozukluğu (ASD) olan çocuklar gibi duygularını ifade etmekte zorlanan bireyler için de büyük bir potansiyel sunmaktadır. Bu çalışmanın amacı, konuşmadan duyguları tespit etmek için bir yöntem geliştirmek ve bu yöntemi mevcut konuşma duygusu tanıma (SER) sistemlerinin performansını artırmak için kullanmaktır. Bu kapsamda, sesin duyguları tanımadaki en ayırt edici özelliklerini belirlemek için çeşitli özellik çıkarma yöntemleri değerlendirilmiştir. Kullanılan yöntemler arasında Mel Frekans Kepstral Katsayıları (MFCC), Mel spektrogram, Zero-Crossing Rate ve Root Mean Square Energy gibi yöntemler bulunmaktadır. Elde edilen bu özellikler, derin öğrenme modelleriyle birlikte kullanılmıştır. Özellikler, öncelikle iki boyutlu görüntülere dönüştürülerek önceden eğitilmiş ağlar üzerinde optimizasyonlar yapılarak eğitilmiş, ardından bir boyutlu evrişimli sinir ağı (CNN) kurgulanarak eğitilmiş ve son olarak da CNN ve uzun kısa süreli bellek (LSTM) birleşimi bir model ile eğitilmiştir. Bu araştırma süresince, konuşma özelliklerinin insan duygusal durumlarını doğru bir şekilde tespit edip edemeyeceği, literatürdeki hangi özellik çıkarma yönteminin daha iyi performans gösterdiği gibi kritik sorulara yanıt aranmıştır. Özellikle Mel Frekans Kepstral Katsayıları (MFCC), Mel spektrogram, Chroma, Zero-Crossing Rate (ZCR) ve Root Mean Square Energy (RMSE) gibi çeşitli özellik çıkarma yöntemlerinin etkisi detaylı olarak incelenmiştir. MFCC ve Mel-spektrogram ses özelliklerinin farklı görüntü formatlarının doğruluk oranlarına etkisi, bu formatların model performansını nasıl etkilediği üzerine yoğunlaşılmıştır. Ayrıca, ince ayarlandığında en iyi performansı gösteren önceden eğitilmiş modelin hangisi olduğu belirlenmeye çalışılmıştır. Bu modeller arasında VGG16, VGG11\_bn, ResNet-18, ResNet-101, AlexNet ve DenseNet yer almaktadır. Ses veri artırma yöntemlerinin test sonuçlarına etkisi de değerlendirilmiştir; veri setlerinin büyütülmesi ve çeşitlendirilmesi, modellerin genel doğruluğunu ve dayanıklılığını nasıl etkilediği analiz edilmiştir. Çalışma, bu soruları yanıtlayarak konuşma duygusu tanıma alanında daha doğru ve sağlam sistemlerin geliştirilmesine katkıda bulunmayı amaçlamıştır. Böylece, hem teorik hem de uygulamalı açıdan önemli bulgular elde edilmiştir. Araştırmada kullanılan MFCC ve Mel spektrogram özellikleri, sesin duygusal tonlarını tanımlamada önemli bir rol oynamıştır. MFCC özellikleri, Mel spektrogramlara kıyasla daha yüksek doğruluk oranları sağlamıştır. Bu sonuçlar, MFCC'nin sesin spektral özelliklerini etkili bir şekilde temsil ettiğini ve duygu tanıma sistemlerinin performansını artırmada önemli bir rol oynadığını göstermektedir. ResNet ve DenseNet gibi önceden eğitilmiş modeller, renkli MFCC verileri ile en yüksek performansı göstermiştir. Özellikle DenseNet modeli, derin yapısı ve karmaşık özellikleri öğrenme yeteneği sayesinde en yüksek doğruluk oranını elde etmiştir. Ayrıca, 1D-CNN modeli, MFCC, RMSE ve ZCR özelliklerini kullanarak hızlı ve yüksek doğrulukta sonuçlar elde etmiştir. Bu model, eğitim süresi açısından en verimli yöntem olarak öne çıkmıştır. 1D-CNN modeli, konuşma verilerini iki boyutlu görüntülere dönüştürmeden doğrudan işleyebilme yeteneği sayesinde daha hızlı ve verimli bir performans sergilemiştir. Bu özellik, özellikle büyük veri setleri ile çalışırken önemli bir avantaj sağlamaktadır. CNN-LSTM modeli ise, zaman bağımlılıklarını işleme yeteneği ile dikkat çekse de, diğer yöntemlere kıyasla daha düşük doğruluk oranlarına sahip olmuştur. Bu durum, LSTM bileşeninin karmaşıklığı, uzun eğitim süresi ve zaman bağımlılıklarını işleme yeteneği ile açıklanabilir. LSTM'ler, zaman serisi verilerindeki bağımlılıkları yakalamada başarılı olsa da, bu yetenekleri nedeniyle daha yüksek hesaplama maliyetleri ve daha uzun eğitim süreleri gerektirir. Ayrıca, LSTM'lerin hiperparametre ayarlarının zorluğu ve modelin aşırı öğrenmeye eğilimi de performansını etkileyebilir. Bu çalışma, konuşma duygusu tanımanın derin öğrenme teknikleri kullanılarak etkili bir şekilde gerçekleştirilebileceğini göstermiştir. MFCC özelliklerinin, Mel spektrogramlara göre daha iyi performans gösterdiği ve 1D-CNN modelinin hızlı ve doğru sonuçlar verdiği tespit edilmiştir. Gelecekte, bu yöntemlerin kapsamı artırılarak, duygularını ifade etmekte zorlanan bireyler veya otizm spektrum bozukluğu (ASD) olan çocuklar için yardımcı sistemlere entegre edilmesi planlanmaktadır. Bu tür sistemler, çocukların ilgi alanlarını belirleyip onları motive edebilir ve rehabilitasyon süreçlerinde önemli bir rol oynayabilir. Deneyler, genel sınıflandırma performansı üzerindeki etkilerini anlamak için detaylandırılmıştır. Her bir modelin performansı, doğruluk, eğitim süresi ve sınıflandırma yetenekleri açısından karşılaştırılmıştır. Sonuçlar, renkli MFCC özelliklerinin en yüksek doğruluk oranlarına sahip olduğunu ve 1D-CNN modelinin hem doğruluk hem de eğitim süresi açısından en verimli yöntem olduğunu göstermiştir. Bu bulgular, özellikle hızlı ve etkili konuşma duygusu tanıma sistemleri geliştirmek isteyen araştırmacılar için önemlidir. Bu çalışmanın sonunda, konuşma duygusu tanıma sistemlerinin, doğru özellik çıkarma yöntemleri ve derin öğrenme modelleri kullanılarak başarılı bir şekilde geliştirilebileceği kanıtlanmıştır. Ayrıca, ses veri artırma yöntemlerinin, model performansını önemli ölçüde artırdığı gösterilmiştir. Bu bulgular, gelecekte daha gelişmiş ve kapsamlı duygusal tanıma sistemlerinin oluşturulmasına ışık tutacaktır. Gelecekteki çalışmalar, bu yöntemlerin gerçek dünya uygulamalarında test edilmesi ve daha geniş veri setleri ile doğrulanması üzerine odaklanabilir. Ayrıca, farklı kültürel ve dilsel bağlamlarda bu sistemlerin performansını değerlendirmek de önemli bir araştırma konusu olabilir. Özetle, bu tez çalışması, konuşma duygusu tanımanın derin öğrenme teknikleri ile etkin bir şekilde gerçekleştirilebileceğini ve çeşitli özellik çıkarma yöntemlerinin bu süreçte önemli bir rol oynadığını göstermiştir. Elde edilen bulgular, gelecekteki araştırmalara ve uygulamalara rehberlik edecek nitelikte olup, duygusal zeka ile donatılmış daha akıllı ve duyarlı sistemlerin geliştirilmesine katkıda bulunacaktır.
Özet (Çeviri)
The rapid advancement in artificial intelligence technologies has resulted in significant progress in human-computer interaction (HCI) and related fields. In HCI, the ability of machines to perceive and understand users' emotional states in real-time is crucial for enhancing the user experience. Accurate recognition of emotions enables machines to provide more personalized and effective services. Over the past fifty years, research on the recognition of speech and speech emotion recognition (SER) has made considerable strides, continuously expanding the knowledge base in this area. Speech is one of the fundamental elements of human communication and offers rich information about the speaker's emotional state. Changes in tone, speed, emphasis, and pitch play significant roles in reflecting the speaker's emotions. Therefore, analyzing speech can provide deeper insights into the speaker's feelings, thoughts, and intentions. It is widely accepted that the human voice is the primary instrument for emotional expression and that tone of voice is the oldest and most universal form of communication. In this context, the ability of machines to interpret these tones can greatly enhance the performance of HCI systems. Recognizing emotion from speech is a significant research area in affective computing. This task is challenging due to the highly personal nature of emotions, which even humans can find difficult to understand accurately. Speech emotion recognition has numerous practical applications, including emotion-aware HCI systems, traffic problem-solving, robotics, and mental health diagnosis and therapy. For instance, in customer service systems or mobile communication, a customer's emotional state can be inferred from their tone of voice, and this information can be used to provide better service. In educational support systems, it can help improve children's socio-emotional skills and academic abilities. Recognizing emotions from speech can also provide early warnings for drivers who are excessively nervous or angry, thereby reducing the likelihood of traffic accidents. Moreover, such systems hold great potential for individuals who struggle to express their emotions, such as children with autism spectrum disorder (ASD). This study aims to develop a method for detecting emotions from speech and to use this method to improve the performance of existing speech emotion recognition (SER) systems. In this context, various feature extraction methods have been evaluated to identify the most distinctive voice characteristics for recognizing emotions. These methods include Mel Frequency Cepstral Coefficients (MFCC), Mel spectrogram, Zero-Crossing Rate (ZCR), and Root Mean Square Energy (RMSE). The extracted features have been used in conjunction with deep learning models. Initially, these features were transformed into two-dimensional images and optimized on pre-trained networks, then trained on a one-dimensional convolutional neural network (CNN) architecture. Finally, a combined CNN and Long Short-Term Memory (LSTM) model was used. Throughout this research, critical questions were addressed, such as whether speech features can accurately detect human emotional states and which feature extraction method performs best in the literature. The study specifically examined the impact of various feature extraction methods, including MFCC, Mel spectrogram, Chroma, Root Mean Square Energy (RMSE), and Zero-Crossing Rate (ZCR). The effects of different image formats of MFCC and Mel-spectrogram audio features on accuracy rates and how these formats influence model performance were also explored. Additionally, the study aimed to determine which pre-trained model, among VGG16, VGG11\_bn, ResNet-18, ResNet-101, AlexNet, and DenseNet, performs best when fine-tuned. The impact of audio data augmentation methods on test results was evaluated, analyzing how increasing and diversifying the dataset affects the overall accuracy and robustness of the models. This research aims to address these questions to contribute to the development of more accurate and robust systems for speech emotion recognition. Thus, significant findings were obtained both theoretically and practically. The study found that MFCC and Mel spectrogram features play a critical role in identifying the emotional tones of speech. MFCC features consistently yielded higher accuracy rates compared to Mel spectrograms. These results indicate that MFCC effectively represents the spectral characteristics of sound, significantly enhancing the performance of emotion recognition systems. Pre-trained models such as ResNet and DenseNet showed the highest performance with colorized MFCC data. DenseNet, in particular, achieved the highest accuracy due to its deep architecture and ability to learn complex features. Additionally, the 1D-CNN model, using MFCC, RMSE, and ZCR features, achieved fast and highly accurate results. This model emerged as the most efficient method in terms of training time. The 1D-CNN model demonstrated a faster and more efficient performance by processing speech data directly without converting it into two-dimensional images, a significant advantage when working with large datasets. The CNN-LSTM model, although notable for its ability to handle temporal dependencies, showed lower accuracy compared to other methods. This outcome can be attributed to the complexity of the LSTM component, its long training times, and its ability to process temporal dependencies. LSTMs, while effective at capturing dependencies in time series data, require higher computational costs and longer training times. Furthermore, the difficulty in tuning hyperparameters and the tendency of LSTM models to overfit also impact their performance. This study demonstrates that speech emotion recognition can be effectively achieved using deep learning techniques. MFCC features outperformed Mel spectrograms, and the 1D-CNN model provided fast and accurate results. In the future, it is planned to extend these methods and integrate them into assistive systems for individuals who have difficulty expressing their emotions, such as children with autism spectrum disorder (ASD). Such systems could identify and motivate children's interests and play a significant role in rehabilitation processes. Experiments have been detailed to understand the impact of each model on overall classification performance. Each model's performance was compared in terms of accuracy, training time, and classification capabilities. The findings indicated that colorized MFCC features yielded the highest accuracy rates and that the 1D-CNN model was the most efficient method in terms of both accuracy and training time. These findings are particularly important for researchers aiming to develop fast and effective speech emotion recognition systems. At the conclusion of this study, it was proven that speech emotion recognition systems could be successfully developed using the appropriate feature extraction methods and deep learning models. Additionally, it was shown that audio data augmentation methods significantly improve model performance. These findings will pave the pathway to achieving more advanced and comprehensive emotional recognition systems. Future studies may focus on testing these methods in real-world applications and validating them with larger datasets. Evaluating the performance of these systems in different cultural and linguistic contexts will also be an important research topic. In summary, this thesis demonstrates that speech emotion recognition can be effectively achieved using deep learning techniques, with various feature extraction methods playing a crucial role in this process. The findings provide guidance for future research and applications, contributing to the development of smarter and more responsive systems equipped with emotional intelligence.
Benzer Tezler
- Land cover and land use classification of multi-modal high-resolution satellite images using multi-task deep learning approach
Çok görevli derin öğrenme tekniği ile çok kipli yüksek çözünürlüklü uydu görüntülerinin arazi örtüsü ve arazi kullanımı sınıflandırılması
BURAK EKİM
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. ELİF SERTEL
- Hava kalitesi üzerindeki meteorolojik ve emisyon etkilerinin belirlenmesinde makine öğrenmesi tabanlı meteorolojik normalleştirme yönteminin uygulanması
Application of machine learning-based meteorological normalization to quantify meteorological and emissions impacts on air quality
MUHAMMED DENİZOĞLU
Yüksek Lisans
Türkçe
2024
Meteorolojiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ DENİZ
- İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi
Variant analysis in human gene networks using surrogate modelling and machine learning
FURKAN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
- Launch vehicle navigation system design and comprehensive performance analysis
Fırlatma aracı seyrüsefer sistem tasarımı ve kapsayıcı performans analizi
ALTUĞ ERTAN
Yüksek Lisans
İngilizce
2024
Havacılık ve Uzay Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. CENGİZ HACIZADE
- Nadir metabolik hastalıklarda tüm ekzom dizileme verilerinin biyoinformatik analizleri ile fenotipten sorumlu varyantların değerlendirilmesi
Bioinformatics analysis and variant interpretation of whole exome sequencnig data in inborn errors of metabolism
CAN KOŞUKCU
Doktora
Türkçe
2024
Endokrinoloji ve Metabolizma HastalıklarıHacettepe ÜniversitesiPediatrik Temel Bilimler Ana Bilim Dalı
PROF. DR. RIZA KÖKSAL ÖZGÜL