Yapay zeka yöntemleri kullanarak konuşma duygu tanıma modeli geliştirilmesi

Speech emotion detection model development using artificial intelligence methods

PDF İndir

Tez No: 924822
Yazar: FATMA GÜNEŞ ERİŞ
Danışmanlar: DOÇ. DR. ERHAN AKBAL
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Fırat Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 101

Özet

Konuşmadan duygu tanıma, insan-bilgisayar etkileşiminde doğal ve sezgisel bir iletişim sağlamak amacıyla yapay zeka alanında giderek önem kazanan bir konudur. Bu tez, literatüre Türkçe dilinde bir konuşmadan duygu tanıma veri seti önermeyi ve konuşma verilerinden duygusal durumları belirlemek için derin öğrenme tabanlı ve geleneksel yöntemleri bir araya getirerek daha etkili bir model geliştirmeyi amaçlamaktadır. Tez çalışması kapsamında, 90 farklı katılımcı ile 2547 farklı veriden oluşan Türkçe konuşmadan duygu tanıma veri seti hazırlanmıştır. Hazırlanan veri seti üzerinde öz denetimli öğrenme tabanlı ses modellerinin başarısı test edilerek en başarılı modelin ince ayar yöntemi ile daha verimli sonuçlar elde edebileceği gösterilmiştir. Ayrıca birden fazla veri setini birleştirmenin duygu tanıma performansını artıracağı ve en iyi özellik setinin seçiminin model doğruluğunu anlamlı ölçüde iyileştireceği düşünülmüştür. Gerçekleştirilen deneysel çalışmalarda, çeşitli demografik ve dilsel özelliklere sahip bireylerden oluşan birden fazla referans veri seti kullanılmış ve bu veri setleri birleştirilerek toplamda 11511 konuşma verisinden oluşan bir veri seti oluşturulmuştur. Böylece önerilen modelin genelleştirilebilirliğinin artırılması hedeflenmiştir. Bu çalışmada, derin öğrenme tabanlı ve geleneksel yöntemlerle elde edilen ses özelliklerini birleştirerek duygu tanıma performansını artırmayı hedefleyen yenilikçi bir model önerilmektedir. Önerilen model, Wav2vec2.0 derin öğrenme modeli ve openSmile ses işleme kütüphanesi kullanılarak ses verilerinden özellik çıkarımı gerçekleştirmektedir. Ardından, iteratif bir özellik seçimi ve çoğunluk oylaması yaklaşımıyla en iyi özellik seti belirlenmiş ve farklı özellik setlerinin güçlü yönleri birleştirilmiştir. Deney sonuçları, önerilen yöntemin mevcut literatürdeki çalışmalarla karşılaştırılabilir sonuçlar elde ettiğini göstermiştir. Önerilen yöntem, çoklu veri seti üzerinde %92.55 ile en yüksek doğruluk oranına ulaşmıştır. Ayrıca tez kapsamında önerilen özellik seçim ve çoğunluk oylaması tabanlı yöntemler sınıflandırma doğruluğunda %3'lük bir iyileşme sağlamıştır. Bu bulgular, birleştirilmiş veri setinin ve seçilen özelliklerin model doğruluğunu anlamlı ölçüde artırdığını ortaya koymaktadır.

Özet (Çeviri)

Speech emotion recognition is an increasingly significant topic in artificial intelligence, aiming to enable natural and intuitive communication in human-computer interactions. This thesis aims to propose a Turkish speech-to-emotion recognition dataset to the literature and develop a more effective model by combining deep learning-based and traditional methods to identify emotional states from speech data. Within the scope of the thesis, a Turkish speech emotion recognition dataset consisting of 2547 different data with 90 different participants was prepared. The success of the self-supervised learning-based voice models on the prepared dataset was tested and it was shown that the most successful model can achieve more efficient results with the fine-tuning method. In addition, combining multiple datasets will improve the performance of emotion recognition and the selection of the best feature set will significantly improve the model accuracy. In the experimental studies, multiple benchmark datasets comprising individuals with diverse demographic and linguistic characteristics were utilized. These datasets were merge to create a combined dataset consisting of 11,511 speech samples, aiming to improve the generalizability of the proposed model. This study introduces an innovative model designed to enhance emotion performance by combining audio features derived from deep learning-based and traditional methods. The proposed model extract audio features using the Wav2vec2.0 deep learning model and the openSmile audio processing library. Subsequently, the optimal feature set is determined using an iterative feature selection and majority voting approach, which combines the strengths of different feature sets. The experimental results demonstrate that proposed method achieves results comparable to those reported in the existing literature. The proposed approach achieved the highest accuracy of those 92.55% on the multi-dataset corpus. Furthermore, the feature selection and majority voting-based methods proposed in this thesis led to a 3% improvement in classification accuracy. These finding indicate that the combined dataset and selected features significantly enhance model accuracy.

Benzer Tezler

Tez No
885929
Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks
Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz
AHMET KEMAL YETKİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
Tez No
907406
Türkçe metinler için yapay zeka yöntemleri kullanılarak duygu analizi.
Sentiment analysis using artificial intelligence methods for Turhish texts
SEDA KILIÇER
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. RÜYA ŞAMLI
Tez No
807301
Design and development of audio-emotional serious games for audiology therapy
Odyoloji terapisi için işitsel-duygusal ciddi oyunlar tasarlama ve geliştirme
EGE VERİM
Yüksek Lisans
İngilizce
2023
Bilim ve Teknoloji İstanbul Teknik Üniversitesi
Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
Tez No
784942
Classification of Parkinson's disease using deep learning techniques on finger, hand and tremor data
Derin öğrenme teknikleri kullanarak parmak, el ve titreme verileriyle Parkinson hastalığının sınıflandırılması
BEYZA GÜL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Medipol Üniversitesi
Elektrik-Elektronik Mühendisliği ve Siber Sistemler Ana Bilim Dalı
PROF. DR. BAHADIR KÜRŞAT GÜNTÜRK
Tez No
558788
Car damage analysis for insurance market using convolutional neural networks
Sigorta sektörü için evrişimsel sinir ağları kullanarak araç hasarı analizi
CİHAT TOLGA ARTAN
Yüksek Lisans
İngilizce
2019
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA KAYA

Geri Dön