Yapay zeka yöntemleri kullanarak konuşma duygu tanıma modeli geliştirilmesi
Speech emotion detection model development using artificial intelligence methods
- Tez No: 924822
- Danışmanlar: DOÇ. DR. ERHAN AKBAL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 101
Özet
Konuşmadan duygu tanıma, insan-bilgisayar etkileşiminde doğal ve sezgisel bir iletişim sağlamak amacıyla yapay zeka alanında giderek önem kazanan bir konudur. Bu tez, literatüre Türkçe dilinde bir konuşmadan duygu tanıma veri seti önermeyi ve konuşma verilerinden duygusal durumları belirlemek için derin öğrenme tabanlı ve geleneksel yöntemleri bir araya getirerek daha etkili bir model geliştirmeyi amaçlamaktadır. Tez çalışması kapsamında, 90 farklı katılımcı ile 2547 farklı veriden oluşan Türkçe konuşmadan duygu tanıma veri seti hazırlanmıştır. Hazırlanan veri seti üzerinde öz denetimli öğrenme tabanlı ses modellerinin başarısı test edilerek en başarılı modelin ince ayar yöntemi ile daha verimli sonuçlar elde edebileceği gösterilmiştir. Ayrıca birden fazla veri setini birleştirmenin duygu tanıma performansını artıracağı ve en iyi özellik setinin seçiminin model doğruluğunu anlamlı ölçüde iyileştireceği düşünülmüştür. Gerçekleştirilen deneysel çalışmalarda, çeşitli demografik ve dilsel özelliklere sahip bireylerden oluşan birden fazla referans veri seti kullanılmış ve bu veri setleri birleştirilerek toplamda 11511 konuşma verisinden oluşan bir veri seti oluşturulmuştur. Böylece önerilen modelin genelleştirilebilirliğinin artırılması hedeflenmiştir. Bu çalışmada, derin öğrenme tabanlı ve geleneksel yöntemlerle elde edilen ses özelliklerini birleştirerek duygu tanıma performansını artırmayı hedefleyen yenilikçi bir model önerilmektedir. Önerilen model, Wav2vec2.0 derin öğrenme modeli ve openSmile ses işleme kütüphanesi kullanılarak ses verilerinden özellik çıkarımı gerçekleştirmektedir. Ardından, iteratif bir özellik seçimi ve çoğunluk oylaması yaklaşımıyla en iyi özellik seti belirlenmiş ve farklı özellik setlerinin güçlü yönleri birleştirilmiştir. Deney sonuçları, önerilen yöntemin mevcut literatürdeki çalışmalarla karşılaştırılabilir sonuçlar elde ettiğini göstermiştir. Önerilen yöntem, çoklu veri seti üzerinde %92.55 ile en yüksek doğruluk oranına ulaşmıştır. Ayrıca tez kapsamında önerilen özellik seçim ve çoğunluk oylaması tabanlı yöntemler sınıflandırma doğruluğunda %3'lük bir iyileşme sağlamıştır. Bu bulgular, birleştirilmiş veri setinin ve seçilen özelliklerin model doğruluğunu anlamlı ölçüde artırdığını ortaya koymaktadır.
Özet (Çeviri)
Speech emotion recognition is an increasingly significant topic in artificial intelligence, aiming to enable natural and intuitive communication in human-computer interactions. This thesis aims to propose a Turkish speech-to-emotion recognition dataset to the literature and develop a more effective model by combining deep learning-based and traditional methods to identify emotional states from speech data. Within the scope of the thesis, a Turkish speech emotion recognition dataset consisting of 2547 different data with 90 different participants was prepared. The success of the self-supervised learning-based voice models on the prepared dataset was tested and it was shown that the most successful model can achieve more efficient results with the fine-tuning method. In addition, combining multiple datasets will improve the performance of emotion recognition and the selection of the best feature set will significantly improve the model accuracy. In the experimental studies, multiple benchmark datasets comprising individuals with diverse demographic and linguistic characteristics were utilized. These datasets were merge to create a combined dataset consisting of 11,511 speech samples, aiming to improve the generalizability of the proposed model. This study introduces an innovative model designed to enhance emotion performance by combining audio features derived from deep learning-based and traditional methods. The proposed model extract audio features using the Wav2vec2.0 deep learning model and the openSmile audio processing library. Subsequently, the optimal feature set is determined using an iterative feature selection and majority voting approach, which combines the strengths of different feature sets. The experimental results demonstrate that proposed method achieves results comparable to those reported in the existing literature. The proposed approach achieved the highest accuracy of those 92.55% on the multi-dataset corpus. Furthermore, the feature selection and majority voting-based methods proposed in this thesis led to a 3% improvement in classification accuracy. These finding indicate that the combined dataset and selected features significantly enhance model accuracy.
Benzer Tezler
- Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks
Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz
AHMET KEMAL YETKİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Türkçe metinler için yapay zeka yöntemleri kullanılarak duygu analizi.
Sentiment analysis using artificial intelligence methods for Turhish texts
SEDA KILIÇER
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. RÜYA ŞAMLI
- Design and development of audio-emotional serious games for audiology therapy
Odyoloji terapisi için işitsel-duygusal ciddi oyunlar tasarlama ve geliştirme
EGE VERİM
Yüksek Lisans
İngilizce
2023
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Classification of Parkinson's disease using deep learning techniques on finger, hand and tremor data
Derin öğrenme teknikleri kullanarak parmak, el ve titreme verileriyle Parkinson hastalığının sınıflandırılması
BEYZA GÜL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Medipol ÜniversitesiElektrik-Elektronik Mühendisliği ve Siber Sistemler Ana Bilim Dalı
PROF. DR. BAHADIR KÜRŞAT GÜNTÜRK
- Car damage analysis for insurance market using convolutional neural networks
Sigorta sektörü için evrişimsel sinir ağları kullanarak araç hasarı analizi
CİHAT TOLGA ARTAN
Yüksek Lisans
İngilizce
2019
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA KAYA