Geri Dön

Yapay zeka yöntemleri kullanarak konuşma duygu tanıma modeli geliştirilmesi

Speech emotion detection model development using artificial intelligence methods

  1. Tez No: 924822
  2. Yazar: FATMA GÜNEŞ ERİŞ
  3. Danışmanlar: DOÇ. DR. ERHAN AKBAL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 101

Özet

Konuşmadan duygu tanıma, insan-bilgisayar etkileşiminde doğal ve sezgisel bir iletişim sağlamak amacıyla yapay zeka alanında giderek önem kazanan bir konudur. Bu tez, literatüre Türkçe dilinde bir konuşmadan duygu tanıma veri seti önermeyi ve konuşma verilerinden duygusal durumları belirlemek için derin öğrenme tabanlı ve geleneksel yöntemleri bir araya getirerek daha etkili bir model geliştirmeyi amaçlamaktadır. Tez çalışması kapsamında, 90 farklı katılımcı ile 2547 farklı veriden oluşan Türkçe konuşmadan duygu tanıma veri seti hazırlanmıştır. Hazırlanan veri seti üzerinde öz denetimli öğrenme tabanlı ses modellerinin başarısı test edilerek en başarılı modelin ince ayar yöntemi ile daha verimli sonuçlar elde edebileceği gösterilmiştir. Ayrıca birden fazla veri setini birleştirmenin duygu tanıma performansını artıracağı ve en iyi özellik setinin seçiminin model doğruluğunu anlamlı ölçüde iyileştireceği düşünülmüştür. Gerçekleştirilen deneysel çalışmalarda, çeşitli demografik ve dilsel özelliklere sahip bireylerden oluşan birden fazla referans veri seti kullanılmış ve bu veri setleri birleştirilerek toplamda 11511 konuşma verisinden oluşan bir veri seti oluşturulmuştur. Böylece önerilen modelin genelleştirilebilirliğinin artırılması hedeflenmiştir. Bu çalışmada, derin öğrenme tabanlı ve geleneksel yöntemlerle elde edilen ses özelliklerini birleştirerek duygu tanıma performansını artırmayı hedefleyen yenilikçi bir model önerilmektedir. Önerilen model, Wav2vec2.0 derin öğrenme modeli ve openSmile ses işleme kütüphanesi kullanılarak ses verilerinden özellik çıkarımı gerçekleştirmektedir. Ardından, iteratif bir özellik seçimi ve çoğunluk oylaması yaklaşımıyla en iyi özellik seti belirlenmiş ve farklı özellik setlerinin güçlü yönleri birleştirilmiştir. Deney sonuçları, önerilen yöntemin mevcut literatürdeki çalışmalarla karşılaştırılabilir sonuçlar elde ettiğini göstermiştir. Önerilen yöntem, çoklu veri seti üzerinde %92.55 ile en yüksek doğruluk oranına ulaşmıştır. Ayrıca tez kapsamında önerilen özellik seçim ve çoğunluk oylaması tabanlı yöntemler sınıflandırma doğruluğunda %3'lük bir iyileşme sağlamıştır. Bu bulgular, birleştirilmiş veri setinin ve seçilen özelliklerin model doğruluğunu anlamlı ölçüde artırdığını ortaya koymaktadır.

Özet (Çeviri)

Speech emotion recognition is an increasingly significant topic in artificial intelligence, aiming to enable natural and intuitive communication in human-computer interactions. This thesis aims to propose a Turkish speech-to-emotion recognition dataset to the literature and develop a more effective model by combining deep learning-based and traditional methods to identify emotional states from speech data. Within the scope of the thesis, a Turkish speech emotion recognition dataset consisting of 2547 different data with 90 different participants was prepared. The success of the self-supervised learning-based voice models on the prepared dataset was tested and it was shown that the most successful model can achieve more efficient results with the fine-tuning method. In addition, combining multiple datasets will improve the performance of emotion recognition and the selection of the best feature set will significantly improve the model accuracy. In the experimental studies, multiple benchmark datasets comprising individuals with diverse demographic and linguistic characteristics were utilized. These datasets were merge to create a combined dataset consisting of 11,511 speech samples, aiming to improve the generalizability of the proposed model. This study introduces an innovative model designed to enhance emotion performance by combining audio features derived from deep learning-based and traditional methods. The proposed model extract audio features using the Wav2vec2.0 deep learning model and the openSmile audio processing library. Subsequently, the optimal feature set is determined using an iterative feature selection and majority voting approach, which combines the strengths of different feature sets. The experimental results demonstrate that proposed method achieves results comparable to those reported in the existing literature. The proposed approach achieved the highest accuracy of those 92.55% on the multi-dataset corpus. Furthermore, the feature selection and majority voting-based methods proposed in this thesis led to a 3% improvement in classification accuracy. These finding indicate that the combined dataset and selected features significantly enhance model accuracy.

Benzer Tezler

  1. Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks

    Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz

    AHMET KEMAL YETKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  2. Türkçe metinler için yapay zeka yöntemleri kullanılarak duygu analizi.

    Sentiment analysis using artificial intelligence methods for Turhish texts

    SEDA KILIÇER

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. RÜYA ŞAMLI

  3. Design and development of audio-emotional serious games for audiology therapy

    Odyoloji terapisi için işitsel-duygusal ciddi oyunlar tasarlama ve geliştirme

    EGE VERİM

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  4. Classification of Parkinson's disease using deep learning techniques on finger, hand and tremor data

    Derin öğrenme teknikleri kullanarak parmak, el ve titreme verileriyle Parkinson hastalığının sınıflandırılması

    BEYZA GÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Medipol Üniversitesi

    Elektrik-Elektronik Mühendisliği ve Siber Sistemler Ana Bilim Dalı

    PROF. DR. BAHADIR KÜRŞAT GÜNTÜRK

  5. Car damage analysis for insurance market using convolutional neural networks

    Sigorta sektörü için evrişimsel sinir ağları kullanarak araç hasarı analizi

    CİHAT TOLGA ARTAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TOLGA KAYA