Geri Dön

Konuşmaların duygusal sınıflandırılmasında öznitelik seçimi için metasezgisel tabanlı hibrit bir yaklaşım

A metaheuristic-based hybrid approach for feature selection in emotional classification from speech

  1. Tez No: 941650
  2. Yazar: MUSTAFA ARPACIOĞLU
  3. Danışmanlar: PROF. DR. TURGUT ÖZSEVEN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Tokat Gaziosmanpaşa Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 116

Özet

İnsanlık tarihi boyunca kişilerin birbirleri ile iletişim kurdukları araç konuşma olmuştur. İnsanlar konuşarak iletişim kurdukları gibi aynı zamanda karşısındaki kişilere duygularını da ifade edebilmektedir. Konuşma soluduğumuz havanın insan vücudundaki birtakım organlardan geçerek ses telleri vasıtasıyla çıkardığı sinyallerden oluşmaktadır. Çıkan bu sinyallerden aldığımız tını ile karşımızdaki kişinin duygu durumu hakkında tahminde bulunabiliriz. İnsan-Bilgisayar etkileşiminin yoğun olarak kullanıldığı günümüzde sesten duygu tanıma çalışmalarına da sıklıkla rastlanılmaktadır. Günümüz teknolojisinin gelişmesinde canlılardan ilham alınan örnekleri sıklıkla görmekteyiz. Özellikle kullanılan araç ve gereçlerde, taşıtlarda hem tasarımsal olarak hem de çalışma prensibi açısından doğada bulunan canlılar taklit edilerek sistemler geliştirilmektedir. Yapay zekâ alanında ise canlıları taklit etme çalışması metasezgisel algoritmalar olarak karşımıza çıkmaktadır. Bu algoritmalar canlıların besin arama ve bulma davranışlarından esinlenerek geliştirilen algoritmalardır. Çalışmamızda literatürde kullanılan gri kurt optimizasyon ve salp sürü algoritmalarından esinlenerek hibrit bir metasezgisel yöntem önerilmiştir. Önerilen hibrit yöntem konuşmaların duygusal sınıflandırılması için kullanılmıştır. Bu amaç doğrultusunda literatürde sıklıkla kullanılan EmoDB, SAVEE, eNTERFACE ve EMOVA veri setleri kullanılarak önerilen yöntemin performansı analiz edilmiştir. Öncelikle bu veri setinde bulunan ses dosyaları veri ön işleme aşamasından geçmiş ve sonra OpenSmile yazılım ile öznitelik çıkarma işlemi gerçekleştirilmiştir. Elde edilen öznitelikler üzerinden gri kurt optimizasyon, sarp sürü algoritmaları ve önerdiğimiz yöntem ile öznitelik seçim işlemi yapılmıştır. Daha sonra elde edilen öznitelikler SVM ve KNN sınıflandırıcılar kullanılarak duygu sınıflandırması yapılmıştır. Elde edilen sonuçlarda SVM sınıflandırıcının KNN sınıflandırıcıya kıyasla daha iyi sonuçlar verdiği gözlemlenmiştir. KNN sınıflandırıcı ve önerdiğimiz yöntem ile en yüksek doğruluk oranı EmoDB veri setinde %91,92 olarak 586 öznitelik ile elde edilmiştir. Aynı veriseti üzerinde SVM sınıflandırıcı ve önerdiğimiz yöntem 137 öznitelik sayısı ile %98,14 doğruluk oranı sağlamıştır. Sonuç olarak önerilen hibrit yöntem gri kurt optimizasyon ve salp sürü algoritmalarından daha yüksek başarı sağlamıştır.

Özet (Çeviri)

Throughout human history, people have been communicating with each other through speech. People communicate by speaking and can also express their feelings to the person they are talking to. Speech consists of signals that the air we breathe passes through certain organs in the human body and emits through the vocal cords. We can guess the emotional state of the person we are talking to by the tone we receive from these signals. Today, when human-computer interaction is used intensively, studies on emotion recognition from voice are also frequently encountered. In the development of today's technology, we often see examples inspired by living things. Especially in the tools and equipment used, systems are developed by imitating living things found in nature both in terms of design and operating principle. In the field of artificial intelligence, the study of imitating living things appears as metaheuristic algorithms. These algorithms are algorithms developed by being inspired by the food search and finding behaviors of living things. In our study, a hybrid metaheuristic algorithm (HGWSSO) design was carried out inspired by the GWO and SS algorithms used in the literature. The HGWSSO algorithm was used for emotional classification of speech in our study. For this purpose, EmoDB, SAVEE, eNTERFACE and EMOVA data sets, which are frequently used in the literature, were used. First, the audio files in this data set went through the data preprocessing stage and then the feature extraction process was performed with OpenSmile software. With the obtained features, feature selection process was performed with both GWO and SS algorithms based on our algorithm and HGWSSO algorithm. Then, with the obtained features, the accuracy of HGWSSO algorithm was tested using SVM and KNN classifiers. In the obtained results, it was observed that SVM classifier gave better results compared to KNN classifier. The highest accuracy rate with KNN classifier was obtained with HGWSSO algorithm with 586 features as 91.92% in EmoDB data set. In the results obtained with the SVM classifier, the HGWSSO algorithm achieved better results than other datasets with 137 features and 98.14% accuracy rate in the EmoDB dataset. As a result, it was seen that the HGWSSO algorithm we developed gave better results especially with the SVM classifier compared to the GWO and SS algorithms we took as basis.

Benzer Tezler

  1. Classification of emotions in vocal responses

    Sözel tepkilerdeki duyguların sınıflandırılması

    ECE ÇAĞLAYAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilim ve TeknolojiOrta Doğu Teknik Üniversitesi

    Sağlık Bilişimi Ana Bilim Dalı

    DOÇ. DR. TOLGA ESAT ÖZKURT

  2. Family conversations about emotional shared past events: The triadic examination of mothers', fathers' and children's memory characteristics

    Ortak duygusal geçmiş olaylarla ilgili aile konuşmaları: Annelerin, babaların ve çocukların anı özelliklerinin üçlü olarak incelenmesi

    ELİF BÜRÜMLÜ

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    PsikolojiOrta Doğu Teknik Üniversitesi

    Psikoloji Ana Bilim Dalı

    YRD. DOÇ. DR. BAŞAK ŞAHİN ACAR

  3. Ses analizinde akustik parametrelerin tespiti ve anksiyete bozukluğunun akustik parametrelerle ilişkisinin araştırılması

    The detection of acoustic parameters in the voice analysis and the investigation of relationship with acoustic parameters of anxiety disorders

    TURGUT ÖZSEVEN

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MUHARREM DÜĞENCİ

  4. Toplu dil öğrenme yöntemi ve Türkiye'de uygulanabilirliği

    Başlık çevirisi yok

    AYBARS ERÖZDEN

    Yüksek Lisans

    Türkçe

    Türkçe

    1986

    Eğitim ve Öğretimİstanbul Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DR. ÖMER DEMİRCAN

  5. The agency and recognition of animals in the first world war and its aftermath in Michael Morpurgo's War Horse and Megan Rix's a Soldier's friend

    Michael Morpurgo'nun War Horse ve Megan Rix'in a Soldier's Friend romanlarında hayvanların birinci dünya savaşı sırasında ve sonrasında eyleyiciliği ve hayvanlar hakkında farkındalık

    ONUR ÇİFFİLİZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    İngiliz Dili ve EdebiyatıHacettepe Üniversitesi

    İngiliz Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. AYTÜL ÖZÜM