Konuşmaların duygusal sınıflandırılmasında öznitelik seçimi için metasezgisel tabanlı hibrit bir yaklaşım
A metaheuristic-based hybrid approach for feature selection in emotional classification from speech
- Tez No: 941650
- Danışmanlar: PROF. DR. TURGUT ÖZSEVEN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Tokat Gaziosmanpaşa Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 116
Özet
İnsanlık tarihi boyunca kişilerin birbirleri ile iletişim kurdukları araç konuşma olmuştur. İnsanlar konuşarak iletişim kurdukları gibi aynı zamanda karşısındaki kişilere duygularını da ifade edebilmektedir. Konuşma soluduğumuz havanın insan vücudundaki birtakım organlardan geçerek ses telleri vasıtasıyla çıkardığı sinyallerden oluşmaktadır. Çıkan bu sinyallerden aldığımız tını ile karşımızdaki kişinin duygu durumu hakkında tahminde bulunabiliriz. İnsan-Bilgisayar etkileşiminin yoğun olarak kullanıldığı günümüzde sesten duygu tanıma çalışmalarına da sıklıkla rastlanılmaktadır. Günümüz teknolojisinin gelişmesinde canlılardan ilham alınan örnekleri sıklıkla görmekteyiz. Özellikle kullanılan araç ve gereçlerde, taşıtlarda hem tasarımsal olarak hem de çalışma prensibi açısından doğada bulunan canlılar taklit edilerek sistemler geliştirilmektedir. Yapay zekâ alanında ise canlıları taklit etme çalışması metasezgisel algoritmalar olarak karşımıza çıkmaktadır. Bu algoritmalar canlıların besin arama ve bulma davranışlarından esinlenerek geliştirilen algoritmalardır. Çalışmamızda literatürde kullanılan gri kurt optimizasyon ve salp sürü algoritmalarından esinlenerek hibrit bir metasezgisel yöntem önerilmiştir. Önerilen hibrit yöntem konuşmaların duygusal sınıflandırılması için kullanılmıştır. Bu amaç doğrultusunda literatürde sıklıkla kullanılan EmoDB, SAVEE, eNTERFACE ve EMOVA veri setleri kullanılarak önerilen yöntemin performansı analiz edilmiştir. Öncelikle bu veri setinde bulunan ses dosyaları veri ön işleme aşamasından geçmiş ve sonra OpenSmile yazılım ile öznitelik çıkarma işlemi gerçekleştirilmiştir. Elde edilen öznitelikler üzerinden gri kurt optimizasyon, sarp sürü algoritmaları ve önerdiğimiz yöntem ile öznitelik seçim işlemi yapılmıştır. Daha sonra elde edilen öznitelikler SVM ve KNN sınıflandırıcılar kullanılarak duygu sınıflandırması yapılmıştır. Elde edilen sonuçlarda SVM sınıflandırıcının KNN sınıflandırıcıya kıyasla daha iyi sonuçlar verdiği gözlemlenmiştir. KNN sınıflandırıcı ve önerdiğimiz yöntem ile en yüksek doğruluk oranı EmoDB veri setinde %91,92 olarak 586 öznitelik ile elde edilmiştir. Aynı veriseti üzerinde SVM sınıflandırıcı ve önerdiğimiz yöntem 137 öznitelik sayısı ile %98,14 doğruluk oranı sağlamıştır. Sonuç olarak önerilen hibrit yöntem gri kurt optimizasyon ve salp sürü algoritmalarından daha yüksek başarı sağlamıştır.
Özet (Çeviri)
Throughout human history, people have been communicating with each other through speech. People communicate by speaking and can also express their feelings to the person they are talking to. Speech consists of signals that the air we breathe passes through certain organs in the human body and emits through the vocal cords. We can guess the emotional state of the person we are talking to by the tone we receive from these signals. Today, when human-computer interaction is used intensively, studies on emotion recognition from voice are also frequently encountered. In the development of today's technology, we often see examples inspired by living things. Especially in the tools and equipment used, systems are developed by imitating living things found in nature both in terms of design and operating principle. In the field of artificial intelligence, the study of imitating living things appears as metaheuristic algorithms. These algorithms are algorithms developed by being inspired by the food search and finding behaviors of living things. In our study, a hybrid metaheuristic algorithm (HGWSSO) design was carried out inspired by the GWO and SS algorithms used in the literature. The HGWSSO algorithm was used for emotional classification of speech in our study. For this purpose, EmoDB, SAVEE, eNTERFACE and EMOVA data sets, which are frequently used in the literature, were used. First, the audio files in this data set went through the data preprocessing stage and then the feature extraction process was performed with OpenSmile software. With the obtained features, feature selection process was performed with both GWO and SS algorithms based on our algorithm and HGWSSO algorithm. Then, with the obtained features, the accuracy of HGWSSO algorithm was tested using SVM and KNN classifiers. In the obtained results, it was observed that SVM classifier gave better results compared to KNN classifier. The highest accuracy rate with KNN classifier was obtained with HGWSSO algorithm with 586 features as 91.92% in EmoDB data set. In the results obtained with the SVM classifier, the HGWSSO algorithm achieved better results than other datasets with 137 features and 98.14% accuracy rate in the EmoDB dataset. As a result, it was seen that the HGWSSO algorithm we developed gave better results especially with the SVM classifier compared to the GWO and SS algorithms we took as basis.
Benzer Tezler
- Classification of emotions in vocal responses
Sözel tepkilerdeki duyguların sınıflandırılması
ECE ÇAĞLAYAN
Yüksek Lisans
İngilizce
2017
Bilim ve TeknolojiOrta Doğu Teknik ÜniversitesiSağlık Bilişimi Ana Bilim Dalı
DOÇ. DR. TOLGA ESAT ÖZKURT
- Family conversations about emotional shared past events: The triadic examination of mothers', fathers' and children's memory characteristics
Ortak duygusal geçmiş olaylarla ilgili aile konuşmaları: Annelerin, babaların ve çocukların anı özelliklerinin üçlü olarak incelenmesi
ELİF BÜRÜMLÜ
Yüksek Lisans
İngilizce
2017
PsikolojiOrta Doğu Teknik ÜniversitesiPsikoloji Ana Bilim Dalı
YRD. DOÇ. DR. BAŞAK ŞAHİN ACAR
- Ses analizinde akustik parametrelerin tespiti ve anksiyete bozukluğunun akustik parametrelerle ilişkisinin araştırılması
The detection of acoustic parameters in the voice analysis and the investigation of relationship with acoustic parameters of anxiety disorders
TURGUT ÖZSEVEN
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MUHARREM DÜĞENCİ
- Toplu dil öğrenme yöntemi ve Türkiye'de uygulanabilirliği
Başlık çevirisi yok
AYBARS ERÖZDEN
Yüksek Lisans
Türkçe
1986
Eğitim ve Öğretimİstanbul ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
DR. ÖMER DEMİRCAN
- The agency and recognition of animals in the first world war and its aftermath in Michael Morpurgo's War Horse and Megan Rix's a Soldier's friend
Michael Morpurgo'nun War Horse ve Megan Rix'in a Soldier's Friend romanlarında hayvanların birinci dünya savaşı sırasında ve sonrasında eyleyiciliği ve hayvanlar hakkında farkındalık
ONUR ÇİFFİLİZ
Yüksek Lisans
İngilizce
2019
İngiliz Dili ve EdebiyatıHacettepe Üniversitesiİngiliz Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. AYTÜL ÖZÜM