Geri Dön

Comparison of feature selection and extraction methods and active learning in voice based emotion recognition systems

Ses duygu tanıma sistemlerinde aktif öğrenme ve öznitelik seçme ve çıkarma yöntemlerinin karşılaştırılması

  1. Tez No: 511691
  2. Yazar: TOLGA ATALAY
  3. Danışmanlar: DR. ÖĞR. ÜYESİ YUSUF YASLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 75

Özet

Sosyal varlık olan insanın davranışlarının temelinde duygular yer almaktadır. Bu duygulara göre iletişim şekillenmektedir. Duyguların en yaygın yansıtılış biçimi ise sestir. Son yıllarda teknolojideki değişimler ile birlikte ses üzerinden duygu çıkarımı oldukça popüler bir konu haline gelmiştir. Temel anlamda sesten duygu çıkarımı ses işaretlerinden çeşitli öznitelikler çıkarılarak denetimli öğrenme yöntemleri ile eğitilen sınıflandırıcılar kullanılarak gerçekleştirilmektedir. Sınıflandırıcıların başarıları veri ön işleme aşamasında yapılan işlemler, öznitelik ve sınıflandırıcı seçimleri, sınıflandırıcıların eğitilme parametrelerine göre değişmektedir. Yüksek başarımlı sınıflandırıcılar elde etmek diğer makine öğrenme uygulamalarında olduğu gibi sesten duygu çıkarımında da temel amaçlardandır. Bu sebeple, sınıflandırma aşamaları üzerinde birçok çalışma gerçekleştirilmektedir. Veri ön işleme çalışmaları duygu çıkarımında, bütün makine öğrenmesi süreçlerinde olduğu gibi en önemli ve dikkat edilmesi gereken kısımlardan biridir. Çünkü veri üzerinde yaptığımız her bir değişim sonuca direk olarak etki etmektedir. Öznitelik seçimi ve çıkarımı da bu veri ön işleme adımlarında başarımı etkileyen önemli işlemlerdir. Öznitelik seçim yöntemleri var olan öznitelikler içerisinden başarımı yüksek olacak öznitelikleri bulmayı amaçlamaktadır. Buna karşın öznitelik çıkarma yöntemleri var olan özniteliklerden başarımı yüksek olacak, orijinal özniteliklerden farklı bir öznitelik uzayı elde etmektedir. Teknolojinin gelişmesi ile birlikte veri toplamak ve bu veriye erişmek çok kolay hale gelmiştir. Bu verilerin makine öğrenmesi çalışmalarında kullanılabilmesi için etiketlenmiş olması gerekmektedir. Bu etiketleme işlemi uzmanlar tarafından gerçekleştirilmektedir. Bu işlem zaman ve maddi açıdan çoğunlukla maliyetli bir işlemdir. Bu yüzden birçok problemde az sayıda etiketli verinin yanında çok sayıda etiketsiz veri bulunmaktadır. Elde edilen etiketsiz verilerin makine öğreniminde başarıyı arttırıcı şekilde kullanılabilmesi için aktif öğrenme gibi yöntemler sunulmaktadır. Aktif öğrenme temelde, etiketsiz verilerden belirli şartlara göre seçilen verilerin yinelemeli olarak öğrenme kümesine dahil edilmesi ve modelin güncellenmesi ile gerçekleştirilir. Bu akıştaki en kritik nokta en bilgi verici olan örneklerin seçilmesi işlemidir. Bu işlem için literatürde çeşitli yöntemler sunulmuştur. Bunlardan en yaygın kullanılanlardan birisi, sınıflandırıcının en emin olamadığı örneklerin seçimidir. Bu yöntem belirsizlik örnekleme olarak bilinir. Düzensizlik hesabına göre yapılan belirsizlik örnekleme tekniği en sık kullanılandır. Entropi hesaplanarak verinin düzensizliği belirlenir. Veri dağılımında ne kadar düzensizlik var ise o kadar çok bilgi barındırmaktadır. Temel aktif öğrenme akışında ilk aşamada öğrenilen model etiketsiz veriler üzerinde çalıştırılır. Modelin en başarısız olduğu örnekler belirli bir sınır değerine göre belirlenir. Bu sınırın üzerindeki veriler örnek çeşitliliği açısından en çok bilgi taşıyanlardır. Bu örnekler uzmanlara sorularak etiketlenir. Son aşamada ise yeni etiketlenen örnekler ile model güncellenir. Bu sayede modelin başarısının test veri kümesi üzerinde artması beklenir. Bu tez çalışması kapsamında öncelikli olarak öznitelik seçme ve çıkarma yöntemleri denetimli öğrenme kullanılarak incelenmiştir. Ses sinyallerinden duygu çıkarımında temel olarak sesin akustik öznitelikleri kullanılmaktadır. Bu akustik öznitelikler taşıdıkları bilgi bakımından alt tiplere ayrılmaktadır ve bir ses sinyalinden çok fazla sayıda akustik öznitelik çıkarılabilmektedir. Bu özniteliklerin sınıflandırıcı için en anlamlılarının kullanılması hem maliyet hem de sınıflandırıcı başarısı açısından kritik öneme sahiptir. Bu çalışma kapsamında Otokodlayıcı, Relief-F ve Chi-Square öznitelik seçme ve çıkarma yöntemleri kullanılarak öznitelik eleme işlemleri gerçekleştirilmiştir. Akustik öznitelikler alt tiplere ayrılarak farklı öznitelik kümeleri oluşturulmuştur. Çıkan sonuçlar karşılaştırmalı olarak analiz edilerek, en başarılı öznitelik tipi ve en etkili seçim yöntemi tespit edilmiştir. Deneysel sonuçlar University of Michigan Song and Speech Emotion Dataset (UMSSED) ve Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) veri kümeleri kullanılarak elde edilmiştir. OpenSmile uygulaması ile bu veri kümelerinden toplamda 4 farklı tipte öznitelikler üretilmiştir. Bu öznitelik tipleri Enerji ve Ses Şiddeti, Ses Yükselmesi ve Kalitesi, Spektral ve Mel Frekans Kepstral Katsayısı (MFCC)'dır. Bu öznitelik tiplerinin farklı sayıda kombinasyonlarının yer aldığı 2 farklı tip daha üretilmiş ve toplamda 6 tipte öznitelik kümesi elde edilmiştir. Yapılan çalışmalar sonucunda MFCC tipindeki özniteliklerin ve Relief-F yöntemi ile elenen özniteliklerin en başarılı sonuçlar verdiği görülmüştür. Relief-F yöntemi, öznitelik ve sınıf bilgisi arasındaki yakınlık değerlerini baz alır. Öznitelikler ve seçilen özniteliklerin komşularını da bu yakınlık hesabında kullanmaktadır. Bu özellikleri Relief-F yönteminin daha başarılı olmasını sağlamıştır. Chi-Square yöntemi de Relief-F'e yakın sonuçlar vermiştir. Bu yöntem de öznitelik ve sınıf bilgisi arasındaki ilişkiyi bağımsızlık yönünden değerlendirmektedir. Öznitelik ve sınıf bilgisi arasındaki ilişkiye dayalı olan yöntemlerin daha başarılı sonuçlar verdiği görülmüştür. Tez çalışmasının ikinci aşamasında ise, ilk aşamada elde edilen sonuçlar da kullanılarak aktif öğrenme yöntemlerinin duygu tanıma problemi üzerindeki başarımı incelenmiştir. Bu aşamada yapılan deneyler veri kümelerinin kullanımına göre iki alt deneye ayrılmıştır. İlk olarak RAVDESS veri kümesi öğrenme kümesi olarak kullanılmıştır. UMSSED veri kümesi ise test ve etiketsiz veri kümesi olmak üzere ikiye ayrılmıştır. Bu deneydeki amaç, az sayıda örnek barındıran veri kümelerinin sınıflandırılma problemlerine aktif öğrenme katkısı ile çözüm aramaktır. Daha çok örneğe sahip veri kümelerinden öğrenilen model aktif öğrenme tekniği ile çok daha iyi sonuçlar vermektedir. Diğer bir deneyde ise UMSSED veri kümesi öğrenme veri kümesi, RAVDESS ise test ve etiketsiz veri kümesi olarak ikiye ayrılmıştır. Bu sayede, çok miktardaki etiketsiz verilerin sesten duygu çıkarımı işlemlerindeki verimli kullanımı deneysel olarak gösterilmiştir. Her iki deneyde de temel aktif öğrenme aşamaları gerçekleştirilmiştir. Öğrenme veri kümesi üzerinde eğitilen model, etiketsiz veri kümesi üzerinde çalıştırılmıştır. En kararsız örnekler seçilerek uzmanlardan etiketleri öğrenilmiş ve model güncellenmiştir. Bu işlemler tekrarlı olarak ve her yinelemede belirli sayıda örneğin öğrenme kümesine eklenmesi şeklinde gerçekleştirilmiştir. Her bir yinelemede modelin başarısındaki değişim gözlemlenmiş ve genel olarak artış olduğu sonucu çıkarılmıştır. Belirsizliğe sebep olan örneklerin daha akıllıca seçimi ile bu başarımdaki değişim farklılaştırılabilir. Sonuç olarak, ses sistemlerinden duygu çıkarımında kullanılan özniteliklerin seçiminin etkisi araştırılmış ve elde edilen sonuçlar ile aktif öğrenme gerçekleştirilmiştir. Bu çalışma ile temel makine öğrenme aşamalarının birkaçı üzerinde çalışma yapılmış olup başarılı sonuçları elde edilmiştir. Diğer aşamalara odaklanılması konusunda yardımcı olacak niteliktedir.

Özet (Çeviri)

Since humans are social beings, emotions stand at the center of their behaviors. We interact and exchange emotions with each other, and so our communication is constructed on the basis of those emotions. One of the most common ways of emotion sharing tool is the voice. Recently, thanks to the improvement in new technologies, voice-based emotion recognition becomes very popular. Basically; the extraction of emotions from audio signals is a supervised machine learning application. Classifiers are trained using extracted features from audio signals. The performance of classifiers is dependent on data preprocessing, selection of features and classifiers and the parameters of classifiers. Obtaining high performed classifiers is the main purpose in emotion recognition systems as in the all machine learning applications. That is why many researches are conducting on phases of classifiers. Data preprocessing phase is one of the most important parts of emotion recognition like all other machine learning processes. Feature extraction and selection methods are one of the important operations that affect the performance of classification in this phase. Feature selection method aims to find the features that provide more successful result among the other features, whereas feature extraction method aims to generate a new feature space or representation of features that outputs higher performance. Nowadays, collecting data and accessing this data has become very easy. In order to use these data in machine learning applications, they need to be categorized by labeling. This labeling operation is conducted by experts or oracle. But labeling of these collected data is very hard and expensive. In many problems, there are a huge amount of unlabeled data and a small amount of labeled training data. Common methods such as active learning are proposed in order to enable the obtained unlabeled data to be used as an enhancement in machine learning efficiently. Active learning is basically processed by adding samples which are selected from unlabeled data according to specified conditions, to training data iteratively and updating model using this new training data. Selecting the most informative examples is a crucial step in active learning. In literature, several methods have been proposed for this process. One of the commonly used methods is selecting the samples that classifier is least certain about it. This method is called uncertainty sampling. The uncertainty method is based on the irregularity of samples. This irregularity is computed as entropy. The more entropy sample has, the more information it contains. An active learning flow is defined as following steps; At the first step, trained model is tested on unlabeled data. The samples where the model least certain of them are determined. The selection of samples can be decided in two ways. First one is a specified threshold value of uncertainty score. The samples which are lower than this limit value are selected as uncertain samples. The second way is that samples are ordered according to uncertainty score and a specific number of samples are selected. The selected samples are the most informative ones in terms of sample diversity. These samples are labeled by asking experts or oracle. At the last stage, the trained model is updated with new labeled samples. The new model is tested on test data and success of the model is expected to increase. By doing so, the cost of labeling is decreased sharply. In this thesis, feature selection and extraction methods are first analyzed using supervised learning methods. In voice-based emotion recognition systems, acoustic features of audio signals are commonly used. These acoustic features can be subcategorized according to information they carry. Several amounts of features and different types of them can be extracted from a single signal. Features that output high performance on classification are aimed to be selected and used in the scope of this experiment. This selection is critically important in terms of accuracy and cost saving of classification. Autoencoder, Relief-F and Chi-Square are used as feature selection and extraction methods. Results of each selection methods and each acoustic feature types are analyzed in comparison and best feature selection method and feature type are proposed. For the experiments; University of Michigan Song and Speech Emotion Dataset (UMSSED) and Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) data sets were used. With the OpenSmile tool, a total of four different types of features were generated from these data sets. These feature types are; Energy and loudness, Harmonic product spectrum (HPS) pitch and voice quality, spectral and Mel frequency cepstral coefficient (MFCC). Two different features have been produced by using the different combinations of these features and in the end, total of six types of features have been obtained. The results of the study indicate that the MFCC type features and the features selected by using the Relief-F method have the most successful results. Relief-F method is based on the distance between feature and class label. The neighbors of the pointed feature are also taken into account of calculation with the class label. These distance calculations are the reason that Relief-F outputs higher performance. Chi-Square outputs close performance result with Relief-F. This method uses a statistical calculation of independence between feature and class label. Both depend on the individual relationship between a feature and class label. This common feature of methods is the reason behind this high performance of classification. At the second part of the thesis, active learning was applied with the information obtained in the first part and the accuracy results of applications on emotion recognition systems are analyzed. The experiment of this part is separated into two sub-experiments according to the usage of data sets. At first experiment, RAVDESS data set is used as training set, UMSSED data set is divided into test and unlabeled data sets. The main purpose of this experiment is to find a solution to the classification of data which contains a small amount of samples. The model which is trained by a huge amount of training data outputs higher performance using active learning. At the other experiment, UMMSED data set is used as training set, RAVDESS is used test and unlabeled data sets. This experiment analyzes the smart selection and efficient usage of samples from a huge amount of unlabeled data in emotion recognition systems. In these experiments, MFCC, Statistical and Is13ComParE types of features are used. Cross validation method is used for evaluation. In both experiments, the trained model is tested on unlabeled data set. The most uncertain samples were selected. Afterward, the labels were learned from experts and the model was updated with this information. These operations were performed iteratively, and at each iteration, a certain number of samples were added to the training set. In each iteration, the change in the performance of the model was observed and the results showed that the performance of classification was increasing. As a future work, in order to improve the performance, other instance selection algorithms can be used in active learning. To sum up, within these experiments; the effect of the feature selection and extraction methods used in the emotion recognition from audio signals is analyzed, and also active learning is applied with the obtained results in the first phase. This study emphasizes the importance of data preprocessing phase of classification and concludes successful results with a remarkable recommends that provide an insight to focus on the other phases of emotion recognition.

Benzer Tezler

  1. Gömülü sistemlerde sesli komut tanıma

    Voice command recognation in embedded systems

    CAN ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA DOĞAN

  2. Borsa istanbul (BIST) hisse fiyat değişim yönünün ilişkisel borsa ağı kullanılarak tahmin edilmesi

    Forecasting stock price change direction using relational stock market network on borsa Istanbul (BIST)

    BİRCAN ERGÜR

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEHRA ÇATALTEPE

  3. Derin öğrenme yöntemi ile optik uydu görüntülerinden gemi tespiti

    Ship detection by optical satellite images with deep learning method

    OSMAN DUMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. MESUT KARTAL

  4. Jeotermal enerjinin konut alanında kullanımı: çevresel ve sosyo ekonomik açıdan bir değerlendirme

    Use of geothermal energy at the house heating: an environmental and socio economic evaluation

    İLKAY KARABATAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Enerjiİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    DOÇ. DR. EDA BEYAZIT

  5. Çatalca bölgesi savunma yapıları ve koruma sorunları

    Defense structures and conservation problems in Çatalca region

    MELİK EFEOĞLU

    Doktora

    Türkçe

    Türkçe

    2021

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. KEMAL KUTGÜN EYÜPGİLLER