Geri Dön

Konuşma seslerinden duyguları tanımak için yerel ikili ve üçlü örüntülere dayalı yeni bir modelin geliştirilmesi

Development of a new model based on local binary and ternary patterns to recognize emotions from speech sounds

  1. Tez No: 671049
  2. Yazar: YEŞİM ÜLGEN SÖNMEZ
  3. Danışmanlar: PROF. DR. ASAF VAROL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 120

Özet

Konuşma seslerinden duygu tanıma, insan-bilgisayar etkileşiminin ve işbirliğinin en üst düzeyde olması için önemli bir disiplindir. Farklı frekans ve karakteristikler içeren konuşma sinyalinin analizi zordur, bu nedenle konuşma verilerinden duyguları tanımak makine öğrenmesi için karmaşık bir problemdir. Ses özniteliklerinin çıkarımında ve sınıflandırmada farklı yöntemler geliştirilse de başarı oranları, dillere, duygulara ve veri tabanlarına göre değişmektedir. Bu tez çalışmasında, farklı boyutlardaki veri setlerinde uygulanabilecek, düşük hesaplama karmaşıklığına sahip, maliyeti düşük ve sınıflandırma performansını arttıran yeni bir model sunulmuştur. Öznitelik çıkarım tekniğine katkıda bulunacak yerel özniteliklerden genel optimum özniteliklere ulaşan yeni bir strateji elde edilmiştir. Önerilen model üç ana aşamadan oluşmaktadır. Bu aşamalar, öznitelik çıkarma, öznitelik seçme ve sınıflandırmadır. Ham ses verilerine dokuz seviyeli 1B-ADD uygulanarak alçak-geçirgen filtre katsayıları elde edilmiştir. Daha sonra her bir alçak geçirgen filtreye 1B-YİÖ ve 1B-YÜÖ uygulanarak öznitelik çıkarma ve ardından öznitelik birleştirme gerçekleştirilmiştir. 1B-YİÖ ve 1B-YÜÖ kullanılarak yerel ve dokusal öznitelikler elde edilmiştir. Sıralı bir yapı oluşturan dokuz seviyeli 1B-ADD yöntemi ile konuşma sinyallerindeki gürültüler giderilmiş, ses sinyal boyutu indirgenmiş ve frekans bölgesinde yeni öznitelikler çıkarılmıştır. Öznitelik çıkarım aşamasında 1B-YİÖ, 1B-YÜÖ ve 1B-ADD birlikte kullanılarak çok seviyeli yeni bir elle öznitelik çıkarım süreci sunulmuştur. Uzaklık tabanlı KBA ile sınıflandırıcıya giriş olacak en etkili öznitelikler seçilmiş ve diğer öznitelikler elenmiştir. Sınıflandırma aşamasında, güçlü bir sınıflandırıcı olan DVM kullanılmıştır. Önerilen model konuşmacıdan ve metinden bağımsız olarak RAVDESS, EMODB, SAVEE ve EMOVO gibi farklı karşılaştırma veri tabanlarında test edilmiştir. Literatüre, konuşma seslerinden duygu tanıma alanında, sınıflandırma ortalama doğruluk değerini arttıran düşük hesaplama karmaşıklığına sahip yeni bir model kazandırılmıştır.

Özet (Çeviri)

Emotion recognition from speech sounds is an essential discipline which serves to keep the interaction and cooperation between human and computer. It is difficult to analyze the speech signal containing various frequencies and characteristics; thus, speech data-based emotion recognition is a complex problem for machine learning. Even though different methods have been developed for sound/voice/speech feature extraction and classification, success rates vary depending on the languages, emotions, and databases. In this thesis, a new process is proposed that can be applied to databases with different sizes, has low calculation complexity, is low cost, and increases the classification performance. Specifically, a new strategy that makes a contribution to feature extraction technique via reaching the global features from local features is developed. The proposed model consists of three main stages. These stages are feature extraction, feature selection, and classification. Low pass filter coefficients are obtained by applying nine-level One Dimensional Discrete Wavelet Transform (1D-DWT) to raw audio data. Afterward, feature extraction and feature combining are achieved by applying One Dimensional Local Binary Pattern (1D-LBP) and One Dimensional Local Ternary Pattern (1D-LTP) to each of the low pass filters. Local and textural features are obtained by using 1D-LBP and 1D-LTP. Noises in the speech signals are eliminated, the speech signal size is reduced, and new features are extracted through a sequential structure creating nine-level 1D-DWT. In the feature extraction phase, 1D-LBP, 1D-LTP, and 1D-DWT are used together and a new multi-level manual feature extraction process is presented. The most effective features that will be used as inputs to the classifier are selected with distance-based Neighborhood Component Analysis (NCA) while other features are eliminated. Support Vector Machines (SVM), a powerful classifier, is used during the classification phase. The proposed model is tested, without depending on the textual and speaker, in different databases of RAVDESS, EMODB, SAVEE, and EMOVO. Within this framework, in the field of emotion recognition from speech sounds, a new model that increased the classification rating is provided to the literature.

Benzer Tezler

  1. Adli amaçlı ses analizinde otomatik konuşmacı tanıma yazılımı kullanılarak kardeşler arası ses benzerliklerinin ve farklılıklarının belirlenmesi

    Determining the voice similarities and differences between siblings (sisters and brothers) using automatic speaker recognition software in forensic voice analysis

    OĞUZ KASIM KARA

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Adli Tıpİstanbul Üniversitesi

    Fen Bilimleri Ana Bilim Dalı

    PROF. DR. H. BÜLENT ÜNER

  2. Design and development of audio-emotional serious games for audiology therapy

    Odyoloji terapisi için işitsel-duygusal ciddi oyunlar tasarlama ve geliştirme

    EGE VERİM

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  3. Okuma-yazma öğretimi metodları ve çözümleme metodunun Türkçe öğretimine uygulanması

    Başlık çevirisi yok

    NUSRET ALPEREN

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    Eğitim ve ÖğretimGazi Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    YRD. DOÇ. DR. ŞUAYP KARAKUŞ

  4. Afişlerde ses ve diyalog kullanımı

    Use of voice and dialogue in posters

    SAİT AVEDER

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Güzel SanatlarAltınbaş Üniversitesi

    DR. ÖĞR. ÜYESİ LÜTFİYE BOZDAĞ

  5. Yeni Cami'nin akustik açıdan performans değerlendirmesi

    Evaluation of the acoustical performance of the New Mosque

    EVREN YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. SEVTAP YILMAZ DEMİRKALE