Konuşma seslerinden duyguları tanımak için yerel ikili ve üçlü örüntülere dayalı yeni bir modelin geliştirilmesi

Development of a new model based on local binary and ternary patterns to recognize emotions from speech sounds

PDF İndir

Tez No: 671049
Yazar: YEŞİM ÜLGEN SÖNMEZ
Danışmanlar: PROF. DR. ASAF VAROL
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Fırat Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 120

Özet

Konuşma seslerinden duygu tanıma, insan-bilgisayar etkileşiminin ve işbirliğinin en üst düzeyde olması için önemli bir disiplindir. Farklı frekans ve karakteristikler içeren konuşma sinyalinin analizi zordur, bu nedenle konuşma verilerinden duyguları tanımak makine öğrenmesi için karmaşık bir problemdir. Ses özniteliklerinin çıkarımında ve sınıflandırmada farklı yöntemler geliştirilse de başarı oranları, dillere, duygulara ve veri tabanlarına göre değişmektedir. Bu tez çalışmasında, farklı boyutlardaki veri setlerinde uygulanabilecek, düşük hesaplama karmaşıklığına sahip, maliyeti düşük ve sınıflandırma performansını arttıran yeni bir model sunulmuştur. Öznitelik çıkarım tekniğine katkıda bulunacak yerel özniteliklerden genel optimum özniteliklere ulaşan yeni bir strateji elde edilmiştir. Önerilen model üç ana aşamadan oluşmaktadır. Bu aşamalar, öznitelik çıkarma, öznitelik seçme ve sınıflandırmadır. Ham ses verilerine dokuz seviyeli 1B-ADD uygulanarak alçak-geçirgen filtre katsayıları elde edilmiştir. Daha sonra her bir alçak geçirgen filtreye 1B-YİÖ ve 1B-YÜÖ uygulanarak öznitelik çıkarma ve ardından öznitelik birleştirme gerçekleştirilmiştir. 1B-YİÖ ve 1B-YÜÖ kullanılarak yerel ve dokusal öznitelikler elde edilmiştir. Sıralı bir yapı oluşturan dokuz seviyeli 1B-ADD yöntemi ile konuşma sinyallerindeki gürültüler giderilmiş, ses sinyal boyutu indirgenmiş ve frekans bölgesinde yeni öznitelikler çıkarılmıştır. Öznitelik çıkarım aşamasında 1B-YİÖ, 1B-YÜÖ ve 1B-ADD birlikte kullanılarak çok seviyeli yeni bir elle öznitelik çıkarım süreci sunulmuştur. Uzaklık tabanlı KBA ile sınıflandırıcıya giriş olacak en etkili öznitelikler seçilmiş ve diğer öznitelikler elenmiştir. Sınıflandırma aşamasında, güçlü bir sınıflandırıcı olan DVM kullanılmıştır. Önerilen model konuşmacıdan ve metinden bağımsız olarak RAVDESS, EMODB, SAVEE ve EMOVO gibi farklı karşılaştırma veri tabanlarında test edilmiştir. Literatüre, konuşma seslerinden duygu tanıma alanında, sınıflandırma ortalama doğruluk değerini arttıran düşük hesaplama karmaşıklığına sahip yeni bir model kazandırılmıştır.

Özet (Çeviri)

Emotion recognition from speech sounds is an essential discipline which serves to keep the interaction and cooperation between human and computer. It is difficult to analyze the speech signal containing various frequencies and characteristics; thus, speech data-based emotion recognition is a complex problem for machine learning. Even though different methods have been developed for sound/voice/speech feature extraction and classification, success rates vary depending on the languages, emotions, and databases. In this thesis, a new process is proposed that can be applied to databases with different sizes, has low calculation complexity, is low cost, and increases the classification performance. Specifically, a new strategy that makes a contribution to feature extraction technique via reaching the global features from local features is developed. The proposed model consists of three main stages. These stages are feature extraction, feature selection, and classification. Low pass filter coefficients are obtained by applying nine-level One Dimensional Discrete Wavelet Transform (1D-DWT) to raw audio data. Afterward, feature extraction and feature combining are achieved by applying One Dimensional Local Binary Pattern (1D-LBP) and One Dimensional Local Ternary Pattern (1D-LTP) to each of the low pass filters. Local and textural features are obtained by using 1D-LBP and 1D-LTP. Noises in the speech signals are eliminated, the speech signal size is reduced, and new features are extracted through a sequential structure creating nine-level 1D-DWT. In the feature extraction phase, 1D-LBP, 1D-LTP, and 1D-DWT are used together and a new multi-level manual feature extraction process is presented. The most effective features that will be used as inputs to the classifier are selected with distance-based Neighborhood Component Analysis (NCA) while other features are eliminated. Support Vector Machines (SVM), a powerful classifier, is used during the classification phase. The proposed model is tested, without depending on the textual and speaker, in different databases of RAVDESS, EMODB, SAVEE, and EMOVO. Within this framework, in the field of emotion recognition from speech sounds, a new model that increased the classification rating is provided to the literature.

Benzer Tezler

Tez No
308055
Adli amaçlı ses analizinde otomatik konuşmacı tanıma yazılımı kullanılarak kardeşler arası ses benzerliklerinin ve farklılıklarının belirlenmesi
Determining the voice similarities and differences between siblings (sisters and brothers) using automatic speaker recognition software in forensic voice analysis
OĞUZ KASIM KARA
Yüksek Lisans
Türkçe
2011
Adli Tıp İstanbul Üniversitesi
Fen Bilimleri Ana Bilim Dalı
PROF. DR. H. BÜLENT ÜNER
Tez No
807301
Design and development of audio-emotional serious games for audiology therapy
Odyoloji terapisi için işitsel-duygusal ciddi oyunlar tasarlama ve geliştirme
EGE VERİM
Yüksek Lisans
İngilizce
2023
Bilim ve Teknoloji İstanbul Teknik Üniversitesi
Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
Tez No
32491
Okuma-yazma öğretimi metodları ve çözümleme metodunun Türkçe öğretimine uygulanması
Başlık çevirisi yok
NUSRET ALPEREN
Yüksek Lisans
Türkçe
1994
Eğitim ve Öğretim Gazi Üniversitesi
Türk Dili ve Edebiyatı Ana Bilim Dalı
YRD. DOÇ. DR. ŞUAYP KARAKUŞ
Tez No
590695
Afişlerde ses ve diyalog kullanımı
Use of voice and dialogue in posters
SAİT AVEDER
Yüksek Lisans
Türkçe
2019
Güzel Sanatlar Altınbaş Üniversitesi
DR. ÖĞR. ÜYESİ LÜTFİYE BOZDAĞ
Tez No
142597
Yeni Cami'nin akustik açıdan performans değerlendirmesi
Evaluation of the acoustical performance of the New Mosque
EVREN YILDIRIM
Yüksek Lisans
Türkçe
2003
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. SEVTAP YILMAZ DEMİRKALE

Geri Dön