Modlar arası transfer öğrenimi ile ses sinyallerinden duygu tanıma
Emotion recognition from audio signals with cross-modal transfer learning
- Tez No: 806700
- Danışmanlar: DOÇ. DR. FATMA PATLAR AKBULUT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Kültür Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 94
Özet
İnsanların konuşma sırasında ifade ettikleri duyguları anlamak, uygun şekilde tepki vermek için önemlidir. Ses sinyallerinden anlayabileceğimiz bilgileri maksimize edebilmek için ilgili ses ve görüntünün transfer öğrenimi yöntemi ile analiz edilmesi önemlidir. Duygu tanıma çalışmalarıyla alakalı olarak derin öğrenme ve yapay zekâ algoritmalarıyla araştırmalar hız kazanmıştır. Özellikle yapay zekâ ve robotik sistemlerde, doğal ve empatik bir insan-makine etkileşimi sağlamak için ses sinyallerinden duygu analizi esastır. Bu sistemler sayesinde kullanıcı deneyimini zenginleştirerek daha etkili ve tatmin edici hizmetler sunulabilmektedir. Duygu analizi sağlık sektöründe de önemli bir rol oynamaktadır. Psikolojik hastalıkların teşhis ve takibinde, hastaların duygu durumlarını doğru bir şekilde tespit etmek, uygun tedavi ve müdahalelerin gerçekleştirilmesi için kritiktir. Eğitim sektöründe ise, öğrencilerin ve öğretmenlerin duygusal durumlarını anlamak, eğitim ve öğretim süreçlerini daha etkili hale getirmektedir. Reklam ve pazarlama alanında, tüketici duygularını analiz etmek, müşteri memnuniyetini ve marka sadakatini artırarak satışları ve karlılığı yükseltmektedir. Ayrıca, duygu analizi, oyun endüstrisinde daha gerçekçi ve etkileyici oyun deneyimleri sunmak için de kullanılmaktadır. Bu tez çalışmasında, ses sinyallerinden ve ses sinyallerine ait ilgili görüntülerden transfer öğrenme yöntemi ile bu verilerin duygu durumlarını tespit etmeye yönelik gelişmiş sınıflandırma ve analiz yöntemlerini kullanılarak doğru duygu tahminlerinde bulunmayı hedeflenmektedir. Bu çalışmada veri seti nötr, sakin, mutlu, üzgün, kızgın, korkulu, tiksinme ve şaşırmış olmak üzere 8 farklı duygu durumu kullanılmıştır. Ses verilerini analiz edebilmek için MFCC ve Log Mel Filter Bank olmak üzere iki yöntem, Dense ve LSTM olmak üzere iki derin öğrenme tekniği kullanılmıştır. Video veri setini analiz edebilmek içinse CNN ağ modeli kullanılmıştır. Toplamda 11 farklı uygulama gerçekleştirilen bu uygulamada modellerin başarısı analiz edilmiş ve sonuç olarak görüntü verilerinden sınıflama gerçekleştiren modelden konuşma ses sinyalleri verilerinden sınıflama gerçekleştiren modele transfer öğrenmesi yöntemi ile bilgi aktarımı gerçekleştirilip %6,78'lik başarı artışı sağlanmıştır. Ayrıca MFCC yönteminin LMFB'a göre daha başarılı olduğu, şarkı ses türünün ise konuşma ses türüne göre daha yüksek doğrulukla etiketlendiği görülmüştür.
Özet (Çeviri)
Understanding the emotions people express during conversation is important to responding appropriately. In order to maximize the information we can understand from audio signals, it is important to analyze the relevant audio and video with the transfer learning method. Related to emotion recognition studies, research has gained momentum with deep learning and artificial intelligence algorithms. Especially in artificial intelligence and robotic systems, emotion analysis from sound signals is essential to providing a natural and empathetic humanmachine interaction. Thanks to these systems, more effective and satisfying services can be provided by enriching the user experience. Sentiment analysis also plays an important role in the healthcare industry. In the diagnosis and follow-up of psychological diseases, it is critical to accurately determine the mood of the patients and to carry out appropriate treatment and interventions. In the education sector, understanding the emotional states of students and teachers makes education and training processes more effective. In the field of advertising and marketing, analyzing consumer emotions increases sales and profitability by increasing customer satisfaction and brand loyalty. In addition, sentiment analysis is also used in the gaming industry to provide more realistic and immersive gaming experiences. The objective of this thesis is to accurately predict emotional states based on audio signals and simultaneous facial images using a cross-domain transfer learning approach. Eight distinct states of emotion were used in this analysis: neutral, calm, happy, sad, angry, fearful, disgusted, and surprised. Traditional signal processing methods, such as MFCC and Log Mel Filter Bank, and deep learning techniques, such as Densely connected network, CNN, and LSTM, were used to analyze the audio data. The videos were evaluated by employing a CNN network model. In this application, which consisted of a total of 11 different applications, the success of the models was analyzed, and as a result, information was transferred from the model performing the classification from the image data to the model performing the classification from the speech audio signal data using the cross-modal transfer learning, resulting in a 6.78 percent improvement in success. In addition, it was discovered that the MFCC method was more effective than the LMFB, and that the song voice type was identified with greater precision than the speech voice type.
Benzer Tezler
- Measuring and evaluating the maintainability of microservices
Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi
RAHİME YILMAZ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FEZA BUZLUCA
- MPS modüler üretim sisteminin bilgisayar destekli gerçek zamanlı kontrolü ve teknik eğitime uygulanması
Computer aided real time control of MPS modular production system and technical education application
SEZAİ TAŞKIN
Doktora
Türkçe
2007
Elektrik ve Elektronik MühendisliğiMarmara ÜniversitesiElektrik Eğitimi Ana Bilim Dalı
DOÇ. DR. KORAY TUNÇALP
YRD. DOÇ. DR. HASAN ERDAL
- Türkiye Cumhuriyeti'nin yüzüncü yılına özel reklam filmlerine yönelik çok modlu söylem analizi
Multimodal discourse analysis of advertisement films for the centenary of the Republic of Turkey
KÜBRA KOCAMAN
Yüksek Lisans
Türkçe
2024
ReklamcılıkKocaeli ÜniversitesiHalkla İlişkiler ve Tanıtım Ana Bilim Dalı
PROF. DR. İDİL SAYIMER
- Aktarma merkezleri kriterlerinin ve yerlerinin çok ölçütlü karar verme yöntemleri ile incelenmesi: İstanbul örneği
Examination of transport interchange criteria and locations with multi-criteria decision-making methods: the case study of Istanbul
NESLİHAN İNCİRCİ
Doktora
Türkçe
2021
Endüstri ve Endüstri Mühendisliğiİstanbul Ticaret ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. İSMAİL EKMEKCİ
- Realization of all optical switch and routing devices exploiting third order nonlinear optical properties
Üçüncü dereceden doğrusal olmayan optik özellikler kullanarak tamamen optik anahtar ve yönlendiricilerin gerçekleştirilmesi
OSMAN AKIN
Doktora
İngilizce
2012
Elektrik ve Elektronik Mühendisliğiİzmir Yüksek Teknoloji EnstitüsüElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. M. SALİH DİNLEYİCİ