Geri Dön

Derin öğrenme tabanlı bas konuş/interkom sistemlerinde ses duygu analizi

Deep learning based voice emotion analysis in intercom systems

  1. Tez No: 863504
  2. Yazar: KÜBRA SİNAN
  3. Danışmanlar: PROF. DR. PAKİZE ERDOĞMUŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Düzce Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

Metrolarda bulunan Bas-Konuş sistemleri yolcuların makinistle iletişime geçmelerini sağlayan sistemlerdir. Yolcular bu sistem aracılığı ile acil durumlarda makinistle irtibata geçerek bir sıkıntı olduğunu söyleyebilmektedir. Ancak mevcut Bas Konuş/ Interkom sistemlerinde bir öncelik olayı olmadığı için makinist rastgele butona basan biriyle de görüşebilmektedir. Dolayısıyla önemli /acil bir durum için basan yolcu görüşmek için daha sonraya kalabilmekte ve geç müdahaleye sebep olabilmektedir. Bu çalışmada, bas/konuş sistemlerinde karşılaşılan bu sorunlara çözüm getirmek amacı ile, son yıllarda geliştirilen derin öğrenme mimarilerinden Wav2Vec2 kullanılmıştır. Bas-konuş cihazından butona basan yolcu konuştuğunda, insan sesini algılayan sistem devreye girmektedir. Bas-konuş cihazından butona basan yolcu konuştuğunda, eğitilmiş model ile duygu sınıflandırma yapılarak, yolcunun gerçekten acil bir durumda olup olmadığı algılanmaktadır. Bu çalışmada eğitilen duygu sınıflandırma modelinin, sisteme entegre edilmesi ve tahmin edilen duygu sınıfına göre, sistem otomasyonu geliştirilmesi, acil olmayan durumların otomatik bir sistem cevabı ile geçilmesini ve acil durumların geciktirilmemesi amaçlanmaktadır. Çalışmada EMO-DB veri setinde yer alan, duygu sınıflarına göre önceden eğitilmiş bir Wav2Vec2 modeli kullanılarak transfer öğrenme yoluyla ses verileri 2D görüntülere, yani ses spektrogramlarına dönüştürülmüştür. Elde edilen veri seti ile transfer öğrenme yolu ile eğitilen model de, %92 doğruluk değerine ulaşıldığı görülmüştür.

Özet (Çeviri)

Push-to-Talk systems in subways are systems that allow passengers to communicate with the engineer. Through this system, passengers can contact the engineer in case of emergency and tell him/her that there is a problem. However, since there is no priority in the current Push to Talk/Intercom systems, the engineer can talk to someone who presses the button randomly. Therefore, the passenger who presses the button for an important/emergency situation may be delayed to be interviewed later and may cause late intervention. In this study, Wav2Vec2, one of the recently developed deep learning architectures, is used to solve these problems in push-to-talk systems. When the passenger presses the button on the push-to-talk device, the human voice recognition system is activated. When the passenger presses the button on the push-to-talk device, the trained model is used to classify the emotion and detect whether the passenger is really in an emergency or not. The aim of this study is to integrate the trained emotion classification model into the system and to develop system automation according to the predicted emotion class, to pass non-emergency situations with an automatic system response and not to delay emergency situations. In the study, audio data in the EMO-DB dataset were converted into 2D images, i.e. audio spectrograms, by transfer learning using a Wav2Vec2 model pre-trained according to emotion classes. It was observed that the model trained by transfer learning with the obtained data set achieved 92% accuracy.

Benzer Tezler

  1. Missile evasion maneuver generation with model-free deep reinforcement learning

    Modelden bağımsız derin pekiştirmeli öğrenme ile füzeden kaçınma manevraları

    MUHAMMED MURAT ÖZBEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    DOÇ. DR. EMRE KOYUNCU

  2. Deep learning-based keypoints driven visual inertial odometry for GNSS-denied flight

    Yapay sinir ağları tabanlı nokta çıkarıcılı görsel-ataletsel odometri ile GPS'siz ortamda uçuş

    ARSLAN ARTYKOV

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EMRE KOYUNCU

  3. Enhancing human resource decision making with image-based OSMI data analysis: leveraging PIX2PIX for accurate workplace mental health insights

    İş yeri mental sağlık incelemeleri için PIX2PIX kullanarak, görüntü tabanlı OSMI veri analiziyle insan kaynakları karar süreçlerini geliştirme

    FARIBA FARID

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. NİZAMETTİN BAYYURT

  4. Airplane detection and identification based on mask region convolution neural network

    Üzerine göre uçak tespit ve tip tanimlama mask region convolution neural network

    WALEED AL-SHAIBANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    İletişim Bilimleriİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    DR. MUSTAFA HELVACI

  5. Kentsel alanlardaki fiziksel ve sosyoekonomik belirleyicilerin çocuk sağlığına etkilerinin CBS ile araştırılması

    Investigating the effects of physical and socio-economic determinants on children health through GIS

    ASLI KAHRAMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Coğrafyaİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DOÇ. DR. AHMET ÖZGÜR DOĞRU