Derin öğrenme tabanlı bas konuş/interkom sistemlerinde ses duygu analizi
Deep learning based voice emotion analysis in intercom systems
- Tez No: 863504
- Danışmanlar: PROF. DR. PAKİZE ERDOĞMUŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Düzce Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Metrolarda bulunan Bas-Konuş sistemleri yolcuların makinistle iletişime geçmelerini sağlayan sistemlerdir. Yolcular bu sistem aracılığı ile acil durumlarda makinistle irtibata geçerek bir sıkıntı olduğunu söyleyebilmektedir. Ancak mevcut Bas Konuş/ Interkom sistemlerinde bir öncelik olayı olmadığı için makinist rastgele butona basan biriyle de görüşebilmektedir. Dolayısıyla önemli /acil bir durum için basan yolcu görüşmek için daha sonraya kalabilmekte ve geç müdahaleye sebep olabilmektedir. Bu çalışmada, bas/konuş sistemlerinde karşılaşılan bu sorunlara çözüm getirmek amacı ile, son yıllarda geliştirilen derin öğrenme mimarilerinden Wav2Vec2 kullanılmıştır. Bas-konuş cihazından butona basan yolcu konuştuğunda, insan sesini algılayan sistem devreye girmektedir. Bas-konuş cihazından butona basan yolcu konuştuğunda, eğitilmiş model ile duygu sınıflandırma yapılarak, yolcunun gerçekten acil bir durumda olup olmadığı algılanmaktadır. Bu çalışmada eğitilen duygu sınıflandırma modelinin, sisteme entegre edilmesi ve tahmin edilen duygu sınıfına göre, sistem otomasyonu geliştirilmesi, acil olmayan durumların otomatik bir sistem cevabı ile geçilmesini ve acil durumların geciktirilmemesi amaçlanmaktadır. Çalışmada EMO-DB veri setinde yer alan, duygu sınıflarına göre önceden eğitilmiş bir Wav2Vec2 modeli kullanılarak transfer öğrenme yoluyla ses verileri 2D görüntülere, yani ses spektrogramlarına dönüştürülmüştür. Elde edilen veri seti ile transfer öğrenme yolu ile eğitilen model de, %92 doğruluk değerine ulaşıldığı görülmüştür.
Özet (Çeviri)
Push-to-Talk systems in subways are systems that allow passengers to communicate with the engineer. Through this system, passengers can contact the engineer in case of emergency and tell him/her that there is a problem. However, since there is no priority in the current Push to Talk/Intercom systems, the engineer can talk to someone who presses the button randomly. Therefore, the passenger who presses the button for an important/emergency situation may be delayed to be interviewed later and may cause late intervention. In this study, Wav2Vec2, one of the recently developed deep learning architectures, is used to solve these problems in push-to-talk systems. When the passenger presses the button on the push-to-talk device, the human voice recognition system is activated. When the passenger presses the button on the push-to-talk device, the trained model is used to classify the emotion and detect whether the passenger is really in an emergency or not. The aim of this study is to integrate the trained emotion classification model into the system and to develop system automation according to the predicted emotion class, to pass non-emergency situations with an automatic system response and not to delay emergency situations. In the study, audio data in the EMO-DB dataset were converted into 2D images, i.e. audio spectrograms, by transfer learning using a Wav2Vec2 model pre-trained according to emotion classes. It was observed that the model trained by transfer learning with the obtained data set achieved 92% accuracy.
Benzer Tezler
- Missile evasion maneuver generation with model-free deep reinforcement learning
Modelden bağımsız derin pekiştirmeli öğrenme ile füzeden kaçınma manevraları
MUHAMMED MURAT ÖZBEK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiSavunma Teknolojileri Ana Bilim Dalı
DOÇ. DR. EMRE KOYUNCU
- Deep learning-based keypoints driven visual inertial odometry for GNSS-denied flight
Yapay sinir ağları tabanlı nokta çıkarıcılı görsel-ataletsel odometri ile GPS'siz ortamda uçuş
ARSLAN ARTYKOV
Yüksek Lisans
İngilizce
2023
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE KOYUNCU
- Enhancing human resource decision making with image-based OSMI data analysis: leveraging PIX2PIX for accurate workplace mental health insights
İş yeri mental sağlık incelemeleri için PIX2PIX kullanarak, görüntü tabanlı OSMI veri analiziyle insan kaynakları karar süreçlerini geliştirme
FARIBA FARID
Yüksek Lisans
İngilizce
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. NİZAMETTİN BAYYURT
- Airplane detection and identification based on mask region convolution neural network
Üzerine göre uçak tespit ve tip tanimlama mask region convolution neural network
WALEED AL-SHAIBANI
Yüksek Lisans
İngilizce
2020
İletişim Bilimleriİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
DR. MUSTAFA HELVACI
- Kentsel alanlardaki fiziksel ve sosyoekonomik belirleyicilerin çocuk sağlığına etkilerinin CBS ile araştırılması
Investigating the effects of physical and socio-economic determinants on children health through GIS
ASLI KAHRAMAN
Yüksek Lisans
Türkçe
2020
Coğrafyaİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. AHMET ÖZGÜR DOĞRU