Human presence detection in emergency situations using deep learning based audio-visual systems
Derin öğrenme tabanlı işitsel-görsel sistemler ile tehlike durumunda insan tespiti
- Tez No: 757115
- Danışmanlar: PROF. DR. BANU GÜNEL KILIÇ, PROF. DR. HÜSEYİN CEM BOZŞAHİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 114
Özet
Gözetleme ve arama kurtarma sistemlerinde acil durum tespitinin önemi son yıllarda araştırmacıların dikkatini çekmiştir. Mevcut yöntemler, genellikle ortamlara yalnızca görsel sensörler yerleştirildiğinden, herhangi bir anomali durumunu tanımlamak için çoğunlukla görsel verilere dayanır. Diğer yandan, acil bir durumda, ses bilgileri ayırt edilebilir anomali tespitine yardımcı olabilir. Görsel bilginin sınırlı olduğu durumlarda, ses dalgaları bir dereceye kadar nüfuz edebilir. Ayrıca, seste gürültü olduğu ve faaliyet alanının yoğun olduğu durumlarda görsel analiz uygulamaları yararlı olabilir. Bu nedenle, derin öğrenmenin son zamanlardaki hızlı büyümesiyle birlikte, tek modaliteden çok modlu öğrenmeye geçiş çok önemli hale gelmiştir. Görsel-işitsel bir sistem oluşturmak amacıyla hem ses analizi hem de görsel analiz ayrı ayrı gerçekleştirilmiştir. Ses tabanlı analizde, çeşitli ses olaylarının aynı anda gerçekleştiği gerçekçi ortamlarda hedef bir ses sınıfının kısa penceresini yakalamak için kayan pencere tekniği kullanılarak ses örneklere dönüştürülmüştür. Bu nedenle, gerçek zamanlı bir işletim sisteminde, hedef ses kısa bir süreliğine gerçekleştiğinde acil durumların tanınması hedeflenmiştir. İnsan sesi sınıfları“Konuşma”,“Çığlık”ve“Ağlama”için minimum kayan pencere boyutları sırasıyla 0.25 s, 1 s ve 0.30 s olarak belirlenmiştir. Görsel analizde, beş yüz işaret noktası kullanılarak yüz hizalaması ile birlikte yüz algılama gerçekleştirilmiştir. Yüz tespiti için Average Precision (AP) değeri WIDER Face veri setinde %77 olarak belirlenmiştir (IoU=0,5). Tespit edilen yüzler kullanılarak, dikkat temelli bir yöntemle yaş ve cinsiyet tahminlerinin yanı sıra yüz ifadesi tanıma (FER) gerçekleştirilmiştir. Yedi temel duygu için, AffectNet doğrulama veri setinde model tarafından %64.14 doğruluk elde edilmiştir. Bu işitsel ve görsel tabanlı sistemlerin kombinasyonu, her iki modalitedeki algılama görevlerinin limitlerini ortadan kaldırmak için kullanılabilir.
Özet (Çeviri)
The significance of emergency event detection in surveillance systems has drawn the attention of researchers in recent years. Existing methods mostly depend on visual data to identify any abnormal events since only visual sensors are frequently put in public settings. On the other hand, in an emergency, sound information may be exploited. When eyesight is occluded, audio waves can penetrate to some extent. Applications for visual analysis may be helpful when there is noise in the audio and the scene is congested. Thus, the shift from single-modality to multimodality learning has become crucial given the recent rapid growth of deep learning. Both the audio analysis and the visual analysis were performed separately. In audio-based analysis, audio was transformed into samples using sliding window technique to capture the brief window of a target audio class. Therefore, in a real-time operating system, emergency circumstances can be recognized when the target sound happens briefly. For human sound classes of“Speech”,“Scream”and“Cry”, the minimum sliding window sizes were 0.25 s, 1 s and 0.30 s, respectively. In visual analysis, face detection was conducted along with facial alignment using five facial landmarks. The AP for face detection was 77% on WIDER Face dataset (IoU=0.5). Using the detected faces, facial expression recognition (FER) was performed as well as age and gender estimations by employing an attention-based method. For seven basic emotions, 64.14% accuracy was achieved on AffectNet dataset. The combination of these audio and visual-based systems eliminates the limitations of perceptual tasks in both modalities
Benzer Tezler
- Güvenlik kamerası görüntülerindeki bölgesel hız değişimlerini değerlendirerek kalabalık ortamlarda panik durumu tespiti
Panic detection by regional velocity changes in crowded areas from surveillance vi̇deo
HÜRKAL HÜSEM
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MİNE ELİF KARSLIGİL YAVUZ
- Sağlık hizmetinin yürütülmesinde görevli sağlık kamu personelinin eylemlerinden kaynaklanan idarenin sorumluluk sebepleri
Grounds for liability of the administration caused by the actions of the health public personnel in duty in the conduct of health service
MUHARREM CİVAN
Yüksek Lisans
Türkçe
2022
HukukGalatasaray ÜniversitesiKamu Hukuku Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CİHAN YÜZBAŞIOĞLU
- Kentsel su döngüsünde mikrobiyal kontaminantların sürveyanı: Fırsatçı patojenlerin moleküler karakterizasyonu ve antimikrobiyal direnç profilinin araştırılması
Microbial contaminants surveillence in the urban water cycle: Molecular characterization of oppurtunistic pathogens and antimicrobial resistance profile
BİNNUR KIRATLI
- İfade özgürlüğünde caydırıcı etki
The chilling effect on freedom of expression
DİDEM TOMBUL
Yüksek Lisans
Türkçe
2023
HukukGalatasaray ÜniversitesiKamu Hukuku Ana Bilim Dalı
DOÇ. DR. ÖZEN ÜLGEN ADADAĞ
- Hastane öncesi acil tıpta hastanın müdahaleyi reddetmesi: Kuramsal değerlendirme ve bir alan çalışması
The patient's refusal of treatment in prehospital emergency medicine: Theoretical assessment and a field study
HASAN ERBAY
Doktora
Türkçe
2012
Deontoloji ve Tıp TarihiÇukurova ÜniversitesiTıp Tarihi ve Etik Ana Bilim Dalı
YRD. DOÇ. DR. SULTAN ALAN