Detection and recognition of sounds from hazardous events for surveillance applications
Gözetleme amaçlı uygulamalar için tehlikeli olaylardan gelen seslerin tespiti ve tanınması
- Tez No: 545916
- Danışmanlar: PROF. DR. HÜSEYİN CANBOLAT
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Darbesel ses, ses olayı tespiti, ses olayı tanıma, makine öğrenmesi, derin sinir ağları, ses sinyali işleme
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 113
Özet
Bu tezde, silah sesi, çığlık ve araba kazası gibi darbesel seslerin tespiti ve tanınmasını yapacak bir system geliştirilmesi amaçlanmaktadır. Böyle bir system Çevresel Ses Tanıma Sistemi olarak adlandırılabilir (ÇST). İki system tasarımı önerilmiştir. Birinci sistem tasarımında üç adet ikinci system tasarımında iki adet alt system bulunmaktadır. Alt sistemler ses veritabanı, darbesel ses tespiti ve darbesel ses tanıma alt sistemleridir. İkinci sistem tasarımı iki ve üçüncü altsistemleri bir alt system altında toplar. İlk önce darbesel sesleri depolayacak bir ilişkisel veritabanı modeli tasarımı yapıp bunu gerçekleştirdik. Daha sonra bu tasarımı tüm çeresel sesleri depolayacak şekilde genişlettik. Darbesel ses tespit alt sisteminde darbesel ses tespiti amacıyla darbesel gürültü tespit algoritmalarının kullanılmasını önerdik. Bazı algoritmaları gerçekleştirdik ve sonuçlar göstermiştir ki; Warped Linear Prediction (WLP) literatürde en çok kullanılan bir enerji tabanlı algoritmayı yanlış tespit ve tespit kaçırma bakımından geride bırakmıştır. Tanıma alt sisteminde son zamanlarda en iyi sonucu veren Derin Sinir Ağları (DSA) kullanılmıştır. Silah sesi, çığlık ve araba kazası tanıması için üç DSA modeli geliştirilmiştir. Performans değerlendirmesi için offline ve online testler yapılmıştır. Online testlerde uzak konuşmacı tanıması alanında çok iyi bilinen reverberasyonun tanıma üzerindeki bozma etkisi görülmüştür. DSA modellerimiz aynı veri setleri üzerinde daha önce yapılan çalışmalardan daha iyi sonuç vermiştir. Tezin sonunda, son zamanlarda ortaya çıkmakta olan ses tanıma uygulamaları anlatılmakta ve mevcut video güvenlik sistemlerinin performansının iyileştirilmesi için ses entegrasyonu yapılması detaylı olarak incelenmektedir.
Özet (Çeviri)
In this thesis we propose a system which uses algorithms for detection and recognition of impulsive sounds namely gunshots, screaming and traffic accidents. Such a system can be regarded as Environmental Sound Recognition System (ESR). We proposed two system designs. First system design has three subsystems and second system has two subsystems. Subsystems are sound database, impulsive sound detection and impulsive sound recognition subsystems. Second system design combines second and third as one subsystem. We designed and implemented a relational database model for storing impulsive sounds first then extended it to store all environmental sounds. In the impulsive sound detection subsystem, we proposed to use impulsive noise detection algorithms for the detection of impulsive sounds. We implemented some algorithms and showed Warped Linear Prediction (WLP) outperforms an energy based algorithm which is mostly used in literature for impulsive sound detection, regarding false positives and miss detections. In the recognition subsystem we employed Deep Neural Networks (DNN) which is state of the art. We developed three models for the recognition of gunshot, scream and traffic accident. For the performance evaluation we made offline and online tests. Online tests revealed that the reverberation degradation effect on recognition which was well known for distant speaker recognition. Our DNN models outperforms earlier research made on the same datasets. At the end of the thesis we mention emerging sound recognition applications and later deeply investigate audio integration to video surveillance networks to improve the performance of this systems.
Benzer Tezler
- Lifelong learning for auditory scene analysis
İşitsel sahne analizi için hayat boyu öğrenme
BARIŞ BAYRAM
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN İNCE
- Tek kanallı yaygın akciğer seslerinden solunum döngülerinin otomatik algılanması ve sınıflandırılması
Automatic detection and classification of respiratory cycles from common lung sounds in single channel
SELİM ARAS
Doktora
Türkçe
2018
Elektrik ve Elektronik MühendisliğiKaradeniz Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ GANGAL
- Ses analizinde akustik parametrelerin tespiti ve anksiyete bozukluğunun akustik parametrelerle ilişkisinin araştırılması
The detection of acoustic parameters in the voice analysis and the investigation of relationship with acoustic parameters of anxiety disorders
TURGUT ÖZSEVEN
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MUHARREM DÜĞENCİ
- Constructing terminology for musical timbre: A semantic mapping of acoustic features in Turkish language
Ses tınısı için bir terminoloji oluşturmak: Anlambilimsel ve akustik özellikler arasında bir haritalandırma çalışması
EZGİ SU ÖRÜN
Yüksek Lisans
İngilizce
2023
Müzikİstanbul Teknik ÜniversitesiMüzik Ana Bilim Dalı
DOÇ. DR. TAYLAN ÖZDEMİR
- İşitme engelli bireylerin eğitimi için sesi titreşime dönüştüren sistem tasarımı ve uygulaması
Design and implementation of voice to vibration transformation system for education of hearing impaired indivuals
UMUT ÇELİK
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiElektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. RESUL KARA