Çevresel seslerin evrişimsel sinir ağları ile sınıflandırılması

Classification of environmental sounds with convolutional neural networks

PDF İndir

Tez No: 704116
Yazar: YALÇIN DİNÇER
Danışmanlar: DR. ÖĞR. ÜYESİ ÖZKAN İNİK
Tez Türü: Yüksek Lisans
Konular: Mekatronik Mühendisliği, Mechatronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Tokat Gaziosmanpaşa Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 93

Özet

Çevresel faaliyetler canlı veya cansız varlıklar tarafından oluşmaktadır. Bu faaliyetlerin sonuçlarını temsil edebilecek ve aynı zamanda ortam hakkında bilgi verebilecek ses verisi önem kazanmaktadır. Kentlerde meydana gelen gürültü kirliliği, trafik problemleri, güvenlik sistemleri, akıllı takip sistemleri, sağlık hizmetleri, yerel hizmetler gibi faaliyetlerin işleyişini ve temel bilgilerini elde etmek için ses verisinden faydalanılmaktadır. Bu anlamda Çevresel Seslerin Sınıflandırılması (ÇSS) kritik önem kazanmaktadır. Artan veri miktarı ve çözümlemedeki zaman kısıtlamalarından dolayı anlık otomatik olarak seslerin tanımlanmasını sağlayan yeni ve güçlü yapay zekâ yöntemlerine ihtiyaç duyulmaktadır. Bu alanda son yıllarda Derin Öğrenme (DÖ) mimarilerinin birçok farklı alanda elde etmiş olduğu yüksek performanstan dolayı ÇSS işlemi DÖ mimarileri ile yapılması amaçlanmıştır. Yapılan bu tez kapsamında üç farklı ÇSS veri setinin sınıflandırılması için Derin Öğrenmenin temel mimarisi olan Evrişimsel Sinir Ağları (ESA) modelleri tasarlanmıştır. Her bir veri seti için özgün olarak tasarlanan birden fazla ESA modelleri içerisinden en yüksek doğruluk oranına sahip ESA modelleri elde edilmiştir. Bu veri setleri sırasıyla ESC10, ESC50 ve UrbanSound8K veri setleridir. Bu veri setlerindeki ses kayıtları 32x32x3 ve 224x224x3 boyutuna sahip görüntü formatına çevrilmiştir. Böylelikle toplamda altı farklı görüntü formatında veri seti elde edilmiştir. Bu veri setlerinin sınıflandırılması için geliştirilen özgün ESA modelleri sırasıyla, ESC10_ESA32, ESC10_ESA224, ESC50_ESA32, ESC50_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 olarak isimlendirilmiştir. Bu modeller veri setleri üzerinde 10-Kat Çapraz Doğrulama (10-Fold Cross Validation) yapılarak eğitilmiştir. Elde edilen sonuçlarda, ESC10_ESA32, ESC10_ESA224, ESC50_ESA32, ESC50_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 modellerinin ortalama doğruluk oranları sırasıyla %80.75, %82.25, %54.55, %72.15, %88.60 ve %84.33 olarak elde edilmiştir. Elde edilen sonuçlar aynı veri setleri üzerinde literatürde yapılan diğer temel çalışmalarla karşılaştırıldığında önerilen modellerin ESC10 ve UrbanSound8K veri setinde daha iyi sonuçlar elde ettiği görülmüştür. ESC50 veri setinde ise bir çalışma haricinde diğer çalışmalardan daha iyi olduğu anlaşılmıştır.

Özet (Çeviri)

The environmental activities consist of living or non-living things. The sound data that can represent the results of these activities and also provide information about the environment gains importance. Sound data is used to obtain basic information and the operation of activities such as noise pollution, traffic problems, security systems, smart tracking systems, health services, local services in cities. In this sense, Environmental Sounds Classification (ESC) gains critical importance. Due to the increasing amount of data and time constraints in analysis, new and strong artificial intelligence methods that enable automatic recognition of sound are needed. Due to the high performance that Deep Learning (DL) architectures have achieved in many different areas in recent years, it is aimed to perform ESC process with DL architectures. Within the scope of this thesis, the Convolutional Neural Networks (CNN) models, which are the basic architecture of Deep Learning, have been designed for the classification of three different CNN dataset. CNN models that have the highest accuracy have been obtained among more than one CNN models designed originally for each dataset. These data sets are ESC10, ESC50 and UrbanSound8K data sets, respectively. The sound recordings in these datasets have been converted to image formats that has 32x32x3 and 224x224x3 dimensions. Thus, dataset that a total of six different image format were obtained. The original CNN models developed to classify these data sets are named as ESC10_CNN32, ESC10_CNN224, ESC50_CNN32, ESC50_CNN224, URBANSOUND8K_CNN32 and URBANSOUND8K_CNN224, respectively. These models have been trained by performing 10-fold Cross Validation on the datasets. In the results obtained, the average accuracy rates of ESC10_CNN32, ESC10_CNN224, ESC50_CNN32, ESC50_CNN224, URBANSOUND8K_CNN32 and URBANSOUND8K_CNN224 models were found to be 80.75%, 82.25%, 54.55%, 72.15%, 88.60% and 84.63%, respectively. When the results obtained are compared with other studies in the literature on the same data sets, it was seen that the proposed models achieved better results in the ESC10 and UrbanSound8K data sets. In the ESC50 dataset, it was found to be better than other studies, except for one study.

Benzer Tezler

Tez No
632563
Konuşma olmayan sinyallerin evrişimsel sinir ağları tabanlı yaklaşımlar ile sınıflandırılması
Classification of non-speech signals with convolutional neural network based approaches
FATİH DEMİR
Doktora
Türkçe
2020
Elektrik ve Elektronik Mühendisliği Fırat Üniversitesi
Elektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı
PROF. DR. ABDULKADİR ŞENGÜR
Tez No
853207
Derin öğrenme tabanlı ses ve görüntü işleme teknolojilerine sahip otonom insansız hava aracı
Autonomous unmanned aerial vehicle with deep learning-based audio and visual processing technologies
ERTUĞRUL KIRAÇ
Doktora
Türkçe
2024
Savunma ve Savunma Teknolojileri İstanbul Gedik Üniversitesi
Savunma Teknolojileri Ana Bilim Dalı
PROF. DR. SUNULLAH ÖZBEK
Tez No
735787
İnsansız Hava Aracı tespiti ve sınıflandırılması için derin öğrenme tabanlı tekniklerin geliştirilmesi
Development of deep learning based techniques for Unmanned Aerial Vehicle detection and classification
EMRULLAH KIZILAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Savunma Teknolojileri Ana Bilim Dalı
DOÇ. DR. İLHAN AYDIN
Tez No
472589
Real-time system for bird sound recognition
Kuş sesi tanımlaması icin gerçek zamanlı sistem
OKAN KÜÇÜKTOPCU
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik Mühendisliği Yeditepe Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. CEM ÜNSALAN
YRD. DOÇ. DR. ENGİN MAŞAZADE
Tez No
764200
Auditory inattentional deafness investigated with eye tracking
İstemsiz sağırlık olgusunun göz takip yöntemi ile araştırılması
GİZEM TANSELİ KASPAR
Yüksek Lisans
İngilizce
2022
Psikoloji Yeditepe Üniversitesi
DR. ÖĞR. ÜYESİ FUNDA YILDIRIM

Geri Dön