Geri Dön

Çevresel seslerin evrişimsel sinir ağları ile sınıflandırılması

Classification of environmental sounds with convolutional neural networks

  1. Tez No: 704116
  2. Yazar: YALÇIN DİNÇER
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ÖZKAN İNİK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mekatronik Mühendisliği, Mechatronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Tokat Gaziosmanpaşa Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 93

Özet

Çevresel faaliyetler canlı veya cansız varlıklar tarafından oluşmaktadır. Bu faaliyetlerin sonuçlarını temsil edebilecek ve aynı zamanda ortam hakkında bilgi verebilecek ses verisi önem kazanmaktadır. Kentlerde meydana gelen gürültü kirliliği, trafik problemleri, güvenlik sistemleri, akıllı takip sistemleri, sağlık hizmetleri, yerel hizmetler gibi faaliyetlerin işleyişini ve temel bilgilerini elde etmek için ses verisinden faydalanılmaktadır. Bu anlamda Çevresel Seslerin Sınıflandırılması (ÇSS) kritik önem kazanmaktadır. Artan veri miktarı ve çözümlemedeki zaman kısıtlamalarından dolayı anlık otomatik olarak seslerin tanımlanmasını sağlayan yeni ve güçlü yapay zekâ yöntemlerine ihtiyaç duyulmaktadır. Bu alanda son yıllarda Derin Öğrenme (DÖ) mimarilerinin birçok farklı alanda elde etmiş olduğu yüksek performanstan dolayı ÇSS işlemi DÖ mimarileri ile yapılması amaçlanmıştır. Yapılan bu tez kapsamında üç farklı ÇSS veri setinin sınıflandırılması için Derin Öğrenmenin temel mimarisi olan Evrişimsel Sinir Ağları (ESA) modelleri tasarlanmıştır. Her bir veri seti için özgün olarak tasarlanan birden fazla ESA modelleri içerisinden en yüksek doğruluk oranına sahip ESA modelleri elde edilmiştir. Bu veri setleri sırasıyla ESC10, ESC50 ve UrbanSound8K veri setleridir. Bu veri setlerindeki ses kayıtları 32x32x3 ve 224x224x3 boyutuna sahip görüntü formatına çevrilmiştir. Böylelikle toplamda altı farklı görüntü formatında veri seti elde edilmiştir. Bu veri setlerinin sınıflandırılması için geliştirilen özgün ESA modelleri sırasıyla, ESC10_ESA32, ESC10_ESA224, ESC50_ESA32, ESC50_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 olarak isimlendirilmiştir. Bu modeller veri setleri üzerinde 10-Kat Çapraz Doğrulama (10-Fold Cross Validation) yapılarak eğitilmiştir. Elde edilen sonuçlarda, ESC10_ESA32, ESC10_ESA224, ESC50_ESA32, ESC50_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 modellerinin ortalama doğruluk oranları sırasıyla %80.75, %82.25, %54.55, %72.15, %88.60 ve %84.33 olarak elde edilmiştir. Elde edilen sonuçlar aynı veri setleri üzerinde literatürde yapılan diğer temel çalışmalarla karşılaştırıldığında önerilen modellerin ESC10 ve UrbanSound8K veri setinde daha iyi sonuçlar elde ettiği görülmüştür. ESC50 veri setinde ise bir çalışma haricinde diğer çalışmalardan daha iyi olduğu anlaşılmıştır.

Özet (Çeviri)

The environmental activities consist of living or non-living things. The sound data that can represent the results of these activities and also provide information about the environment gains importance. Sound data is used to obtain basic information and the operation of activities such as noise pollution, traffic problems, security systems, smart tracking systems, health services, local services in cities. In this sense, Environmental Sounds Classification (ESC) gains critical importance. Due to the increasing amount of data and time constraints in analysis, new and strong artificial intelligence methods that enable automatic recognition of sound are needed. Due to the high performance that Deep Learning (DL) architectures have achieved in many different areas in recent years, it is aimed to perform ESC process with DL architectures. Within the scope of this thesis, the Convolutional Neural Networks (CNN) models, which are the basic architecture of Deep Learning, have been designed for the classification of three different CNN dataset. CNN models that have the highest accuracy have been obtained among more than one CNN models designed originally for each dataset. These data sets are ESC10, ESC50 and UrbanSound8K data sets, respectively. The sound recordings in these datasets have been converted to image formats that has 32x32x3 and 224x224x3 dimensions. Thus, dataset that a total of six different image format were obtained. The original CNN models developed to classify these data sets are named as ESC10_CNN32, ESC10_CNN224, ESC50_CNN32, ESC50_CNN224, URBANSOUND8K_CNN32 and URBANSOUND8K_CNN224, respectively. These models have been trained by performing 10-fold Cross Validation on the datasets. In the results obtained, the average accuracy rates of ESC10_CNN32, ESC10_CNN224, ESC50_CNN32, ESC50_CNN224, URBANSOUND8K_CNN32 and URBANSOUND8K_CNN224 models were found to be 80.75%, 82.25%, 54.55%, 72.15%, 88.60% and 84.63%, respectively. When the results obtained are compared with other studies in the literature on the same data sets, it was seen that the proposed models achieved better results in the ESC10 and UrbanSound8K data sets. In the ESC50 dataset, it was found to be better than other studies, except for one study.

Benzer Tezler

  1. Konuşma olmayan sinyallerin evrişimsel sinir ağları tabanlı yaklaşımlar ile sınıflandırılması

    Classification of non-speech signals with convolutional neural network based approaches

    FATİH DEMİR

    Doktora

    Türkçe

    Türkçe

    2020

    Elektrik ve Elektronik MühendisliğiFırat Üniversitesi

    Elektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı

    PROF. DR. ABDULKADİR ŞENGÜR

  2. Derin öğrenme tabanlı ses ve görüntü işleme teknolojilerine sahip otonom insansız hava aracı

    Autonomous unmanned aerial vehicle with deep learning-based audio and visual processing technologies

    ERTUĞRUL KIRAÇ

    Doktora

    Türkçe

    Türkçe

    2024

    Savunma ve Savunma Teknolojileriİstanbul Gedik Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    PROF. DR. SUNULLAH ÖZBEK

  3. İnsansız Hava Aracı tespiti ve sınıflandırılması için derin öğrenme tabanlı tekniklerin geliştirilmesi

    Development of deep learning based techniques for Unmanned Aerial Vehicle detection and classification

    EMRULLAH KIZILAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    DOÇ. DR. İLHAN AYDIN

  4. Real-time system for bird sound recognition

    Kuş sesi tanımlaması icin gerçek zamanlı sistem

    OKAN KÜÇÜKTOPCU

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik MühendisliğiYeditepe Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. CEM ÜNSALAN

    YRD. DOÇ. DR. ENGİN MAŞAZADE

  5. Auditory inattentional deafness investigated with eye tracking

    İstemsiz sağırlık olgusunun göz takip yöntemi ile araştırılması

    GİZEM TANSELİ KASPAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    PsikolojiYeditepe Üniversitesi

    DR. ÖĞR. ÜYESİ FUNDA YILDIRIM