Geri Dön

Ses sinyallerinin graf tabanlı temsillerinin yapay zekâ yöntemleri ile sınıflandırılması

Classification of graph-based representations of audio signals by artificial intelligence methods

  1. Tez No: 726753
  2. Yazar: SERKAN AKSU
  3. Danışmanlar: DOÇ. DR. İLKER TÜRKER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Karabük Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 115

Özet

Bu çalışmada, ses sinyallerinin zaman boyutundaki komşu genlik seviyeleri arasında bulunan ilişkiye dayalı graf temelli yeni bir temsil yöntemi geliştirilmiştir. Karmaşık ağ biliminin sinyal işleme alanına uyarlandığı bu yaklaşımda zaman boyutundaki genlik seviyeleri ve bunların komşuları arasında bağlantı dikkate alınır. İlk olarak ses sinyalleri, önceden belirlenmiş n-bit seviyesine göre ölçeklenir. Ölçeklenmiş sinyallere 3 farklı değerde uygulanan alt-örnekleme ile 3 farklı bağlantı matrisi (graf) elde edilir. Daha sonra üst üste yerleştirilen bu 3 matrisin sırasıyla RGB katmanlarını temsil ettikleri bir imaj oluşturulmuş olur. Ses sinyallerinin segmentasyonundan elde edilen sinyal parçalarına ayrı ayrı uygulanan bu yöntem sonucunda her bir zaman çerçevesi için 〖[2〗^n×2^n×3] boyutunda RGB-imajı elde edilmiş olur. Bu RGB kare matrisler daha sonra dikey formatta düzleştirilerek 〖[2〗^2n×3] büyüklüğünde tek boyutlu RGB dizisine dönüştürülür. Art arda gelen çerçevelerden elde edilen bu dikey diziler yatay eksende birleştirilir ve connectogram adını verdiğimiz [2〗^2n × segment sayısı ×3] boyutunda bir temsil imajı elde edilmiş olur. Böylece ses sinyalleri zaman-graf eksenli connectogram adını verdiğimiz farklı bir yöntemle temsil edilmiş olur. Sesin connectogram şeklinde temsil edilmesi ile elde edilen bu yeni yöntemin çevresel sesler üzerindeki sınıflandırma başarısı, mel-spektrogram (mels) ve MFCC gibi bilinen yöntemler ile karşılaştırılarak test edilmiştir. Bu test işlemi için temsil matrisleri imaja dönüştürülmüş ardından bu imajlar bilinen en yeni transfer öğrenme modellerine girdi olarak verilmiştir. Elde edilen sonuçlar, connectogram'ların tek başına kullanıldığında mel-spektrogram ile rekabet edecek şekilde en iyi sonucu vermediğini göstermiştir. Fakat, bu matrisler sesin mel-spektrogram temsili ile RGB formatının bir katmanı olacak şekilde [mels + mels + connectogram] şeklinde birleştirildiğinde sınıflandırma başarısında 2% gibi önemli bir artış sağlandığı görülmüştür. Yapılan sınıflandırma denemelerinde en iyi sonucun 5-fold çapraz doğrulama ile ResNet50 modeli üzerinde 95.59 % olarak elde edilmiştir.

Özet (Çeviri)

We introduce a graph-inspired representation for sounds capturing temporal convexity characteristics based on deviations in amplitude levels. Assuming the quantized amplitude levels as nodes with a pre-defined bit depth (n), a network-theoretic approach is conducted to establish connections between these amplitude levels based on their neighborhood in time domain. This procedure is run for 3 downsampling rates, resulting in a 3-layer adjacency matrix representation for a single time frame after segmentation, that is combined to form an RGB-image of size [2^n×2^n×3] for each segment. These matrices are further flattened to 〖[2〗^2n×3] vertical RGB-arrays, derived from each sound frame. Tiling these vertical arrays from consecutive frames horizontally, we generate a time-graph representation of size 〖[2〗^2n×num.segments×3] named connectogram, capturing the temporal convexity characteristics of sound waves. The representation capability of connectograms is tested in comparison with mel-spectrograms (mels) and MFCCs for an environmental sound classification task, as input to state-of-art transfer learning models. Results indicate that connectograms cannot compete with the best-performer mel-spectrogram representations in standalone format, however they significantly improve their classification performance in case they are combined as single layers of hybrid RGB representations. A combination of [mels+mels+connectogram] outperforms either sole representations or their combinations by 2%, with 95.59 % classification accuracy with 5-fold cross validation for ResNet50 classifier model.

Benzer Tezler

  1. Yeni Cami'nin akustik açıdan performans değerlendirmesi

    Evaluation of the acoustical performance of the New Mosque

    EVREN YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. SEVTAP YILMAZ DEMİRKALE

  2. Ses sinyallerinin düşük hızda iletimi

    Low bit rate speech transmission

    PELİN KUŞ (BAŞARAN)

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Elektrik ve Elektronik MühendisliğiHacettepe Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. A. SEMİH BİNGÖL

  3. Qualitätsverbesserung für gestörte Audioaufnahmen

    Gürültülü ses kayıtları için kalite iyileştirmesi

    MEHMET TURAN

    Yüksek Lisans

    Almanca

    Almanca

    2012

    Elektrik ve Elektronik MühendisliğiRheinisch-Westfälische Technische Hochschule Aachen

    Elektronik ve Enformasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. PETER VARY

  4. Gürültülü ses sinyali iyileştirilmesine ikili kalman filtreyaklaşımı

    Dual kalman fi̇lter approach for speech enhancement fromnoi̇sy observati̇ons

    HAYDAR ANKIŞHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Elektrik ve Elektronik MühendisliğiAnkara Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT EFE

    DR. ÖĞR. ÜYESİ LEVENT ÖZBEK

  5. Bayesian source modelling for single-channel audio separation

    Ses sinyallerinin tek kanaldan ayrıştırılmasında Bayesçi modeller

    ONUR DİKMEN

    Doktora

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. LALE AKARUN