Audio fingerprinting using wavelet transform
Dalgacık dönüşümleri ile ses parmak izi kontrolü
- Tez No: 599242
- Danışmanlar: DOÇ. DR. GÖKHAN BİLGİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 99
Özet
Ses parmak izi tespit sistemlerinin günlük hayatta dijital hak yönetimi/telif hakkı tespiti, kopya ses verisi tespiti, ses verisi etiketleme, örnek ile tespit/sorgu gibi birçok kullanım alanı mevcuttur. Günümüzde de kullanıcıların canlı ses kayıtları ile sorgulayıp dönüş alabildikleri müzik tespit ve sorgu servisi sunan çevrimiçi popüler platformlar faaliyettedir. Kompakt, gürbüz ve hızlı erişimi hedefleyen ses parmak izi tasarımı bu sistemlerin temel taşını oluşturur. Kısa-süreli Fourier dönüşümleri ve Mel-spektral gösterimleri ilk akla gelen araçlar olmakla birlikte bu çıkarım yöntemleri kararsızlık gösterir ve bir baǧlamda düşük çözünürlüǧe sahiptirler. Saçılım dalgacık dönüşümü (SDD) bu kısıtlamaların üstesinden gelebilmek maksadıyla, sinyal dönüşümleri sırasında kaybolan enformasyonu telafi ederek ve öteleme-deǧişmezliǧi ve kararlılık saǧlayarak alternatif bir çözüm sunar. Bu çalışmada, müzik ses verisi tanıması için, siyam sinir aǧları karım modeli ile tümleşik bir şekilde saçılım dalgacık dönüşümü kullanılarak iki aşamalı bir ses parmak izi karakteristik/özellik çıkarım sistemi sunulmaktadır. Siyam sinir aǧı modelinin saǧladıǧı benzerlik muhafaza eden karımlar ses parmak izlerine denk gelmekte ve bu gömülü karım uzayında benzerlik mesafe ölçütü ile tanımlanmaktadır. Siyam sinir aǧları karım modeli, aynı müzik dosyalarının belirli bir komşuluk sınırı içerisinde görece hizalı bölütleri ve farklı müzik dosyalarının bölütleri kullanılarak, iki-katmanlı saçılım dalgacık dönüşümü katsayıları ile eǧitilmiştir. Önerilen sistem, günlük hayatta karşılaşılabilecek müzik ses verisi tespit & sorgu zorluklarını modelleyen çevresel gürültü altında, başarılı performans skorları elde etmektedir. Oldukça kompakt depolama alanı kullanarak, hem bire bir karşılaştırma yapılarak hem de depolama için yerellik-duyarlı karım (YDK) kullanılarak yüksek ROC AUC skorları elde ettiǧi gösterilmektedir.
Özet (Çeviri)
Audio fingerprinting systems have many real-world use-cases such as digital rights management/copyright detection, duplicated audio detection, untagged audio labelling or identify/query-by-example recognition systems. Nowadays, there are popular online platforms that offer identify/query-by-example music recognition services where users can query by snippets of recorded audio to retrieve the matched song metadata. The compact, robust and fast retrieving fingerprint design is the cornerstone of these systems. Although short-term Fourier transform and Mel-spectral representations are common tools that come to mind, these feature extraction methods suffer from being unstable and having somehow limited resolution. In order to overcome these challenges, scattering wavelet transform (SWT) provides an alternative solution to these limitations by recovering information loss, while ensuring translation invariance and stability. In this study, a two-stage audio fingerprint characteristic/feature extraction framework is introduced using SWT integrated with Siamese neural network hashing model for musical audio identification. Similarity-preserving hashes provided by the Siamese neural network model correspond to sound fingerprints and can be defined by a similarity distance metric in the embedded hashing space. The Siamese neural network hashing model was trained by two-layer scattering wavelet transform coefficients using relatively aligned segments of the same music files and segments of different music files. The proposed system achieves successful performance scores under environmental noise, modeling the challenges of detecting music and audio data that may be encountered in everyday life. Using very compact storage, it has been shown to achieve high ROC-AUC scores both by one-to-one comparison and by using locality-sensitive hashing (LSH) for content storage.
Benzer Tezler
- Ses parmakizi kullanılarak reklam tanıma
Commercial identification using audio fingerprinting
HÜSEYİN ÇABUK
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÖKHAN İNCE
- Audio watermarking, steganalysis using audio quality metrics, and robust audio hashing
Ses damgalama, ses kalite ölçütleri ile stego-analiz ve dayanıklı algısal kıyım
HAMZA ÖZER
Doktora
İngilizce
2005
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiPROF.DR. BÜLENT SANKUR
PROF.DR. EMİN ANARIM
- Çoklu ortam ses dosyalarının zaman-frekans yöntemiyle analizi ve karşılaştırılması
Comparison and analysis of multimedia audio files with time-frequency method
HAKAN UYANIK
Yüksek Lisans
Türkçe
2021
Elektrik ve Elektronik Mühendisliğiİnönü ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT KÖSEOĞLU
- Ses tabanlı otomatik medya takibi
Automatic audio based media monitoring
SİNAN SARICA
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÖKHAN İNCE
- Suç karineleri ve ilgili yenilikler İslam hukuku ve beşeri hukuk açısından karşılaştırmalı inceleme
Comparative analysis of presumptions of guilt and related innovations in terms of Islamic law and humanitarian law
GAILAN ADNAN TAWFEEQ ALSABBAGH
Yüksek Lisans
Türkçe
2023
HukukAnkara Sosyal Bilimler ÜniversitesiKamu Hukuku Ana Bilim Dalı
PROF. DR. ERDAL YERDELEN