Gauss karışım modelleri kullanılarak ses imzalarının sınıflandırılması

Classification of audio fingerprints using Gaussian mixture models

Tez No: 166501
Yazar: KADİR HERKİLOĞLU
Danışmanlar: PROF. DR. BİLGE GÜNSEL
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2005
Dil: Türkçe
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 69

Özet

GAUSS KARIŞIM MODELLERİ KULLANILARAK SES İMZALARININ SINIFLANDIRILMASI ÖZET Bu tez çalışması kapsamında, Gauss karışım modelleri kullanılarak ses imzalarının sınıflandırılması gerçeklenmiştir. Geliştirilen sistemde, daha önceden sisteme eğitim için verilen ses verileri kullanılarak, ses imzalan modellenmekte ve sistem girişine verilen 2 saniyelik ses bölütünün hangi parçaya veya hangi müzik türüne ait olduğu yüksek hızla, yüksek doğruluk oranıyla ve düşük yanlış alarm oranıyla bulunabilmektedir. Geliştirilen sistemle literatürde bulunan sistemlerle aynı tanıma performansına ulaşılmıştır. Tez kapsamında ses imzası modelleme Gauss Karışım Modelleri kullanılarak yapılmış ve imzalar Bayes sınırlandırıcı ile sınıflandırılmıştır. Karşılaştırma açısından testler Destek Vektör Makinesi kullanılarak ses imzalarını öğrenen ve sınıflandıran bir sistem için de tekrarlanmıştır. Testler kapsamında tür ve parça ayrımı performansları incelenmiştir. Bunlara ek olarak sistemin, mp3 sıkıştırma, kanal gürültüsü ekleme, zamanda sıkıştırma ve 10kHz kesim frekanslı alt geçiren süzgeçle filtreleme ataklarına karşı gürbüzlüğü test edilmiş ve sonuçlan tablolar ve grafikler halinde sunulmuştur. Buna göre sistem, mp3 sıkıştırma atağında 128kBit'lik kodlamaya değerine kadar gürbüzlüğünü koruyabilirken, 40dB'lik işaret/gürültü oranının altındaki oranlarda eklenen Beyaz Gauss Gürültüsüne karşı gürbüzlüğünü koruyamamaktadır. Buna karşın zamanda sıkıştırma atağına karşı %4'lük sıkıştırma oranında bile gürbüzlüğünü kaybetmemektedir. Zamanda sıkıştırma işlemine karşı gürbüzlük öznitelik-tabanlı sınıflandırma ile ses tanımanın literatürde bulunan eğiticisiz siztemlere karşı önemli bir üstünlüğüdür. Geliştirilen ses imzası tanıma sisteminin işlemsel karmaşıklığı düşük olup hızlı modelleme ve sınıflandırma yapabildiği gibi arama veritabanının kolaylıkla güncellenmesine olanak tanır. Bu da geniş müzik veritabanlarının kolaylıkla işlenmesine olanak sağlamaktadır. ıx

Özet (Çeviri)

CLASSIFICATION OF AUDIO FINGERPRINTS USING GAUSSIAN MIXTURE MODELS SUMMARY In this thesis, a system that classifies audio fingerprints using Gaussian Mixture Models classifier, is proposed. The system has the ability to decide the music clip and the music type of a 2 seconds long audio segment, fast, with a high accuracy and with low positive false alarm ratio. The proposed system brings an innovation by providing robustness to time compression attacks to which most of the current systems are not robust. The classifier gives the results much faster than ordinary searching algorithms with a high identification percentage. 2 second granularity is the second innovation proposed in this thesis work. This level of granularity is succeeded with keeping the high performance and it is below the MPEG21 standard. The performance tests for identification of audio fingerprints are performed by using GMM classifier. However, in order to compare the results the same tests with the same conditions are repeated by using Support Vector Machine. In these tests, the ability to identify the clip and the music type of the segments is observed. Furthermore, the robustness of the system to mp3 compression, White Gaussian channel noise adding, time compression, and 10kHz low pass filtering attacks is examined. According to the results the proposed system is robust mp3 compression better than 128kBit coding, Gaussian noise above 40dB SNR, and among the best it is robust to time compression even though the ratio is %4. However, it is not robust to 0-lOkHz low pass filtering. Beyond these, the proposed system has a low computational complexity and can easily be updated. So it provides fast and automatic process of large audio databases.

Benzer Tezler

Tez No
338825
Multivariate modeling and diagnostic classification of pulmonary sounds
Solunum seslerinin çok değişkenli modellenmesi ve tanıya yönelik sınıflandırılması
İPEK ŞEN
Doktora
İngilizce
2013
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ZEYNEP YASEMİN KAHYA
DOÇ. DR. MURAT SARAÇLAR
Tez No
305147
Audio event detection on tv broadcast
Televizyon yayınlarında ses olay tespiti
EZGİ CAN OZAN
Yüksek Lisans
İngilizce
2011
Elektrik ve Elektronik Mühendisliği Orta Doğu Teknik Üniversitesi
Elektrik ve Elektronik Mühendisliği Bölümü
DOÇ. DR. TOLGA ÇİLOĞLU
Tez No
276570
A comparision of different classification systems for automatic singer identification
Otomatik şarkıcı tanımada farklı sınıflandırma sistemlerinin karşılaştırılması
EMRAH KARAMAN
Yüksek Lisans
İngilizce
2009
Elektrik ve Elektronik Mühendisliği Dokuz Eylül Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. DAMLA KUNTALP
Tez No
129408
Effects of root cepstral coefficients on speaker recognition performance over telephone channels
Kök kepstral katsayılarının telefon hatları üzerinde konuşmacı tanıma performansına etkisi
MUSTAFA SELVİ
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Sistem ve Kontrol Mühendisliği Ana Bilim Dalı
PROF. DR. FİKRET GÜRGEN
Tez No
452742
Automatic audio emotion detection based on perceptual features
Algısal öznitelikler kullanarak sesten otomatik duygu durum tanıma
MEHMET CENK SEZGİN
Doktora
İngilizce
2013
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL KALYONCU

Geri Dön