Geri Dön

Saklı Markov model tabanlı müzik parçası tanıma sistemi

Hidden Markov model based song identification system

  1. Tez No: 243747
  2. Yazar: GÜNGÖR TUMAK
  3. Danışmanlar: YRD. DOÇ. DR. M. ELİF KARSLIGİL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Science and Technology, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 74

Özet

İçerik tabanlı müzik tanıma sistemleri müzik parçalarını müzik parmak izi olarak isimlendirilen imzalar şeklinde saklarlar. Müzik parmak izi, müzik kaydını özetleyen içerik tabanlı kompakt bir imzadır. Bu yöntem, müzik parçalarının herhangi bir tanım bilgisine ihtiyaç duymadan, formattan bağımsız olarak tanınmasına imkan sağlar. Bu tez çalışmasında bir müzik parçasını kısa bir bölümünden tanıyabilen içerik tabanlı bir Müzik Bilgi Erişimi Sistemi tasarlanmış ve gerçekleştirilmiştir.Sistemde, müzik parçalarından Mel Frekansı Kepstral Katsayıları (Mel Frequency Cepstrum Coefficents - MFCC) özellikleri ile tanımlayıcı akustik bilgiler çıkarılmış ve Saklı Markov Modeli (Hidden Markov Model ? HMM) ile modellenmiştir.MFCC özellikleri müzik verisine ilişkin özelliklerin ortaya konmasında etkili bir yöntemdir. HMM de ardışıl özelliklerin geliş sırası dikkate alınarak sınıflandırılmasını sağlayan bir yöntemdir. MFCC adımlarının müzik verisine uygulanmasıyla elde edilen 12 uzunluklu özellik vektörlerine delta özellikleri eklenerek 36 uzunluklu olarak kullanılmıştır. Özellik vektörleri gerekli normalizasyon işlemlerinin ardından modellemeye uygun hale getirilmiştir.Konuşma tanımada her HMM bir fonemi modeller. Fakat müzikte fonem kavramı yoktur. Çalışmada, konuşma tanımadaki fonemlere benzer yapıda müziği ifade eden akustik müzik birimlerinin eğitmensiz olarak HMM ile modellemesi yapılmıştır. Bu akustik müzik birimlerinin her biri ayrı bir müzik olayını ifade ettiği için AudioGen olarak ifade edilir. AudioGen'lerin eğitimi için eğitim verisinde bulunan müzik parçalarından rastgele alınmış 10-15 sn'lik bölümler birleştirilip toplu bir eğitim seti hazırlanmıştır. Oluşturulan eğitim setinden kümeleme ve HMM eğitim algoritmaları ile istenilen sayıda AudioGen üreten tasarım çalışması yapılmıştır. Her bir AudioGen 3 olaylı ergonomik HMM modelinden oluşmaktadır. Çalışmada 32 adet AudioGen kullanılmıştır.Müzik parçalarının parmak izlerinin üretilebilmesi için AudioGen'ler kullanılır. Müzik parçası küçük parçalara bölünür ve her parçaya kendisini oluşturmuş olma olasılığı en yüksek olan AudioGen atanır. Müzik parçasından dakikada 800 AudioGen içerecek şekilde parmak izleri oluşturulur. Parmak izleri AudioGen'ler dizilimi şeklinde olduğu için AudioDNA olarak adlandırılır.Sistem, eğitim seti içerisinde bulunan müzik parçalarının, farklı kaynaklardan çalınan 10 saniyelik bölümlerinden tanıma yapılması deneysel kurgusu üzerine tasarlanmış ve test edilmiştir. Bu müzik parçası bölümleri için kısa AudioDNA'ler oluşturulur ve veritabanındaki müzik parçası parmak izleri ile karşılaştırılır. Tasarlanan müzik parmak izi yapısının canlı genlerine benzerliğinden ötürü karşılaştırma yöntemi olarak biyoinformatikte kullanılan Smith-Waterman gen hizalama algoritması kullanılmıştır. Dış kaynaktan gelen müzik verisinde ortam gürültüsünün etkisini azaltmak için bilgisayarın mikrofon portu ile müzik çalar arasından ses kablosu kullanılmıştır. Farklı deneysel kurgularla yapılan testlerde %60 -%87,5 arasında tanıma başarısı elde edilmiştir.

Özet (Çeviri)

Content based music information systems store songs in a compact fingerprints. At the core of the presented system is a fingerprint extraction system. An audio fingerprint is a content-based compact signature that summarizes an audio recording. Audio Fingerprinting technologies allow the monitoring of audio independently of its format and without the need of meta-data or watermark embedding. With this thesis a content based music information retrival(MIR) system is designed and implemented.On this purpose mel frequency cepstral coefficients (MFCC) feature extraction is used and feature vectors are classified by hidden markov models (HMM). MFCC is an effective feature extraction method for music information retrival and HMM can handle sequential feature vectors.Real valued MFCC feature vectors with 12 dimensions are firstly exracted from music signal. Delta features added vectors are used with 36 dimensions. After normalization step, feature vectors are used in modelling.In speech, the target for each HMM is a phoneme (or other phonetic related characteristic), but in music there are not such ?phonemes?. A way to define some properties for the units that can suit the music identification problem and to model with unsupervised HMM is presented. HMMs are named AudioGens. Training set is prepared from random selected 10-15 second of each song. Each AudioGen is 3 state ergonomic HMMs. 32 AudioGens are used for the system.AudioGens are used to create fingerprints from songs. Fingerprints are named AudioDNA because they are sequence of AudioGens. Fingerprints include 800 AudioGens in a minute of song.System is tested on 10 seconds music parts playing in a different source. Short AudioDNA fingerprints are extracted from these music parts and matched with AudioDNAs in the music fingerprint database. Music fingerprint scheme is similar with living being genes and Smith-Waterman gene sequence alignment algorithm is used for matching process. Direct cable connection between music player and computer microphone port is used to reduce environment noise. Recognition success ratio of system is between %60 and %87,5 with different test variations.

Benzer Tezler

  1. Content-based audio management and retrieval system for news broadcasts

    Haber yayınları için içerik tabanlı ses yönetim ve erişim sistemi

    EBRU DOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADNAN YAZICI

    YRD. DOÇ. DR. MUSTAFA SERT

  2. Saklı Markov model tabanlı sınıflandırıcıların geliştirilemesi

    Improvement of hidden Markov model based classifiers

    HARUN UĞUZ

    Doktora

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET ARSLAN

  3. Öğrenme ve çözümleme katmanlarından oluşan saklı Markov model tabanlı frekans kiplemeli sürekli dalga yayın tespiti

    Frequency modulated continuous wave emitter detection by using hidden Markov models composed of learning and decoding layers

    YILMAZ BAYINDIR

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Elektrik ve Elektronik MühendisliğiHacettepe Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YAKUP SABRİ ÖZKAZANÇ

  4. Fizyolojik süreçlerde model tabanlı yeni öğrenme yaklaşımları

    Model based learning algorithms based on physiological processes

    UĞUR AYAN

    Doktora

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. GALİP CANSEVER

  5. Recognition of occupational therapy exercises for cerebral palsy

    Serebral palsi hastalığına yönelik ergoterapi egzersizlerinin tanınması

    MEHMET FARUK ONGUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. UĞUR GÜDÜKBAY