Geri Dön

Multipart music transcription using deep neural networks

Derin öğrenme ağları ile çok sesli müzik transkripsiyonu

  1. Tez No: 939205
  2. Yazar: EMİN GERMEN
  3. Danışmanlar: PROF. DR. CAN KARADOĞAN
  4. Tez Türü: Doktora
  5. Konular: Müzik, Music
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Müzik Ana Bilim Dalı
  12. Bilim Dalı: Müzik Bilim Dalı
  13. Sayfa Sayısı: 125

Özet

Bu araştırma, karmaşık müzikal formları tanımlama ve yorumlama konusunda“eğitilmiş bir kulağın”işitsel yeteneklerini taklit etmek üzere tasarlanmış kapsamlı bir otomatik müzik transkripsiyonu modeli sunmaktadır. Çalışma, geleneksel Türk enstrümanları olan Kanun ve Ud'a odaklanarak, şimdiye kadar batı müziği enstrümanlarıyla ölçeklenmiş polifonik müzik transkripsiyonu ile ilgili zorluklara yanıt vermeyi amaçlamaktadır. Temel bir veri tabanı ve derin makine öğrenimi modelleri kullanılarak, geleneksel işitsel analiz ile modern hesaplamalı yaklaşımlar arasındaki boşluk doldurulmaya çalışılmıştır. Çalışma, temel işitsel görevleri simüle edebilen ve bu enstrümanların benzersiz tınısal ve armonik özelliklerini yakalayan sağlam, ancak basit bir korpus oluşturmanın önemine vurgu yapmaktadır. Bu araştırmanın önemli bir yönü, eğitilmiş bir kulağın temel algısal yetilerini taklit etmek için özel olarak tasarlanmış bir korpus geliştirilmesidir. Korpus, Kanun ve Ud tarafından çalınan sürekli tonlar, kromatik diziler ve rastgele müzikal motifler dahil olmak üzere sistematik müzikal nota kombinasyonlarını içermektedir. Bu kombinasyonlar, monofonik ve polifonik dokular ile örtüşen armonik etkileşimler gibi geniş bir müzikal senaryo yelpazesini simüle etmektedir. Basit tasarımına rağmen, korpus, iki enstrüman arasındaki dinamik etkileşimi ayrıntılı bir şekilde temsil ederek, hesaplamalı modellerin perde tanıma, tını ayırt etme ve armonik anlayışın kritik yönlerini öğrenmesini sağlamaktadır. Korpus oluşturma süreci, bireysel notaların ve kombinasyonlarının sistematik olarak kaydedilmesiyle başlamaktadır. Her kayıt, Kanun ve Ud'un parlak ve yankılı Kanun sesi ile karanlık ve yumuşak Ud tonunu vurgulayan geçici ve sürekli niteliklerini yakalamaktadır. Bu yapılandırılmış yaklaşım, aynı anda çalınan perdeleri tanımlamak ve örtüşen armonik yapılar arasında ayrım yapmak gibi gerçek dünya işitsel zorluklarını yansıtmasını sağlamaktadır. Rastgele desenlerin eklenmesi, korpusun gerçek dünyadaki müzikal performansları taklit etme yeteneğini daha da artırarak değişkenlik unsuru katmaktadır. Korpusta yakalanan karmaşık etkileşimleri analiz etmek ve transkripsiyonunu sağlamak için Derin Sinir Ağı (DNN) ve Evrişimli Sinir Ağı (CNN) geliştirilmiştir. Bu modeller, Kısa Zamanlı Fourier Dönüşümü (STFT), Sabit-Q Dönüşümü (CQT), Spektral Ağırlık Merkezleri (SC) ve Bant Enerji Oranı (BER) gibi dikkatle seçilmiş bir özellik seti ile eğitilmiştir. Her bir özellik, ses sinyallerinin zamansal, spektral ve enerjik özelliklerini temsil ederek verilerden anlamlı özniteliklerin çıkarılmasını sağlamaktadır. Bu özelliklerin entegrasyonu, modellerin nota başlangıç zamanlarını, armonik yapıları ve tınısal nüansları yakalamasına olanak tanımaktadır. DNN (Derin Sinir Ağı) mimarisi, her biri giriş verisinin çok boyutlu yapısını işlemek üzere optimize edilmiş altı katmandan oluşmaktadır. ReLU aktivasyon fonksiyonları ve softmax çıkış katmanı sayesinde model, üç oktav boyunca 37 farklı müzik notasını sınıflandırabilmektedir. Öte yandan, CNN (Evrişimli Sinir Ağı) modeli, spektrum görüntülerini analiz etmek için evrişim katmanlarından yararlanarak müzikal desenleri öğrenmeye alternatif bir yaklaşım sunar. CNN mimarisi, ses sinyallerinin görsel temsilleri olan perde konturları ve armonik yapıları tanımada özellikle etkilidir ve bu yönüyle DNN modeline değerli bir tamamlayıcılık sağlar. Zaman ekseninde elde edilen çok sesli ses sinyallerinden öznitelikler çıkarıldıktan sonra, bu özniteliklerin belirgin biçimde değişim gösterdiği noktalar seslerin başlangıç noktasının irdelendiği onset analizi yoluyla incelenmiştir. Onset analizi, değişimlerin (transient) algılanması ile yakından ilişkili olmakla birlikte, esas olarak bir ses sinyalinde yeni bir ses olayının başladığı anı kesin olarak belirlemeye odaklanır. Onset, sessizlikten ya da önceki bir sesin bitiminden yeni bir ses olayına geçişi ifade eden kritik bir zaman damgasıdır. Bu belirlenen başlangıç noktalarında yer alan enstrümantal notalar ve bunların sürekliliği, daha önce eğitilmiş modeller aracılığıyla analiz edilerek çözümlenmiştir. Böylece, karmaşık ve çok katmanlı ses sinyalleri içerisinden ilgili enstrümana ait notaların ayrıştırılması ve doğru biçimde tanımlanması sağlanmıştır. Ud ve Kanun gibi geleneksel enstrümanlarda, akustik olarak tınının uzadığı (sustain) ses sürelerinin sınırlı olması, çalınan eserlerde nota zaman değerlerinin algılanandan uzun olmasına rağmen bu seslerin model tarafından es (sessizlik) olarak yorumlanmasına neden olmuştur. Bu durumu düzeltmek amacıyla, sezgisel (heuristik) bir yöntem geliştirilmiş ve veri istatistiklerinden yararlanılarak sistemin es olarak değerlendirdiği zamansal birimler, olası nota sürelerine daha yakın şekilde yeniden yorumlanmıştır. Böylece, nota sürelerinin daha gerçekçi biçimde temsil edilmesi sağlanmış ve genel transkripsiyon doğruluğunda anlamlı bir iyileşme elde edilmiştir. Bu çerçeve, Kanun ve Ud tarafından çalınan iki bölümlü müziğin transkripsiyonunda yüksek doğruluk elde ederek önemli bir başarı göstermiştir. Basit yapısına rağmen, bu enstrümanların temel armonik ve melodik özelliklerini yakalamada etkili olmuştur. Çalışma, karmaşık mikrotonal ölçeklere sahip Makam müziği gibi daha ileri müzikal çerçevelerin transkripsiyonu için sağlam bir temel sağlamaktadır. Araştırma, müzikoloji, işitsel bilim ve makine öğrenimi alanlarında geniş etkilere sahiptir. Geleneksel müzikal uygulamaları modern hesaplamalı araçlarla birleştirerek, kültürel açıdan bilgilendirilmiş işitsel sistemlerin geliştirilmesine katkıda bulunmaktadır. Ayrıca, bu çalışmada geliştirilen korpus ve modeller, müzisyenler, eğitimciler ve araştırmacılar için değerli bir kaynak olarak hizmet ederek, çeşitli müzikal geleneklerin daha iyi anlaşılmasını ve Batı ekseni dışındaki müziğin dijital formatlarda erişilebilirliğini artırmaktadır. Bu çalışma, temel korpus tasarımını ileri makine öğrenimi teknikleriyle birleştirmenin, sağlam ve doğru müzik transkripsiyonu elde etmek için potansiyelini göstermektedir. Kanun ve Ud üzerine odaklanarak, Batı formunun dışındaki müzikal formların müzik transkripsiyonunun benzersiz zorluklarını ele almak için kültürel açıdan özel veri setlerinin önemini vurgulamaktadır. Önerilen çerçeve, eğitilmiş bir kulağın temel işitsel yeteneklerini başarılı bir şekilde taklit etmenin yanı sıra, karmaşık müzikal sistemler için gelecekteki araştırmalara ölçeklenebilir bir temel sunmaktadır.

Özet (Çeviri)

This research presents a comprehensive framework for automatic music transcription, specifically designed to replicate the auditory capabilities of a“trained ear”in identifying and interpreting complex musical interactions. Traditional Turkish instruments, Qanun and Oud, are used as the focal point of this study, addressing challenges associated with polyphonic music transcription in non-Western musical contexts. Using a foundational corpus and advanced machine learning models, the research aims to bridge the gap between traditional auditory analysis and contemporary computational approaches. The study emphasizes the importance of crafting a robust yet basic corpus capable of simulating essential auditory tasks while capturing the unique timbral and harmonic characteristics of these instruments. A pivotal aspect of this research is the development of a specialized corpus designed to emulate the core perceptual abilities of a trained ear. The corpus incorporates systematic combinations of musical notes played by Qanun and Oud, including sustained tones, chromatic sequences, and randomized patterns. These combinations simulate a wide spectrum of musical scenarios, encompassing monophonic and polyphonic textures as well as overlapping harmonic interactions. Despite its basic design, the corpus provides a detailed representation of the dynamic interplay between the two instruments, enabling computational models to learn critical aspects of pitch recognition, timbral distinction, and harmonic understanding. The corpus generation process begins with the systematic recording of individual notes and their combinations. Each recording captures the transient and sustained qualities of the Qanun and Oud, highlighting their contrasting timbres, the bright and resonant sound of the Qanun versus the dark and mellow tone of the Oud. This structured approach ensures that the data set reflects real-world auditory challenges, such as identifying simultaneous pitches and distinguishing between overlapping harmonic structures. Inclusion of randomized patterns introduces an element of variability, further improving the corpus' ability to mimic real-world musical performances. To analyze and transcribe the complex interactions captured in the corpus, a Deep Neural Network (DNN) and a Convolutional Neural Network (CNN) were developed. These models are trained using a carefully curated feature set, including the Short-Time Fourier Transform (STFT), Constant-Q Transform (CQT), Spectral Centroids (SC), and Band Energy Ratio (BER). Each characteristic contributes to a holistic representation of audio signals, capturing their temporal, spectral, and energetic characteristics. The integration of these features enables the models to extract meaningful insights from the data, such as note onset times, harmonic structures, and timbral nuances. The DNN architecture consists of six layers, each optimized to handle the multidimensional nature of the input data. Its ReLU activation functions and softmax output layer allow the model to classify 37 distinct musical notes across three octaves. Meanwhile, the CNN model leverages its convolutional layers to analyze spectrogram images, offering an alternative approach to learning musical patterns. The CNN architecture is particularly effective in identifying visual representations of audio signals, such as pitch contours and harmonic structures, making it a valuable complement to the DNN. Transient detection and onset analysis are critical components of this framework, providing the temporal precision necessary for accurate music transcription. Transients, characterized by rapid changes in amplitude and frequency, mark the beginning of new sound events, such as the attack phase of a note. Onset analysis further refines this process by pinpointing the exact start times of these events, enabling the models to capture intricate rhythmic and melodic details. In traditional instruments such as the Ud and Kanun, the acoustically limited sustain durations often led to a misinterpretation by the model, where sustained notes—despite being musically longer—were incorrectly classified as rests. To address this issue, a heuristic method was developed. By utilizing data-driven statistical analysis, the time segments misclassified as rests were reinterpreted to better align with plausible note durations. As a result, note lengths were represented more realistically, leading to a notable improvement in the overall transcription accuracy. The proposed framework has shown significant success in transcribing two-part music played by Qanun and Oud, achieving high accuracy in pitch and timbral recognition. The corpus, though basic in construction, has proven effective in capturing the essential harmonic and melodic characteristics of these instruments. This foundational work provides a solid foundation for further advancements in the transcription of more complex musical frameworks, such as Maqam music, which features intricate microtonal scales. Research has broad implications for the fields of musicology, auditory science, and machine learning. By bridging traditional musical practices with modern computational tools, the framework contributes to the development of culturally informed auditory systems, advancing the field of automatic music transcription. Furthermore, the corpus and models developed in this study can serve as valuable resources for musicians, educators, and researchers, fostering a deeper understanding of diverse musical traditions and enhancing the accessibility of non-Western music in digital formats. This study demonstrates the potential of combining basic corpus design with advanced machine learning techniques to achieve robust and accurate music transcription. By focusing on Qanun and Oud, the research highlights the importance of culturally specific datasets in addressing the unique challenges of non-Western music transcription. The proposed framework not only replicates the critical auditory capabilities of a trained ear, but also provides a scalable foundation for future research in complex musical systems. Through this work, significant progress has been made in bridging the gap between traditional auditory analysis and modern computational approaches, offering new avenues for exploring and preserving the rich diversity of the global musical heritage.

Benzer Tezler

  1. Systematization for harmonic practices in selpe technique

    Şelpe tekniğinde armonik uygulamalar için sistemleştirme yöntemi

    AHMET OZAN BAYSAL

    Doktora

    İngilizce

    İngilizce

    2020

    Müzikİstanbul Teknik Üniversitesi

    Müzik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERAY ALTINBÜKEN

  2. Müziğin nonstres testi ve anne anksiyetesi üzerine etkisi

    The effect of music on nonstress test and maternal anxiety

    HATİCE ERKUN DOLKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    HemşirelikKütahya Sağlık Bilimleri Üniversitesi

    Hemşirelik Ana Bilim Dalı

    YRD. DOÇ. DR. FATMA BAŞAR

  3. Müzik dinletisinin annenin NON stres test ve anksiyetesi üzerine etkisi

    The effect of music recital on the mother's NON-stress test and anxi̇ety

    HASRET BAŞKURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    HemşirelikYozgat Bozok Üniversitesi

    Hemşirelik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FİGEN ALP YILMAZ

  4. Bir kompozisyon tekniği olarak genişletilmiş tekseslilik

    Extended monophony as a compositional technique

    ARDA ERDEM

    Doktora

    Türkçe

    Türkçe

    2024

    MüzikANKARA MÜZİK VE GÜZEL SANATLAR ÜNİVERSİTESİ

    Müzikoloji Ana Bilim Dalı

    PROF. DR. HAKKI ALPER MARAL

  5. Demokrat Parti döneminde sanat (Müzik-tiyatro-sinema)

    The art in the Period of Democratic Party (Music-theatre-cinema)

    ELİF SUCUOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    TarihBilecik Şeyh Edebali Üniversitesi

    Tarih Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SELMA GÖKTÜRK ÇETİNKAYA