An application of neural network-based music generation models in the context of modern and contemporary music
Nöral ağ bazlı müzik jenerasyon modellerinin modern ve çağdaş müzik bağlamında uygulaması
- Tez No: 614975
- Danışmanlar: DR. ÖĞR. ÜYESİ EMMANOUİL EKMEKTSOGLOU
- Tez Türü: Yüksek Lisans
- Konular: Müzik, Music
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Müzik Ana Bilim Dalı
- Bilim Dalı: Müzik Bilim Dalı
- Sayfa Sayısı: 93
Özet
Bu tezin amacı nöral ağ bazlı müzik jenerasyon modellerini farklı bir müzikal bağlamda test etmek ve bu modellerin çağdaş besteciler tarafından kompozisyona yardımcı bir araç olarak kullanılıp kullanılmayacağını anlamaktır. Yapılan deneylerden önce nöral ağların çalışma prensipleri ve tarihleri ile ilgili kısaca bilgi verilmiştir. Bu doğrultuda Project Magenta tarafından geliştirilen Performance RNN isimli bir model değişik dataset ve/ya da hiperparametreler ile üç kez eğitilmiştir. Söz konusu model dinamik bilgileri dikkate aldığından ve sekiz milisaniyeye kadar zaman aralıklarına duyarlı olduğundan hissiyat içeren performanslar yaratabilmektedir. Modeli eğitmek için kullanılan datasetteki dosyalar MIDI formatındadır ve bu formata ses dosyalarından Onsets and Frames isimli başka bir nöral ağ tarafından dönüştürülmüştür. Birinci deney için Messiaen'in bütün piyano eserleri kullanılmıştır. Bu eserler yaklaşık altı saat sürmektedir. Messiaen yazdığı müziklerde nispeten tutarlı bir dil kullanması ve geniş bir piyano repertuarı olması nedeniyle seçilmiştir. Modelin ilk deneyde kullanılan konfigürasyonu dinamik bilgileri dikkate almaktadır. Bu deney sonucunda elde edilen müziklerde Messiaen'in müziğini andıran özellikler bulunsa da model eğitiminin doğruluk derecesi yüzde 40 gibi düşük bir rakamda kalmıştır. Modelin nota içeriği olarak başarılı müzikler ürettiğini söylenebilse de aynı şeyi ritmik içerik ve formal yapı olarak söylemek mümkün değildir. Aynı dataset ikinci deney için de kullanılmış, fakat bu kez modelden dinamik içerik elenmiş ve datasetin küçük bir kısmı modeli doğrulamak üzere kenara ayrılmıştır. Ayrıca modelin öğrenme kapasitesine artırabilmek için nöral ağa ekstra bir katman eklenmiştir. Bu değişikliklerin sonucunda eğitim setinin doğruluk derecesinde küçük bir artış görülse de model doğrulama setinde iyi bir performans gösterememiştir. Bundan yola çıkarak modelin Messiaen'in müziklerini genelleyebilecek kadar iyi öğrenemediği söylenebilir. Bu deneyin ürettiği müziklere bakıldığında ritmik olarak daha kaotik yapılar görülmektedir. Nota içeriği olarak ise ilk deneye kıyasla ciddi bir gelişme gözlenmemiştir. Üçüncü deneyde datasete değişik bestecilerden çalışmalar eklenmiştir. Bu besteciler Self Organizing Map isimli bir nöral ağ modelinin yardımıyla seçilmiştir. Bu model yüksek boyutlu verilerin boyutunu düşürüp verileri aralarındaki benzerliklere göre görselleştirebilmektedir. Bu deneyde veri olarak ses dosyalarından spektral nitelikler elde edilmiştir. Bu sürecin sonunda her biri birer saat olmak üzere Stockhausen, Schönberg, Murail ve Ferneyhough'un piyano müzikleri datasetine eklenmiştir. Eğitim sonrası üretilen müziklere bakarak modelin bu eklemelere tepki verdiği söylenebilir. Bu konu ilgili bölümde birçok müzikal örnek üzerinden tartışılmıştır. Son deneyin dataseti yazarın kendi doğaçlamalarından oluşmaktadır. Bu deneyde elde edilen çıktılar bir piyano miniyatürünün bestelenmesinde kullanılmıştır. İlgili bölümde çıktıların kompozisyon bağlamında kullanımı detaylı bir biçimde ele alınmıştır. En son bölümde bu tarz çalışmalar için seçilen datasetin boyut ve içeriğinin önemi belirtilmiş, çağdaş müzik bağlamında verip toplamanın zorluğu tartışılmıştır. Son olarak, ses dosyalarının MIDI formatına transkripsiyonunu yapan modelin ve üretici modelde kullanılan kodlama biçiminin önemine kısaca değinilmiştir.
Özet (Çeviri)
The purpose of this thesis is to test the performance of the artificial neural network- based music generation models in a different musical context and to determine if they can be used as composition assistance tools by the contemporary composer. A brief explanation of the working principles and recent history of ANNs are given before moving onto the conducted experiments. For the purposes of the thesis, a model called Performance RNN, developed by Project Magenta, is trained three times with different datasets and/or hyperparameters. The model is capable of creating performances with feeling: it is sensitive to time intervals as small as eight milliseconds and it can process dynamic information. The datasets are in MIDI format and they are compiled from audio files with the help of another neural network model called Onsets and Frames, which transcribes raw audio files of piano music into MIDI files. For the first experiment a dataset of Messiaen's complete piano works is used, which spans over six hours. Messiaen is chosen because of his relative consistent musical language and large output of solo piano works. The configuration used takes dynamics into account. Several features reminiscent of Messiaen can be observed in the outputs, however, the training accuracy is as low as forty percent. The model performs well in terms of pitch content but struggles with rhythmic and formal structures. The same dataset is used for the second experiment, but this time the dynamics are eliminated and a small part of the dataset is set aside for validation. Also, the model is trained with an additional layer to increase its learning capacity. There is a slight improvement in accuracy of the test set, but the model does not do well on the validation test: it can not generalize over musical features of Messiaen's works. The outputs are rhythmically more chaotic and no drastic improvements are observed in the pitch content. For the third experiment the dataset is expanded with works by other composers. These composers are chosen with the help of a neural network model called Self Organizing Maps, which reduces the dimension of data and displays the similarities among them. In this case, the data is mostly spectral features extracted from audio files. In the end an hour of Stockhausen, Schönberg, Murail and Ferneyhough's piano music is added to the dataset. The model reacts to the addition of the works of these composers; various musical examples are given to address this reaction. The last experiment is run with a dataset of improvisations made by the author of the thesis. The outputs of this experiment are then used to compose a piano miniature. Compositional context is widely discussed in the related section. In the last section the importance of the size and content of the chosen dataset for these experiments is underlined and the difficulties of compiling a dataset of contemporary music is discussed. Finally, the impact made by the used transcription model and the encoding type used in the generation model is briefly mentioned.
Benzer Tezler
- Words as art materials: Generating paintings with sequential generative adversarial networks
Sanat materyali olarak kelimeler: Seri üretici çekişmeli ağlar ̇ile sanatsal resim üretimi
AZMİ CAN ÖZGEN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL
- Derin öğrenme ile süper çözünürlüklü radar görüntüleme
Super resolution radar imaging with deep learning
İREM FADİME ERİM
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik-Haberleşme Eğitimi Ana Bilim Dalı
PROF. DR. IŞIN ERER
- Novel fractional order calculus-based audio processing methods and their applications on neural networks for classification and synthesis problems
Kesirli mertebeden kalkülüs temelli yeni ses işleme yöntemleri ve bunların sinir ağları üzerinde sınıflandırma ve sentez problemlerine uygulanması
BİLGİ GÖRKEM YAZGAÇ
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MÜRVET KIRCI
- Hierarchical deep bidirectional self-attention model for recommendation
Hiyerarşik çift yönlü öz dikkat tabanlı derin öğrenme tavsiye modeli
İREM İŞLEK
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
- Yüz ifadesini algılayarak ruh hâlini dengeleyecek müzik öneren yapay zekâ tabanlı mobil uygulama geliştirilmesi
Developing an artificial intelligence-based mobile application that recommends music to balance mood by detecting facial expression
BERKE BARTUĞ SEVİNDİK
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Katip Çelebi ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DOÇ. DR. VAHİDE BULUT