Geri Dön

Image to music: Cross-modal melody generation through image captioning

İmajdan müziğe: İmaj altyazısı ile çapraz modlu melodi üretimi

  1. Tez No: 745249
  2. Yazar: ALPER KAPLAN
  3. Danışmanlar: DOÇ. DR. DIONYSIS GOULARAS
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Psikoloji, Computer Engineering and Computer Science and Control, Psychology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Yeditepe Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Son yıllarda yapay öğrenmedeki ilerlemeler, hesaplama açısından yaratıcı sistemlerde de görülmüştür. Makine tarafından üretilen eserlere olan ilgi, yaratıcı modellerin bu şekilde gelişmesi için bir yol açmıştır. Ancak daha önceki yöntemler çoğunlukla tek modlu bir yaklaşımı araştırmış ve modlar arası öğrenme nispeten keşfedilmemiş kalmıştır. Bu nedenle, modlar arası yaratıcı modeller için modaliteler arasındaki doğrudan eşleme tam olarak araştırılmamıştır. Bu çalışma, görüntülerin özelliklerini doğrudan haritalandırarak, görüntüler aracılığıyla sembolik müzik üretmek için yeni bir metodoloji önermektedir. Önerilen yöntem iki alanın özelliklerini eşleştirmek için görüntü altyazısı yaklaşımını kullandığından, bir evrişimsel sinir ağları kodlayıcı ve derin yığınlı uzun-kısa süreli bellek kod çözücü temel modellerdir. Oluşturulan müzik, özel bir tür sınıflandırma modeli ve BLEU puanları hesaplamaları kullanılarak nicel olarak değerlendirilmiştir. Niteliksel değerlendirme, insan değerlendiricilerle bir melodi dinleme testini içerir. Sonuçlar, önerilen yöntemin müzik üretimi için iyi çalıştığını göstermektedir.

Özet (Çeviri)

Advances in machine learning in recent years have also been seen in computationally creative systems. Interest in machine-generated artifacts paved a way for creative models to evolve as such. But the earlier methods mostly explored a one-domain approach and cross-modal learning has stayed relatively unexplored. Thus, the direct mapping between modalities for cross-modal creative models is not fully explored. This work proposes a novel methodology for generating symbolic music through images by directly mapping their features. A CNN encoder and deep-stacked LSTM decoder are the base models as the proposed method uses the image captioning approach to map the two domains' features. The generated music is evaluated quantitatively by using a custom genre classification model and BLEU scores calculations. The qualitative evaluation involves a melody listening test with human evaluators. The results show that the proposed method works well for music generation.

Benzer Tezler

  1. Günümüz sanatında mitler

    Contanparary art in myth

    DENİZ KARTAL

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Güzel SanatlarMarmara Üniversitesi

    Resim Ana Sanat Dalı

    YRD. DOÇ. DR. DEVABİL KARA

  2. Sparse linear prediction models for radar imaging and classification

    Radar hedef görüntüleme ve sınıflandırma için seyrek doğrusal öngörü modelleri

    BAHAR ÖZEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. IŞIN ERER

  3. Eksik veri için seyrek gösterilimler ile radar görüntüleme

    Sparse representation radar imaging in the case of missed data

    NİHAT KOYUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. IŞIN ERER

  4. Hierarchical deep bidirectional self-attention model for recommendation

    Hiyerarşik çift yönlü öz dikkat tabanlı derin öğrenme tavsiye modeli

    İREM İŞLEK

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ

  5. Sparse coding based ensemble classifiers combined with active learning framework for data classification

    Veri sınıflandırma için aktif öğrenme çerçevesi ile birleştirilmiş ayrık kodlama tabanlı sınıflandırıcı toplulukları

    GÖKSU TÜYSÜZOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF YASLAN