Geri Dön

Automated audio captioning with acoustic and semantic feature representation

Akustik ve anlamsal öznitelik temsili ile otomatik ses başlıklandırma

  1. Tez No: 784956
  2. Yazar: AYŞEGÜL ÖZKAYA EREN
  3. Danışmanlar: DOÇ. DR. MUSTAFA SERT
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 127

Özet

Günümüzde gelişen teknoloji ve artan veri miktarı ile birlikte ses verileri de hızla artmaktadır. Bu nedenle, ses verilerinin içeriğinin insan benzeri sistemler tarafından anlaşılmasına ve yorumlanmasına ihtiyaç duyulmaktadır. Genel olarak ses işleme çalışmaları konuşma tanıma, ses olay/sahne tanıma ve ses etiketlemeye odaklanmıştır. Konuşma tanıma, konuşulan bir dili metne çevirmeyi amaçlar. Ses olay/sahne tanıma ve etiketleme sistemleri, bir ses kaydına tek veya birkaç kelimelik açıklamalar yapar. Otomatik ses başlıklandırma ise önceki çalışmalardan farklı olarak çevresel bir ses kaydını doğal bir dil cümlesi ile açıklamayı amaçlar. Bu tez, ses işleme, görüntü/video ve ses başlıklandırma üzerine ayrıntılı bir literatür çalışmasının ardından ses başlıklandırma performansını iyileştirmek için anlamsal bilgileri kullanmanın önemini araştırmaktadır. Bu bağlamda, otomatik ses başlıklandırma için dilbilimsel (özne-fiiller), konu modeli, bilgi çizgesi ve akustik olaylar kullanılarak sayısal modeller geliştirilmiştir. Metodoloji olarak, farklı özniteliklerin, kelime gömme yöntemlerinin, derin öğrenme mimarilerinin ve veri kümelerinin katkıları ve semantik bilginin ses başlıklandırmaya katkısı incelenmiştir. Çalışmalar kapsamında iki adet ses başlıklandırma veri seti kullanılmıştır. Tezde önerilen modellerin başarısı, aynı veri setlerini kullanan çalışmalarla karşılaştırılmıştır. Sonuçlar, önerilen yöntemlerin otomatik ses başlıklandırma performansını iyileştirdiğini ve literatürle karşılaştırılabilir sonuçlar verdiğini göstermektedir.

Özet (Çeviri)

Today, audio data is increasing rapidly with the developing technology and the increasing amount of data. Therefore, there is a need for understanding and interpretation of the content of audio data by human-like systems. Generally, audio processing studies have focused on speech recognition, audio event/scene, and tagging to process audio data. Speech recognition aims to translate a spoken language into text. Audio event/scene and tagging studies make single or few-word explanations of an audio recording. Unlike the previous studies, automatic audio captioning aims to explain an environmental audio record with a natural language sentence. This thesis explores the importance of using semantic information to improve audio captioning performance after a detailed literature study on audio processing, image/video, and audio captioning. In this context, computational models have been developed using linguistic knowledge (subject-verbs), topic model, knowledge graphs, and acoustic events for audio captioning. As a methodology, the contributions of different features, word embedding methods, deep learning architectures and datasets, and the contribution of semantic information to audio captioning were examined. Within the scope of the studies, two publicly open audio captioning datasets were used. The success of the models proposed in the thesis was compared with the studies using the same datasets. The results show that the proposed methods improve AAC performance and give results comparable to the literature.

Benzer Tezler

  1. Automated captioning of image and audio for visually and hearing impaired

    Görme ve işitme engelliler için otomatik görüntü ve ses altyazılama

    ÖZKAN ÇAYLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİzmir Katip Çelebi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. VOLKAN KILIÇ

    DOÇ. DR. AYTUĞ ONAN

  2. Speaker verification for microphone suitable data and audio diarization for Turkish broadcast news

    Mikrofon verisine uygun konuşmacı doğrulama ve Türkçe haber programları için işitsel bölütleme

    OĞUZ YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

  3. Enhance the performance of preprocessing techniques by using artificial intelligence algorithms

    Yapay zeka algoritmaları kullanarak ön işleme tekniklerinin performansını artırın

    HUMAM QUTAIBA ABDULRAHMAN AL-DOORI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ABDULLAHİ ABDUL IBRAHIM

  4. The Turkish lip reading using deep learning method

    Derin öğrenme yöntemi ile Türkçe dudak okuma

    ALİ BERKOL

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiBaşkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HAMİT ERDEM

  5. Automated environmental proconditioning for efficient plant growth

    Başlık çevirisi yok

    ULUS ÇEVİK

    Yüksek Lisans

    İngilizce

    İngilizce

    1990

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGaziantep Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CELAL KORAŞLI