Geri Dön

Context aware audio-visual environment awareness using convolutional neural network

Konvolüsyonel sinir ağı kullarak ses ve görüntü aracılığıyla ortam farkındalığı

  1. Tez No: 564136
  2. Yazar: GİRAY YILLIKÇI
  3. Danışmanlar: PROF. DR. İBRAHİM AKDUMAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: İletişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Uydu Haberleşmesi ve Uzaktan Algılama Bilim Dalı
  13. Sayfa Sayısı: 67

Özet

Bu tezde tıpkı yaşayan canlılarda olduğu gibi kulakların ve gözünlerin beraber çalışması elektronik ortamda gerçekleştirilmesi yapılmıştır. Çoğu gelişmiş canlıda olduğu gibi gözlerin görüş açısı 160 dereceyi geçmemektedir. 360 derece görme yetisinin olmaması beyinde görüntü işlemenin çok yük getirmesindendir. Gözlerin görmediği açılarda duyu organlarından yararlanarak ortam farkındalığı elde edilir. Tıpkı duyulan sese doğru görüş açımızın çevrilmesi gibi bu çalışmada canlılardaki duyuların beraber çalışması yaklaşımı araştırılmıştır. Duyulardan gelen bilgileri entegre ederek ortam farkındalığı edinmenin başlıca üç avantajı vardır. Öncelikle iki basit farklı ortam sensörünün beraber çalışarak yaptığı anlamlandırma yüksek başarımlı bir sensörün yapacağı anlamlandırmadan özellikle bilinmeyen ortamlarda daha yüksektir. Sistem bu şekilde daha esnekleşerek bilgi edinebilceği ortam yelpazesini genişletmektedir. İkinci olarak iki göreceli daha basit sensörün işlem yükü yüksek başarımlı bir sensörden daha az yük getirmektedir. Böylece dış ortamlarda daha uzun çalışabilir ve maliyeti daha düşük olmaktadır. Son olarak entegre çalışan sensörlerden biri devre dışı kalsa dahi ortamdan kısıtlı olsa da farkındalık alınabilmektedir ancak tek sensörlü sistemlerde olacak bir bozukluk tüm sistemin devre dışı kalmasına sebebiyet verecektir. Özellikle son zamanlarda teknolojiye artan ilgi ve kendin yap akımı ile bir çok işlemci ve benzeri elektronik ürünler kolaylıkla bulunabilir hale gelmiştir. Buna ek olarak gerçek zamanlı görüntü ve ses işleme algoritmaları son yıllarda büyük yol almış olması ve tasarımdan prototiplemeye geçişte zaman-maliyet ikilisini aşağa çekilmesi tasarımları pratikte gerçeklemeye imkan vermiştir. Çalışmada yüksek başarımlı görüntü işleyen yapay sinir ağları algoritmalarına işitsel bilgi öncülük ettirilerek farkındalık arttırımı sağlayan bir akış anlatılmaktadır. Çoklu mikrofon seti ile yön ve içerik tanıma yapılmaktadır. Mantık akışında öncelikle çevre görültüsü dinlenerek sınıflandırılacak sesler arasında takip edilmesi gereken bir ses duyuldugunda, sesin geliş açısı çoklu mikrofon seti ile belirlenir. Sonrasında aranan sesin kaynağını görsel olarak bulabilmek için servoya bağlı kamera hesaplanan yöne doğru döndürülür. Ses kaynağına aday görsel objeler bu mekanizma ile diğer aday objelerden ayıklanarak daha yüksek başarımlı tanıma ve takip yapabilme olanağı sağlar. Ses ve görüntü sınıflandırma için aynı Konvolüsyon Sinir Ağı kullanılarak sisteme yüklenen hesaplama yükü en elverişli halde kullanılır. Bu amaç için ses bilgisi spektrogramlara çevirilerek sesin resimselleştirilmesi sağlanmıştır. Tüm sınıflandırma ve obje tespitleri gerçek zamanlı yapılmaktadır. Gelen ses yönünün tahmini yapmak için bir düzlemde bir karenin dört köşesine yerleştirilmiş 4 mikrofondan yararlanılır. Gelen sesin yönünü belirlemesi mikrofonlara aynı ses sinyalinin varış zamanlarının farkının hesaplanmaktadır. Yalnız belirtilmelidir ki bu yaklaşım sadece impals sesler için yeterliyken süreklilik gösteren seslerin aynı başarımla yön tahmini yapabilmek için mikrofonlara varan seslerin çapraz korelasyonlarının hesaplanması gerekmektedir. Böylelikle sesin geldiği yön bu sayede doğrulukla hesaplanır. Sesin kaynağından çıkış zamanı bilinmediğinden koordinatı hesapanamaz ancak geldiği açı hesaplanabilmektedir. Buna ek olarak ses dalgalarını geliş açısının tespitini olumsuz etkileyecek olan yankı ve gürültü giderme algoritmaları prototiplemede kullanılan Respeaker V2 kartında bulunmaktadır. Bu sayede alt paragrafta anlatılan ses sınıflandırılması için temiz veri sağlamaktadır. Ses tanıma sistemi algoritması için öncelikle seslerin zaman boyutunda kayıt edilmiş ses örneklerinin yapay zeka eğitimi için resimleştirilmesi gerekmektedir. Resimleştirmenin başlıca nedeni kullanılan konvolüsyonel sinir ağının iki boyutlu tercihen renkli girdilerle çalışmasıdır. Ses örnekleri olarak UrbanSoun8K veriseti kullanılmış olup 10 farklı sınıftan oluşan örnekler içerir. Bu 10 sınıf şöyledir. Köpek havlaması, siren, çalışan motor, oynayan çocuklar, klima, silah, çekiç, korna, matkap ve sokak müziği seslerinden oluşmaktadır. Resimleştirme işlemleri için belli adımların izlenmesi gerekmektedir. Zaman boyutunda kayıt edilmiş sesler 4 saniye zarfına sığacak şekilde ayarlanır. Ayrıca seslerin hepsi 16 bitlik wav formatı olacak şekilde saklanmıştır. Ayarlanan ses örnekleri insan kulağının daha hassas olduğu Mel frekanslarındaki frekans aralıklarının ses örneklerinde yükseltilmesi ve daha az belirginlikteki frekansların ise sönümlenmesini yapar. Sonrasında Mel frekanslarının güçlendirildiği ses örnekleri 50 milisaniyelik bölümler halinde kısa süreli Fourier dönüşümünden geçirilir. Fourier dönüşümünden geçirilen bölümler arka arkaya eklenerek ses örneğinin spektrogramı çıkartılır. Spektrogramların şiddet aralıklarını normalize etmek için doğrusal şiddet gösteriminden logaritmik şiddet gösterimine çevrilir. Logaritmik çevrimi yapılan sesler resimsel tanımada kullanılan konvolüsyonel sinir ağı eğitimi için kullanılır. Çalışmada obje tespiti kısmı ses sınıflandırılmasında olduğu gibi konvolüsyonel sinir ağı kullanılarak yapılmıştır. Çalışma kapsamında tek görüntü karesinden çoklu kutu tespitinden yararlanılmıştır. Bu yöntemle görüntü değişik boyutlardaki özellik çıkarıcılarla etkileştirilerek büyükten küçüğe ve uzundan yayvana matriksler oluşturulur. Oluşturulan matrikslerin içinde obje adaylarının puanlamaları çıkarılır ve en yüksek puana ait obje bahsi geçen pencere içinde bulunmuştur çıkarımı yapılır. Obje tespitinde ek olarak görüntüye bir sınıf atamaktansa görüntü üzerinde çeşitli boyutlarda kullanılan pencere methodu ile bulunan obje adayları birden fazla farklı objenin aynı görüntü üzerinde bulunması sağlar. Ancak aynı obje için birden fazla bulunan obje adaylarının ayıklanması gerekmektedir. Bu amaçla yakın komşuluklardaki ve aynı objeye ait obje adaylarının en yüksek yüzdelisi dışındaki diğer obje adayları görmezden gelinir. Yapılan sadeleştirme işlemi ile aynı objenin birden fazla işaretlenmesinin önüne geçilir. Kameradan alınan video akışında tespit edilen objeler saklanır ve ses eşleştirilmesi için program akışına dahil edilir. Çalışma akışındaki son aşama sınıflandırılan ses ile bulunan objenin birbirlerine etiketlenmesidir. Ses sınıfları ve obje tipleri arasında kurulan ilişki matriksine bakılarak önceklikle ses sınıfına ait obje tipi belirlenir sonrasında kameranın döndüğü yönde bahsi geçen objenin olup olmadığı kontrol edilir, eğer obje bulunursa bulunan obje ilişki matriksiyle eşlendirilir. Sonuç olarak eşleme ses sınıfı ve obje tipi olarak ekrana bastırılır. Eşleştirilme başarısız olsa dahi sınıflandırılan ses ve bulunan obje yazdırılır ancak eşleme oluşmadığı yazdırılır.

Özet (Çeviri)

In this thesis, in most intelligent machine perception, sensing approaches require a novel approach to diminish computational burden over the system to increase the outcome object detection, object tracking, developed to understand the environment. The main area of the study is to give real-time audio classification whose outputs would feed to the visual classification algorithms designed in the form of active audio-visual perception. The detection, localization, and tracking of the sound source are the main goal of audition and vision perception independently. Multiple signal classification based on Convolutional Neural Network method has employed for sound source localization and classification in audition modality. An audio-visual pipeline has introduced for enhancing the awareness of visual classification and tracking by introducing auditory classification and direction estimation for the sound emitters in the surrounding environment, for this purpose, trending visual machine learning algorithms that have very high successive rates selected as the one end of the pipeline. At the starting of the pipeline, the surrounding sounds have classified, and if any of them are subject to track, the camera mounted servo rotated to the estimated direction for looking any object that would be the source emitter. The pipeline uses the very same CNN for also visual object detection which optimizes the computational load on the overall system.

Benzer Tezler

  1. Çevresel sanat eğitiminde ekolojik sürdürülebilirliğe yönelik a/r/tografik bir sorgulama

    An a/r/tographic inquiry into ecological sustainability in environmental art art education

    BAYRAM DAĞLI

    Doktora

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimGazi Üniversitesi

    Güzel Sanatlar Eğitimi Ana Bilim Dalı

    PROF. ŞENİZ AKSOY

  2. Social behavior learning for an assistive companion robot

    Yardımcı robotlar için sosyal davranış öğrenimi

    PINAR ULUER

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  3. Gazi Üniversitesi, Meslek Eğitim Fakültesi bünyesindeki Ülker Muncuk müzesindeki geleneksel işlemeli ürünlerin değerlendirilmesi ve eğitime katkısının belirlenmesi üzerine biraraştırma

    Evaluation of the traditional embroidered products at the museum of Ülker Muncuk, at Gazi University, Faculty of Vocational Education and determination of their contribution to education

    SİBEL AKÇİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    El SanatlarıGazi Üniversitesi

    El Sanatları Eğitimi Ana Bilim Dalı

    YRD. DOÇ. YAKUDE DEVELİOĞLU

  4. Mesleki ve teknik eğitimde sanal eğitim uygulaması: Beklentiler ve öğrenci başarısına etkisi

    Application of virtual training in vocational and technical education: expectations of students and trainers, its effect on the performance of students

    MEHMET ŞAHİN

    Doktora

    Türkçe

    Türkçe

    2010

    Eğitim ve ÖğretimSelçuk Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. YAVUZ ERİŞEN

  5. Structure and interaction in Cretan leaping dances: Connecting ethnography and computational analysis

    Girit danslarının yapısı ve etkileşimi: Etnoğrafya ve bilişimsel analizin bağlantısı

    ANDRE HOLZAPFEL

    Doktora

    İngilizce

    İngilizce

    2018

    Müzikİstanbul Teknik Üniversitesi

    Müzik Ana Bilim Dalı

    DOÇ. DR. EMİNE ŞİRİN ÖZGÜN TANIR