Context aware audio-visual environment awareness using convolutional neural network

Konvolüsyonel sinir ağı kullarak ses ve görüntü aracılığıyla ortam farkındalığı

PDF İndir

Tez No: 564136
Yazar: GİRAY YILLIKÇI
Danışmanlar: PROF. DR. İBRAHİM AKDUMAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Bilişim Enstitüsü
Ana Bilim Dalı: İletişim Sistemleri Ana Bilim Dalı
Bilim Dalı: Uydu Haberleşmesi ve Uzaktan Algılama Bilim Dalı
Sayfa Sayısı: 67

Özet

Bu tezde tıpkı yaşayan canlılarda olduğu gibi kulakların ve gözünlerin beraber çalışması elektronik ortamda gerçekleştirilmesi yapılmıştır. Çoğu gelişmiş canlıda olduğu gibi gözlerin görüş açısı 160 dereceyi geçmemektedir. 360 derece görme yetisinin olmaması beyinde görüntü işlemenin çok yük getirmesindendir. Gözlerin görmediği açılarda duyu organlarından yararlanarak ortam farkındalığı elde edilir. Tıpkı duyulan sese doğru görüş açımızın çevrilmesi gibi bu çalışmada canlılardaki duyuların beraber çalışması yaklaşımı araştırılmıştır. Duyulardan gelen bilgileri entegre ederek ortam farkındalığı edinmenin başlıca üç avantajı vardır. Öncelikle iki basit farklı ortam sensörünün beraber çalışarak yaptığı anlamlandırma yüksek başarımlı bir sensörün yapacağı anlamlandırmadan özellikle bilinmeyen ortamlarda daha yüksektir. Sistem bu şekilde daha esnekleşerek bilgi edinebilceği ortam yelpazesini genişletmektedir. İkinci olarak iki göreceli daha basit sensörün işlem yükü yüksek başarımlı bir sensörden daha az yük getirmektedir. Böylece dış ortamlarda daha uzun çalışabilir ve maliyeti daha düşük olmaktadır. Son olarak entegre çalışan sensörlerden biri devre dışı kalsa dahi ortamdan kısıtlı olsa da farkındalık alınabilmektedir ancak tek sensörlü sistemlerde olacak bir bozukluk tüm sistemin devre dışı kalmasına sebebiyet verecektir. Özellikle son zamanlarda teknolojiye artan ilgi ve kendin yap akımı ile bir çok işlemci ve benzeri elektronik ürünler kolaylıkla bulunabilir hale gelmiştir. Buna ek olarak gerçek zamanlı görüntü ve ses işleme algoritmaları son yıllarda büyük yol almış olması ve tasarımdan prototiplemeye geçişte zaman-maliyet ikilisini aşağa çekilmesi tasarımları pratikte gerçeklemeye imkan vermiştir. Çalışmada yüksek başarımlı görüntü işleyen yapay sinir ağları algoritmalarına işitsel bilgi öncülük ettirilerek farkındalık arttırımı sağlayan bir akış anlatılmaktadır. Çoklu mikrofon seti ile yön ve içerik tanıma yapılmaktadır. Mantık akışında öncelikle çevre görültüsü dinlenerek sınıflandırılacak sesler arasında takip edilmesi gereken bir ses duyuldugunda, sesin geliş açısı çoklu mikrofon seti ile belirlenir. Sonrasında aranan sesin kaynağını görsel olarak bulabilmek için servoya bağlı kamera hesaplanan yöne doğru döndürülür. Ses kaynağına aday görsel objeler bu mekanizma ile diğer aday objelerden ayıklanarak daha yüksek başarımlı tanıma ve takip yapabilme olanağı sağlar. Ses ve görüntü sınıflandırma için aynı Konvolüsyon Sinir Ağı kullanılarak sisteme yüklenen hesaplama yükü en elverişli halde kullanılır. Bu amaç için ses bilgisi spektrogramlara çevirilerek sesin resimselleştirilmesi sağlanmıştır. Tüm sınıflandırma ve obje tespitleri gerçek zamanlı yapılmaktadır. Gelen ses yönünün tahmini yapmak için bir düzlemde bir karenin dört köşesine yerleştirilmiş 4 mikrofondan yararlanılır. Gelen sesin yönünü belirlemesi mikrofonlara aynı ses sinyalinin varış zamanlarının farkının hesaplanmaktadır. Yalnız belirtilmelidir ki bu yaklaşım sadece impals sesler için yeterliyken süreklilik gösteren seslerin aynı başarımla yön tahmini yapabilmek için mikrofonlara varan seslerin çapraz korelasyonlarının hesaplanması gerekmektedir. Böylelikle sesin geldiği yön bu sayede doğrulukla hesaplanır. Sesin kaynağından çıkış zamanı bilinmediğinden koordinatı hesapanamaz ancak geldiği açı hesaplanabilmektedir. Buna ek olarak ses dalgalarını geliş açısının tespitini olumsuz etkileyecek olan yankı ve gürültü giderme algoritmaları prototiplemede kullanılan Respeaker V2 kartında bulunmaktadır. Bu sayede alt paragrafta anlatılan ses sınıflandırılması için temiz veri sağlamaktadır. Ses tanıma sistemi algoritması için öncelikle seslerin zaman boyutunda kayıt edilmiş ses örneklerinin yapay zeka eğitimi için resimleştirilmesi gerekmektedir. Resimleştirmenin başlıca nedeni kullanılan konvolüsyonel sinir ağının iki boyutlu tercihen renkli girdilerle çalışmasıdır. Ses örnekleri olarak UrbanSoun8K veriseti kullanılmış olup 10 farklı sınıftan oluşan örnekler içerir. Bu 10 sınıf şöyledir. Köpek havlaması, siren, çalışan motor, oynayan çocuklar, klima, silah, çekiç, korna, matkap ve sokak müziği seslerinden oluşmaktadır. Resimleştirme işlemleri için belli adımların izlenmesi gerekmektedir. Zaman boyutunda kayıt edilmiş sesler 4 saniye zarfına sığacak şekilde ayarlanır. Ayrıca seslerin hepsi 16 bitlik wav formatı olacak şekilde saklanmıştır. Ayarlanan ses örnekleri insan kulağının daha hassas olduğu Mel frekanslarındaki frekans aralıklarının ses örneklerinde yükseltilmesi ve daha az belirginlikteki frekansların ise sönümlenmesini yapar. Sonrasında Mel frekanslarının güçlendirildiği ses örnekleri 50 milisaniyelik bölümler halinde kısa süreli Fourier dönüşümünden geçirilir. Fourier dönüşümünden geçirilen bölümler arka arkaya eklenerek ses örneğinin spektrogramı çıkartılır. Spektrogramların şiddet aralıklarını normalize etmek için doğrusal şiddet gösteriminden logaritmik şiddet gösterimine çevrilir. Logaritmik çevrimi yapılan sesler resimsel tanımada kullanılan konvolüsyonel sinir ağı eğitimi için kullanılır. Çalışmada obje tespiti kısmı ses sınıflandırılmasında olduğu gibi konvolüsyonel sinir ağı kullanılarak yapılmıştır. Çalışma kapsamında tek görüntü karesinden çoklu kutu tespitinden yararlanılmıştır. Bu yöntemle görüntü değişik boyutlardaki özellik çıkarıcılarla etkileştirilerek büyükten küçüğe ve uzundan yayvana matriksler oluşturulur. Oluşturulan matrikslerin içinde obje adaylarının puanlamaları çıkarılır ve en yüksek puana ait obje bahsi geçen pencere içinde bulunmuştur çıkarımı yapılır. Obje tespitinde ek olarak görüntüye bir sınıf atamaktansa görüntü üzerinde çeşitli boyutlarda kullanılan pencere methodu ile bulunan obje adayları birden fazla farklı objenin aynı görüntü üzerinde bulunması sağlar. Ancak aynı obje için birden fazla bulunan obje adaylarının ayıklanması gerekmektedir. Bu amaçla yakın komşuluklardaki ve aynı objeye ait obje adaylarının en yüksek yüzdelisi dışındaki diğer obje adayları görmezden gelinir. Yapılan sadeleştirme işlemi ile aynı objenin birden fazla işaretlenmesinin önüne geçilir. Kameradan alınan video akışında tespit edilen objeler saklanır ve ses eşleştirilmesi için program akışına dahil edilir. Çalışma akışındaki son aşama sınıflandırılan ses ile bulunan objenin birbirlerine etiketlenmesidir. Ses sınıfları ve obje tipleri arasında kurulan ilişki matriksine bakılarak önceklikle ses sınıfına ait obje tipi belirlenir sonrasında kameranın döndüğü yönde bahsi geçen objenin olup olmadığı kontrol edilir, eğer obje bulunursa bulunan obje ilişki matriksiyle eşlendirilir. Sonuç olarak eşleme ses sınıfı ve obje tipi olarak ekrana bastırılır. Eşleştirilme başarısız olsa dahi sınıflandırılan ses ve bulunan obje yazdırılır ancak eşleme oluşmadığı yazdırılır.

Özet (Çeviri)

In this thesis, in most intelligent machine perception, sensing approaches require a novel approach to diminish computational burden over the system to increase the outcome object detection, object tracking, developed to understand the environment. The main area of the study is to give real-time audio classification whose outputs would feed to the visual classification algorithms designed in the form of active audio-visual perception. The detection, localization, and tracking of the sound source are the main goal of audition and vision perception independently. Multiple signal classification based on Convolutional Neural Network method has employed for sound source localization and classification in audition modality. An audio-visual pipeline has introduced for enhancing the awareness of visual classification and tracking by introducing auditory classification and direction estimation for the sound emitters in the surrounding environment, for this purpose, trending visual machine learning algorithms that have very high successive rates selected as the one end of the pipeline. At the starting of the pipeline, the surrounding sounds have classified, and if any of them are subject to track, the camera mounted servo rotated to the estimated direction for looking any object that would be the source emitter. The pipeline uses the very same CNN for also visual object detection which optimizes the computational load on the overall system.

Benzer Tezler

Tez No
870797
Çevresel sanat eğitiminde ekolojik sürdürülebilirliğe yönelik a/r/tografik bir sorgulama
An a/r/tographic inquiry into ecological sustainability in environmental art art education
BAYRAM DAĞLI
Doktora
Türkçe
2024
Eğitim ve Öğretim Gazi Üniversitesi
Güzel Sanatlar Eğitimi Ana Bilim Dalı
PROF. ŞENİZ AKSOY
Tez No
964704
Sosyal mühendislikte komplo tabanlı içeriklerin yapay zekâ ile analizi
Analysis of conspiracy-based content in social engineering with artificial intelligence
EMEL KOÇYİĞİT
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATİH ÇALLI
Tez No
942113
Ortaöğretim görsel sanatlar dersinde sanat eserlerinin öğretiminde interaktif öğrenme yönteminin kullanımı
Introducing artists' paintings to 9th grade students with an interactive learning method
AYGÜL AŞIR
Yüksek Lisans
Türkçe
2025
Güzel Sanatlar Gazi Üniversitesi
Güzel Sanatlar Eğitimi Ana Bilim Dalı
DOÇ. DR. MURAT ASLAN
Tez No
828364
Social behavior learning for an assistive companion robot
Yardımcı robotlar için sosyal davranış öğrenimi
PINAR ULUER
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
Tez No
187663
Gazi Üniversitesi, Meslek Eğitim Fakültesi bünyesindeki Ülker Muncuk müzesindeki geleneksel işlemeli ürünlerin değerlendirilmesi ve eğitime katkısının belirlenmesi üzerine biraraştırma
Evaluation of the traditional embroidered products at the museum of Ülker Muncuk, at Gazi University, Faculty of Vocational Education and determination of their contribution to education
SİBEL AKÇİN
Yüksek Lisans
Türkçe
2006
El Sanatları Gazi Üniversitesi
El Sanatları Eğitimi Ana Bilim Dalı
YRD. DOÇ. YAKUDE DEVELİOĞLU

Geri Dön