Brain-inspired cortical-coding algorithm for multimedia processing
Multimedya işlemek için beyinden esinlenilmiş kortikal kodlama algoritması
- Tez No: 887325
- Danışmanlar: PROF. DR. BURAK BERK ÜSTÜNDAĞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 112
Özet
Multimedya veri hacimlerinin hızlı genişlemesi, veri sıkıştırma teknolojilerinde ilerlemeleri gerektirmektedir. Bu tez, insan beyninin bilgi işleme mekanizmalarından esinlenen yenilikçi bir biyomimetik multimedya veri sıkıştırma algoritması sunmaktadır. Bu algoritma, sıkıştırma oranı, çözülen kalite ve işlem hızı gibi standart kodek'lerle karşılaşılan sınırlamaları aşmayı hedeflemektedir. Multimedya uygulamalarında veri bütünlüğünü korumak ve veri aktarım hızlarını artırmak için tasarlanmıştır. Bu algoritmanın temeli, veri işleme için insan beyni tarafından kullanılan stratejileri dijital hesaplamaya yansıtarak multimedya veri sıkıştırma etkililiğini artırmaya yönelik biyomimetik bir yaklaşıma dayanmaktadır. Beyin ilhamlı algoritmalar arasında, veri temsili için en az sayıda aktif nöron kullanmayı amaçlayan seyrek kodlama, enerji verimliliği açısından nöral aktiviteleri yakından taklit eder. Öngörücü kodlama, beyinin sürekli olarak gelen duyusal girdiler hakkında tahminlerde bulunduğunu ve sadece bu tahminlerden sapmaları kodladığını öne sürer. Bu strateji, işlenmesi ve iletilmesi gereken veri miktarını önemli ölçüde azaltabilir. Beyinde bilginin çeşitli soyutlama düzeylerinde işlendiği hiyerarşik işleme, birden fazla çözünürlük veya kalite seviyesinde verimli bir şekilde çalışması gereken veri sıkıştırma algoritmalarını yapılandırmak için bir şablon sunar. Bu ilkelerin entegrasyonu ile önerilen kodek, sıkıştırma sürecini optimize etmekle kalmaz, aynı zamanda multimedya içeriğinin kalitesinin korunmasını da sağlar, bu da özellikle veri güvenilirliğinin hayati önem taşıdığı uygulamalar için uygundur. Ayrıca, bu kodeğin geliştirilmesi, standart çözünürlükteki görüntülerden yüksek tanımlı video akışlarına kadar farklı türdeki multimedya içeriklere uyum sağlama ve ölçeklenebilirlik üzerine odaklanmaktadır. Bu uyumluluk, dijital medya teknolojilerindeki ilerlemeler ve internet bant genişliklerinin artmasıyla dijital içerik çeşitliliği ve hacmi artmaya devam ettiği sürece kritik öneme sahiptir. Bu tezin nihai amacı, beyin ilhamlı bir yaklaşımın multimedya veri sıkıştırmada önemli iyileştirmeler sağlayabileceğini göstermektir. Kalite ve işlem hızından ödün vermeden sıkıştırma oranını artırarak daha sağlam bir çözüm sunan bu algoritma, endüstri standartlarını yeniden tanımlamayı hedeflemektedir. Sıkıştırma oranını artırırken kaliteden ödün vermeyen bu algoritma, veri depolama ve iletim teknolojilerinde önemli bir etki yaparak daha verimli dijital iletişim sistemlerinin yolunu açabilir. MP3 ve JPEG gibi mevcut standart multimedya kodek'leri genellikle yüksek sıkıştırma oranları ve işlem hızları sunar, ancak belirli kısıtlamalarla karşı karşıyadır. Özellikle, bu kodek'ler tarafından yaygın olarak kullanılan kayıplı sıkıştırma teknikleri, düşük bağlantı koşullarında veri temelindeki kalıpları öğrenen modellerin aksine veri kalitesinde yüksek düşüşlere yol açabilir. Bu kalite kaybı, özellikle netlik ve detayın kritik olduğu durumlarda kullanıcı deneyimini olumsuz etkileyebilir. Ayrıca, bu kodek'ler farklı multimedya türleri arasında yeterince esnek olmayabilir, bu da çeşitli uygulama ortamlarında önemli bir dezavantaj oluşturabilir. Mevcut kodek'lerin bu katı yapısı ve kaliteden verdikleri tavizleri, daha uyarlanabilir ve etkin sıkıştırma algoritmalarına olan ihtiyacı vurgulamaktadır. Sinir ağları veya makine öğrenmesi kullanılarak geliştirilen ileri düzey kodek'ler, umut verici alternatifler sunmaktadır. Bu tür kodek'ler, dinamik olarak çeşitli veri özelliklerine adapte olabilir ve daha iyi sıkıştırma ile daha az kalite kaybı sağlayabilir. Ayrıca, bu tür kodek'lerin uyarlama kabiliyeti, ses veya görüntüler olsun, dijital medya tüketiminin çeşitli ve gelişen ihtiyaçlarına daha iyi uyum sağlar. Biyomimetik algoritmaların uygulamaya konulması, multimedya veri sıkıştırmada yeni bir yaklaşım sunmaktadır. Bu algoritmalar, biyolojik sistemlerde görülen veri işleme yöntemlerini taklit ederek, daha doğal ve verimli işleme tekniklerinin entegre edilmesiyle veri sıkıştırmada bir atılım sağlayabilir. Biyomimetik algoritmalar, doğal süreçlerin verimliliğinden öğrenerek, yüksek kaliteli çıktıları korurken hesaplama yükünü azaltmayı hedeflemektedir. Bu algoritmalar, canlı yayın veya interaktif uygulamalar gibi gerçek zamanlı işleme senaryolarında kritik bir iyileştirme olup, hem sıkıştırma oranlarını artırmayı hem de elde edilen verilerin bütünlüğünü korumayı amaçlar. Son dönemde, yapay zeka teknolojileri, özellikle de nöral kodekler, standart kodeklerin sınırlamalarını aşma potansiyelini göstermiştir. Geleneksel yöntemlerden farklı olarak, nöral kodekler geniş ve çeşitli veri kümelerine büyük ölçüde bağımlıdır ve önemli hesaplama kaynakları gerektirir. Bu bağımlılık, özellikle hesaplama kapasitesi ve enerji verimliliğinin kritik öneme sahip olduğu mobil cihazlar gibi düşük güçlü cihazlarda kullanımlarını zorlaştırmaktadır. Nöral kodekler, ses ve görüntü gibi multimedya içeriklerini kodlamak ve işlemek için derin öğrenme modelleri, özellikle derin sinir ağları kullanır. Bu modeller, daha yüksek sıkıştırma oranlarına kalite kaybı olmaksızın ulaşabilmeleri için geniş veri kümeleri üzerinde eğitilir. Nöral kodeklerin multimedya içeriğinin farklı türlerine uyum sağlama yeteneği, geleneksel kodeklere göre önemli bir avantajdır. Ancak, bu uyum sağlama kapasitesi, artan model karmaşıklığı ve hesaplama talebi şeklinde bir maliyetle gelir. Ayrıca, bu kodeklerin eğitim süreci gerçek dünya uygulamalarında karşılaşılan çeşitli senaryoları kapsayacak şekilde büyük miktarda veride gerektirmektedir. Eğitim setinde iyi temsil edilmeyen veri tipleri veya koşullarla karşılaşıldığında nöral kodeklerin performansı önemli ölçüde düşebilir. Ayrıca, nöral modellerin kapalı doğası gereği optimizasyon ve hata ayıklama süreçlerini karmaşık hale getirir ve bu da geleneksel kodeklere göre daha az şeffaflık sağlar. Nöral kodekler alanında devam eden araştırma ve geliştirme çalışmaları bu sorunları ele almaktadır ve modellerin hesaplama gereksinimlerini performanstan ödün vermeden azaltmayı amaçlayan optimizasyon teknikleri üzerinde çalışılmaktadır. Bu teknikler arasında model budama, kuantizasyon ve daha verimli ağ mimarilerinin geliştirilmesi bulunmaktadır. Bu teknolojiler olgunlaştıkça, nöral kodeklerin sınırlı hesaplama gücüne sahip daha geniş bir cihaz yelpazesinde kullanılabilir hale gelmesi beklenmektedir. Bu sınırlamaları aşmak amacıyla, bu tez kapsamında geliştirilen yeni kodek, beyin benzeri kodlama tekniklerini ve veri sıkıştırma ilkelerini bütünleştirerek, veri kaybını minimize ederken sıkıştırma verimliliğini maksimize etmeyi hedeflemektedir. Bu kodek, hem ses hem de görüntü verilerine uyacak şekilde tasarlanmıştır. Yeni kodek, beyin tarafından gerçekleştirilen nörobiyolojik süreçlerden esinlenen biyomimetik algoritmalar kullanmaktadır. Bu algoritmalar, verimli sıkıştırma oranlarını iyileştirmek ve veri fazlalığını etkili bir şekilde azaltmak için temelinde entropi ve termodinamik hesaplamalarından yararlanarak; seyrek kodlama, öngörücü kodlama ve hiyerarşik işleme gibi mekanizmaları kullanır. Algoritma az miktarda verilen veri ile ağaç şeklinde oluşturduğu korteksi kullanarak ileride göreceği benzer verileri kodlu kelimelere indirmekte, ve böylece sıkıştırma ve işleme çalışmalarına olanak sağlamaktadır. Kodeğin mimarisi, çeşitli multimedya girdilerini yüksek verimlilikle işleyebilecek adaptif katmanlar içermektedir. İnsan beyninin duyusal bilgiyi işleme şeklini taklit ederek, kodek, sıkıştırma süreci sırasında daha fazla temel bilgiyi koruyabilir ve bu da çözümlenen çıktıların kalitesini artırır. Bu yaklaşım, sadece sıkıştırma sürecinde daha fazla temel bilginin korunmasını sağlamakla kalmaz, aynı zamanda gerçek zamanlı uygulamalar için kritik olan hızlı çözümlemeyi de kolaylaştırır. Performans açısından, ön testler bu kodeğin özellikle yüksek veri güvenilirliğin önemli olduğu zorlu senaryolarda sıkıştırmayı çözmeden veri işleyebilme kapasitesi bakımından özellikle geleneksel kodek'leri geride bıraktığını göstermiştir. Ayrıca, kodeğin girdi türüne (ses veya görüntü verilerine) dayalı olarak sıkıştırma stratejilerini dikkate değer bir manuel ayarlama gerektirmeden uyarlayabilme yeteneği, mevcut teknolojiler üzerinde önemli bir ilerleme sağlamaktadır. Bu esneklik, kodeği dijital medya yayıncılığından güvenli iletişimlere kadar çeşitli uygulamalar için son derece uygun kılar. Bu gelişmiş özellikleri entegre ederek, tez, çoklu ortam veri sıkıştırmasında yeni bir standart belirlemeyi hedeflemektedir. Kodeğin geliştirilmesi, sadece mevcut sınırlamaları ele almakla kalmaz, aynı zamanda teknolojik ilerlemeler ve artan veri talepleriyle evrilebilecek sağlam bir çerçeve de sunar. Geliştirilen kodek, farklı multimedya türlerine uyarlanabilir bir mimariye sahiptir. Çeşitli veri kümeleri üzerinde yapılan kapsamlı eğitimler sayesinde, algoritma temel bileşenleri ve örüntüleri tanıma ve bunları verimli bir şekilde sıkıştırma yeteneği kazanmıştır. Bu adaptasyon yeteneği, çeşitli multimedya formatlarına yönelik kodek esnekliği gerektiren uygulamalar için önem oluşturmaktadır. Ayrıca, kodek adaptasyon ve ölçeklenebilirlik özelliklerine sahip olup, gerçek zamanlı uygulamalar için uygun hale getirilmiştir. Kodeğin geliştirilmesindeki ilerlemeler, özellikle sıkıştırma verimliliği, kalite koruma ve işlem hızı gibi performans metriklerini optimize etmeye yönelik olmuştur. Elde edilen metriklere bağlı olarak sıkıştırma parametreleri dinamik bir şekilde hiper parametre optimizasyonu ile ayarlanmıştır. Bu optimizasyon, sıkıştırma oranı ile kalite arasında optimal bir denge sağlar ve multimedya içeriğinin iletim ve depolama sırasında bütünlüğünün korunması için hayati önem taşır. Multimedya alanında, etkin ve verimli veri sıkıştırma tekniklerine olan talep artmaktadır. Bu kodek, gelişmiş kapasiteleri ile bu ihtiyacı karşılayarak, yüksek sıkıştırma oranlarında bile kaliteyi koruyarak performansı optimize etmeyi sağlar. Adaptasyon için tasarlanmış mimarisi, farklı türdeki multimedya içeriklerini sorunsuz bir şekilde işleyerek, geliştiriciler ve mühendisler için çok yönlü bir araç haline gelmetedir. Ayrıca, kodek, çeşitli durumlara dinamik olarak uyum sağlayacak yenilikçi özellikler de içermektedir. Bu adaptasyon yeteneği, veri bant genişliği ve depolama kapasitesinin sınırlı olduğu ortamlarda çok önemlidir ve verimliliği artırırken gereksiz yükleri azaltır. Kodek, gereksiz yükleri azaltarak uygulamaların sınırlı koşullar altında bile duyarlı ve verimli kalmasını sağlar. Geliştirilen kodek, orta seviye bit hızlarında (40-60 kbps) aynı sıkıştırma oranında ses verilerini sıkıştırırken ortalama 63.5% daha az hata oluşturmaktadır. Ayrıca kodek benzer veya üstün ses kalitesini koruyarak veriyi 44% daha iyi sıkıştırmaktadır. Görsel sıkıştırma çalışmalarında mevcut kodeklerin performansını yakalayabilmek için daha fazla geliştirme yapılması gerekmektedir. Bu üstünlük kodeğin verileri işlemesini optimize ederek, gereksiz yinelemeleri azaltan yenilikçi kodlama stratejilerinden kaynaklanmaktadır. Ayrıca, kodlama ve çözme süreçlerindeki gecikme süreleri kodeğin gerçek zamanlı çalışmasına uygun olacak şekilde azdır. Bu düşük gecikme hızı, gecikmenin kritik olduğu video konferansları ve canlı yayınlar gibi gerçek zamanlı uygulamaların kullanılabilirliğini önemli ölçüde artırmaktadır. Bu performans ölçütleri, yüksek çözünürlüklü görüntüler ve çeşitli ses örnekleri içeren veri setleri kullanılarak uygulanan titiz test metodolojileri tarafından desteklenmektedir. Bu testler boyunca performansın istatistiksel analizi, hız ve verimlilikte oluşturduğu iyileştirmeler ile, kodeğin tasarımının modern hesaplama tekniklerinden etkili bir şekilde yararlandığını göstermektedir. Gelecekteki araştırma ve geliştirme çalışmaları, kodeğin farklı multimedya formatlarındaki verimliliğini daha da artırmaya ve hesaplama taleplerini daha da azaltmaya odaklanacaktır. Devam eden çalışmalarda; optimizasyon, desen tanıma ve öngörü yeteneklerini geliştirmek için ileri düzey makine öğrenimi algoritmaları önerilen sisteme entegre edilerek sıkıştırma oranlarında ve işleme sürelerinde daha önemli iyileştirmeler hedeflenecektir. Topluca bu ilerlemeler, hem ticari hem de bireysel multimedya içerik kullanımı için önemli faydalar vaat ederek veri sıkıştırma alanına önemli katkılar sağlayacaktır. Bu kodeğin ses ve görüntü verilerinde gösterdiği performans, video kodlama ve işleme üzerinde yapılabilecek çalışmalar için umut sağlamaktadır.
Özet (Çeviri)
This thesis presents an innovative approach to multimedia data compression, drawing inspiration from the human brain's neocortex. The study addresses the need for advanced compression techniques in response to the growing volumes of multimedia data. This study begins with an extensive literature review that sets the context by examining the limitations of existing compression methods, particularly standard lossy codecs. It also explores the emerging potential of neural codecs, establishing a theoretical basis for the development of a new, brain-inspired compression algorithm. This algorithm aims to surpass current methods in compression efficiency, quality of decompression, and processing speed. In the methodology section, the thesis describes the design and implementation of the novel cortical-coding algorithm, which mimics the neocortex's method of processing information. The experimental framework is carefully detailed, including the theoretical underpinnings and specific algorithms employed to benchmark the codec's performance against both traditional and neural codecs. The results obtained are promising, showing that the cortical coding algorithm competes with and excels beyond selected traditional codecs (MP3, AAC, OPUS, OGG Vorbis) and neural codecs (EnCodec, SoundStream) in several key performance metrics. These findings are analyzed in depth, highlighting significant advancements in compression ratio, and output quality, while showing real-time processing capability. The discussion delves into the broader implications of these results, particularly their potential impact on real-time multimedia applications such as video conferencing, live streaming, and virtual reality. It is posited that the successful application of biomimetic principles with the proposed codec design can revolutionize multimedia data handling, providing more efficient and scalable solutions. The thesis is concluded by summarizing the research contributions, which include the successful demonstration of a novel, efficient, and effective approach to data compression, mainly audio and image compression, inspired by cortical coding principles. Recommendations for future research include further refinement of the codec and exploration into its application across different multimedia types to enhance versatility and utility. This thesis provides important new insights into multimedia compression and suggests new possibilities for applying neuroscience in developing digital technologies. It sets the stage for further interdisciplinary research that has the potential to impact the field of multimedia data processing significantly.
Benzer Tezler
- Dalgacık dönüşümü yöntemi ile kendi yapılanan işaret örüntü kodlama
Self organised signal pattern encoding by wavelet transform method
MERİÇ YÜCEL
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
PROF. DR. BURAK BERK ÜSTÜNDAĞ
- Modelling the neocortical pyramidal neurons and their group behaviour
Neokortikal piramid nöronların modellemesi ve grup davranışları
SADEEM NABEEL SALEEM KBAH
Yüksek Lisans
İngilizce
2013
Biyomühendislikİstanbul Teknik ÜniversitesiElektronik-Haberleşme Eğitimi Ana Bilim Dalı
DOÇ. DR. NESLİHAN SERAP ŞENGÖR
- Brain-inspired learning for face analysis in artificial neural networks: A multitask and continual learning framework
Yapay sinir ağlarında yüz analizi için beyinden ilham alan öğrenme: Çok görevli ve sürekli öğrenme sistemi
SEFA BURAK OKCU
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
PROF. DR. ABDULLAH AYDIN ALATAN
DR. ÖĞR. ÜYESİ UMUT ÖZGE
- Brain-inspired visuo-haptic object recognition
Başlık çevirisi yok
SİBEL TOPRAK
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTechnische Universität Hamburg-Harburg - A brain-inspired cognitive architecture for developmental and social human-robot interaction
Gelişimsel ve sosyal insan-robot etkileşimi için beyin esinli bilişsel mimari
EVREN DAĞLARLI
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLAY ÖKE GÜNEL
DOÇ. DR. HATİCE KÖSE