Efficient deep learning approaches for signal and image analysis applications
Sinyal ve görüntü analizi uygulamaları için verimli derin öğrenme yaklaşımları
- Tez No: 901576
- Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 131
Özet
Bölüm 1, özellikle gerçek dünya uygulamalarında hesaplama kaynaklarının sınırlı olduğu durumlarda, verimli derin öğrenme modellerine olan artan talebi tanıtmaktadır. Bölüm, model sıkıştırma teknikleri, verimli mimariler ve derin sinir ağlarının hesaplama karmaşıklığını azaltma yaklaşımlarına odaklanarak, derin öğrenme verimliliği üzerine ayrıntılı bir literatür taraması sunmaktadır. Ayrıca, derin öğrenme modellerinin sınıflandırma, bölütleme, video nesne tespiti ve spektral analiz gibi görevlere uygulanmasındaki zorlukları da tartışmaktadır. Bölüm 2, parametre sayısını önemli ölçüde azaltırken performansı koruyarak dönüştürücü modellerinin ve Konvolüsyonel Sinir Ağlarının (CNN'ler) parametre verimliliğini artırmaya yönelik yöntemleri inceliyor. dönüştürücüler ve CNN'ler birçok alanda oldukça etkilidir, ancak büyük model boyutları nedeniyle genellikle büyük hesaplama kaynaklarına ihtiyaç duyarlar; bu da onları mobil cihazlar veya uç bilişim platformları gibi kaynak kısıtlı ortamlarda kullanımı sınırlı hale getirir. Bu bölüm, görü dönüştürülerin (Vision Transformer, ViT) ağırlık matrislerinin satır ve sütun uzaylarını kullanarak parametre sayısını %50'ye kadar azaltan yeni bir mimari olan HaLViT'i tanıtmaktadır. Bu yöntem, ImageNet-1K veri kümesi üzerinde yapılan kapsamlı deneylerle doğrulanmış ve COCO veri kümesini kullanarak nesne tespiti gibi görevlerde transfer öğrenme deneyleri ile desteklenmiştir. HaLViT, diğer yerleşik modellerle karşılaştırıldığında rekabetçi bir performans sergileyerek parametre verimliliği açısından oldukça etkili bir çözüm olduğunu kanıtlamıştır. Ayrıca, bu bölümde derin sinir ağlarında parametre verimliliğini daha da artırmak için düşük rütbeli artık ağırlıklar (low-rank residual weights) kavramı ele alınmaktadır. Ağırlık matrislerinin satır ve sütun uzaylarını bağımsız olarak kullanarak, modelin ifade gücünden ödün vermeden parametre sayısı önemli ölçüde azaltılabilir. Özetle, Bölüm 2, HaLViT gibi yenilikçi stratejiler kullanılarak parametre verimli modellerin oluşturulabileceğini ve bu modellerin kaynak kısıtlı ortamlarda konuşlandırmaya son derece uygun hale geldiğini göstermektedir. Bu çalışma, derin öğrenmeyi daha ölçeklenebilir ve erişilebilir hale getirerek hesaplama yüklerini azaltırken rekabetçi performans sağlamaya yönelik daha geniş bir hedefe katkıda bulunmaktadır. Bölüm 3, gözetim, hassas tarım ve kentsel yönetim gibi uygulamalar için giderek daha önemli hale gelen havadan görüntülerde küçük nesnelerin tespiti sorununu ele almaktadır. Havadan görüntülerde küçük nesnelerin tespiti, ölçek varyasyonu, örtüşme, yoğun nesne dağılımları ve sınıf dengesizliği gibi faktörler nedeniyle doğası gereği zordur. Bu bölüm, küçük nesneleri verimli bir şekilde tespit etmek için bölge arama tekniklerinden yararlanan iki aşamalı bir çerçeve olan Focus \& Detect'i tanıtmaktadır. İlk aşamada, bir Gauss Karışım Modeli (GMM) kullanılarak“odak bölgeleri”olarak adlandırılan nesne bölgelerinin kümeleri oluşturulur. Bu bölgeler, küçük nesnelerin yoğun bir şekilde bulunduğu alanlar olarak tanımlanır ve tespit ağı, yalnızca bu bölgelere odaklanarak hesaplama yükünü azaltır. İkinci aşamada, yüksek çözünürlüklü girdiler kullanılarak bu odak bölgelerinde nesne tespiti gerçekleştirilir ve küçük nesneler için tespit doğruluğu artırılır. Bu bölümün önemli katkılarından biri, odak bölgelerinde tespit edilen nesnelerden kaynaklanan kesilmiş ve örtüşen sınırlayıcı kutu sorununu çözen Incomplete Box Suppression (IBS) tekniğinin tanıtılmasıdır. Bu teknik, model performansını düşürebilecek eksik veya yanlış tespitlerin ortadan kaldırılmasına yardımcı olur. Deneysel sonuçlar, önerilen yöntemin VisDrone ve UAVDT veri kümelerinde en iyi performansı elde ettiğini göstermektedir. Focus&Detect yöntemi, özellikle yoğun ve dağınık ortamlardaki nesneleri tespit etmede mevcut küçük nesne tespiti yöntemlerinden daha iyi performans sergilemektedir. Önemli bulgular şunlardır: VisDrone doğrulama setinde 42.06 AP skoru ve UAVDT test setinde 54.16 AP@70 skoru, diğer küçük nesne tespiti tekniklerinden daha iyi performans göstermektedir.“Yaya,”“insan”ve“bisiklet”gibi küçük nesnelere sahip sınıflarda gelişmiş tespit performansı. Nesne ölçeklerinin normalleştirilmesinde GMM'in etkinliği, bu da küçük nesnelerin tespit doğruluğunu önemli ölçüde artırmaktadır. Sonuç olarak, GMM tabanlı bölge arama ve IBS yöntemleri ile birleştirilen Focus&Detect yöntemi, havadan görüntülerde küçük nesne tespiti için veri verimli bir çözüm sunmaktadır. Bu yaklaşım, zorlu ortamlarda küçük nesneleri tespit etmede üstün doğruluk sağlamaktadır ve çeşitli gerçek dünya uygulamaları için umut verici bir çözüm niteliğindedir. Bölüm 4, Raman spektroskopisi verilerini analiz etmek için RamanFormer adlı dönüştürücü tabanlı bir modelin tanıtıldığı yenilikçi bir yaklaşım sunmaktadır. Raman spektroskopisi, malzeme tanımlama ve karışım analizinde kullanılan güçlü bir tekniktir. Bununla birlikte, karışımlardaki bileşenlerin doğru miktarının belirlenmesi, özellikle gürültülü spektrumlar veya düşük konsantrasyonlu bileşenler söz konusu olduğunda zorlu olmaya devam etmektedir. Bu bölümün ana katkısı, ardışık verileri işlemek için son derece etkili olan dönüştürücü mimarisi üzerine inşa edilen derin öğrenme modeli RamanFormer'in geliştirilmesidir. RamanFormer, Raman spektrumlarındaki karmaşık kalıpları yakalamak ve kimyasal karışımlardaki bileşen oranlarını hassas bir şekilde tahmin etmek için öz dikkat mekanizmaları, konvolüsyon katmanları ve global ortalama havuzlamanın bir kombinasyonunu kullanır. Bölümün önemli katkıları şunlardır: Raman karışım analizine yönelik olarak tasarlanmış, spektroskopi alanında önemli bir ilerlemeyi temsil eden yeni bir dönüştürücü tabanlı model olan RamanFormer'in tanıtılması. İkili ve üçlü kimyasal karışımlardan oluşan bir veri kümesi üzerinde modelin kapsamlı bir şekilde değerlendirilmesi; geleneksel ve derin öğrenme tabanlı yöntemlere göre daha düşük RMSE ve MAE skorları ile üstünlüğünü kanıtlaması. Düşük konsantrasyonlu bileşenler ve gürültülü ortamlar gibi zorlu senaryolarda modelin dayanıklılığı, modelin gerçek dünya spektroskopik analizi için pratik uygulanabilirliğini vurgulamaktadır. Verilerin artırılması tekniklerini ve kosinüs küçülmesi ve stokastik gradyan inişi gibi gelişmiş makine öğrenimi stratejilerinin kullanımını içeren detaylı bir eğitim metodolojisi. RamanFormer'in, en küçük kareler metodu, ResNet50 ve MLP gibi temel modelleri tutarlı bir şekilde geride bırakarak, üçlü karışım analizinde 1.6\% RMSE ve 1.4\% MAE'ye ulaşması. Deneysel sonuçlar, RamanFormer'in geniş bir karışım kompozisyonu ve gürültü koşullarında bileşen oranlarını tahmin etmede son derece etkili olduğunu göstermektedir. Modelin düşük frekanslı ve yüksek frekanslı spektral özellikleri işleme yeteneği, spektroskopik analize uygulanabilirliğini daha da doğrulamaktadır. Sonuç olarak, RamanFormer, dönüştürücü tabanlı modellerin malzeme tanımlama ve karışım analizini geliştirme potansiyelini gösteren Raman spektroskopisi alanında önemli bir atılımı temsil etmektedir. Farklı karışımlar ve gürültü seviyeleri arasında bileşen oranlarını tahmin etmedeki başarılı uygulaması, bu alandaki daha ileri araştırmalar için zemin hazırlamaktadır ve bu modelin malzeme bilimi, adli bilimler, gıda güvenliği ve tıbbi teşhisler gibi alanlarda geniş uygulama potansiyeli bulunmaktadır. Bölüm 5, H.265 Kodlama Ağacı Birimlerinin (CTU'lar) yapısından yararlanarak dinamik katman işlemeyi kullanan SieveNet adlı yeni bir yöntemi önererek video nesne tespitinin hesaplama verimliliğini artırmaya odaklanmaktadır. Video nesne tespiti, hareket bulanıklığı, nesne örtüşmesi ve kamera odak değişiklikleri gibi faktörlerden dolayı görüntü tabanlı tespitten farklı zorluklar sunmaktadır. Bu bölümdeki temel hedef, H.265 codec'inden sıkıştırılmış alan özelliklerini kullanarak yüksek tespit doğruluğu ile hesaplama verimliliği arasında bir denge sağlamaktır. Bölümde, video karelerinin H.265 codec'inin CTU yapısını kullanarak işlendiği SieveNet adlı derin öğrenme modeli tanıtılmaktadır. Bu çerçevede, video kareleri CTU'lara bölünür ve model, her bloğun frekans içeriğine bağlı olarak farklı seviyelerde işlem uygular. Daha az ayrıntı içeren düşük frekanslı bloklar daha az katmanla işlenirken, yüksek frekanslı bloklar daha fazla katmanla derinlemesine işlenir. Bu yaklaşım, hesaplama yükünü önemli ölçüde azaltırken rekabetçi tespit performansını korur. Bu bölümün önemli katkıları şunlardır: Video karesindeki her bloğa uygulanan katman sayısını dinamik olarak ayarlamak için H.265 CTU yapısının kullanılması, bu sayede hesaplama verimliliğinin optimize edilmesi. SieveNet'in geliştirilmesi; bu model, ResNet-101 gibi geleneksel derin öğrenme modellerine kıyasla önemli ölçüde daha az FLOPS (Saniyede Yüzer Nokta İşlemleri) kullanarak karşılaştırılabilir doğruluk elde etmektedir. ImageNet VID veri kümesi üzerinde kapsamlı deneysel sonuçlar; SieveNet'in ortalama Ortalama Doğruluk Puanı (mAP) 36.9 olup, bu değer ResNet-101'in mAP skoru olan 38.2'ye yakındır, ancak hesaplama maliyeti neredeyse yarı yarıya daha azdır. CTU derinliğine dayalı dinamik katman yaklaşımının, yüksek frekanslı içerik barındıran bloklara odaklanarak verimliliği nasıl artırdığına dair detaylı bir analiz. Deneysel sonuçlar, SieveNet'in hem doğruluk hem de hesaplama verimliliği açısından ResNet-50'yi geride bıraktığını ve benzer FLOP ile daha iyi performans elde ettiğini göstermektedir. ResNet-101, SieveNet'ten biraz daha yüksek doğruluk sağlasa da, iki kat daha fazla FLOPS gerektirmekte olup, önerilen yöntemin hesaplama avantajını vurgulamaktadır. Bölüm, SieveNet'in doğruluk ve verimlilik arasında etkili bir denge sağladığını ve hesaplama kaynaklarının sınırlı olduğu video anlama görevleri için uygun bir çözüm sunduğunu belirterek sonuçlanmaktadır. Bölüm 6, araştırmanın temel katkılarını ve bulgularını özetleyerek tezi sonlandırmaktadır. Tez, derin öğrenme alanında HaLViT gibi parametre-verimli mimarilerin ve SieveNet gibi hesaplama açısından verimli modellerin geliştirilmesi gibi önemli ilerlemeler sunmakta ve kaynak kısıtlı ortamlara yönelik ölçeklenebilir ve pratik çözümler sağlamaktadır. Bulgular, verimli derin öğrenme modellerinin, performanstan ödün vermeden, küçük nesne tespiti, video nesne tespiti ve Raman spektroskopisi analizi gibi görevlere başarıyla uygulanabileceğini göstermektedir. Ayrıca, araştırma, H.265 codec'inden elde edilenler gibi sıkıştırılmış alan özelliklerinin kullanılarak hesaplama verimliliğinin optimize edilmesinin önemini vurgulamaktadır. Gelecek araştırma yönleri arasında bu modellerin daha geniş bir uygulama yelpazesi için daha fazla optimize edilmesi, ek sıkıştırılmış alan özelliklerinin entegrasyonu ve transformatör tabanlı modellerin diğer spektroskopi veri türlerine ve video anlama görevlerine uygulanmasının araştırılması yer almaktadır. Tez, derin öğrenmeyi daha ölçeklenebilir ve erişilebilir hale getirmenin, hesaplama yüklerini azaltırken gerçek dünya uygulamalarında rekabetçi doğruluk ve sağlamlığı korumanın temellerini atmaktadır.
Özet (Çeviri)
This thesis explores the development of parameter-efficient,computationally efficient and data efficient deep learning models, addressing challenges in resource-constrained environments such as mobile devices, edge computing, and tasks requiring significant computational resources. The research presents novel architectures and methods for enhancing the efficiency of deep learning models in three primary domains: image classification, segmentation, small object detection, video object detection, and Raman spectroscopy analysis, while maintaining high performance. Chapter 1 introduces the growing demand for efficient deep learning models, particularly in the context of real-world applications where computational resources are limited. The chapter provides a detailed literature review on deep learning efficiency, focusing on model compression techniques, efficient architectures, and approaches to reduce the computational complexity of deep neural networks. It also discusses the challenges of applying deep learning models to tasks such as video object detection and spectral analysis. Chapter 2 presents HaLViT, a novel architecture aimed at reducing the parameter count of Vision Transformers (ViTs). By leveraging the row and column spaces of weight matrices, HaLViT achieves up to a 50% reduction in parameters without significant loss of accuracy. This method is validated on the ImageNet-1K dataset and further evaluated through transfer learning experiments on object detection tasks using the COCO dataset. HaLViT demonstrates competitive performance with conventional transformer-based models while offering substantial computational savings. The chapter also explores the use of low-rank residual weights to enhance the parameter efficiency of deep neural networks, showing that this technique allows for significant parameter reduction without sacrificing model expressiveness. Chapter 3 addresses the challenge of small object detection in aerial images, which is crucial for applications such as surveillance, precision agriculture, and urban management. Small object detection is challenging due to factors like scale variation, occlusion, dense object distributions, and class imbalance. This chapter introduces Focus&Detect, a two-stage framework that uses a Gaussian Mixture Model (GMM) to identify“focal regions”where small objects are densely clustered. By focusing the detection network's resources on these regions, the computational load is reduced, and detection accuracy is improved. The Incomplete Box Suppression (IBS) technique is introduced to handle the problem of overlapping bounding boxes in focal regions, further enhancing the model's performance. The proposed framework outperforms existing methods on the VisDrone and UAVDT datasets, achieving superior accuracy in detecting small objects. Chapter 4 proposes RamanFormer, a transformer-based model specifically designed for the analysis of Raman spectroscopy data. Raman spectroscopy is a widely used technique for material identification and mixture analysis, but accurate quantification of components in mixtures is often challenging, especially in noisy or low-concentration scenarios. RamanFormer combines self-attention mechanisms, convolutional layers, and global average pooling to process complex spectral data, enabling precise prediction of component ratios in chemical mixtures. The model is evaluated on a dataset of binary and ternary chemical mixtures and shows significant improvements over traditional methods such as Least Squares and deep learning-based models like ResNet50 and MLP. RamanFormer demonstrates robustness in noisy environments and scenarios involving low-concentration components, highlighting its applicability for real-world spectroscopic analysis in fields such as material science, forensics, and food safety. Chapter 5 focuses on improving the computational efficiency of video object detection by leveraging the H.265 video compression codec's Coding Tree Units (CTUs). Video object detection presents additional challenges compared to image-based detection, such as motion blur, occlusion, and changes in camera focus. The chapter introduces SieveNet, a dynamic deep learning model that processes video frames using the CTU structure of the H.265 codec. The model applies more layers to high-frequency content blocks while processing low-frequency blocks with fewer layers, thereby optimizing the computational load. Experimental results on the ImageNet VID dataset show that SieveNet achieves a mean Average Precision (mAP) score of 36.9, which is comparable to the mAP score of ResNet-101 (38.2), but with almost half the computational cost in terms of Floating Point Operations Per Second (FLOPS). The chapter demonstrates the effectiveness of dynamic layer processing based on the CTU structure in achieving a balance between detection accuracy and computational efficiency. Chapter 6 concludes the thesis by summarizing the key contributions and findings of the research. The thesis presents several significant advancements in the field of deep learning, including the development of parameter-efficient architectures like HaLViT and computationally efficient models like SieveNet, which provide scalable and practical solutions for resource-constrained environments. The findings suggest that efficient deep learning models can be successfully applied to tasks such as small object detection, video object detection, and Raman spectroscopy analysis, without compromising performance. Additionally, the research highlights the importance of leveraging compressed domain features, such as those from the H.265 codec, to optimize computational efficiency. Future research directions include further optimizing these models for a wider range of applications, integrating additional compressed domain features, and exploring the application of transformer-based models to other types of spectroscopic data and video understanding tasks. The thesis sets the stage for making deep learning more scalable and accessible, reducing computational overheads while maintaining competitive accuracy and robustness in real-world applications.
Benzer Tezler
- Derin öğrenme tabanlı yöntemlerle düşük ışıklı görüntü iyileştirme
Low light image enhancement with deep learning based methods
EMİN CİHANGİR US
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
- Ground penetrating radar antenna design to detect buried object and signal processing with deep learning networks by usingnumerical electromagnetic methods
Gömülü hedef tespit etmek için yere nüfuz eden radar anten tasarımı ve sayısal elektromanyetik yöntemler kullanarak derin öğrenme ağları ile sinyal işleme
REYHAN YURT
Doktora
İngilizce
2023
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAMİD TORPİ
- Derin öğrenme tabanlı süper çözünürlük teknikleri kullanarak JPEG sıkıştırma kaybının iyileştirilmesi
Recovering JPEG compression loss via deep learning-based super resolution techniques
MUHAMMET BOLAT
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. LÜTFİYE DURAK ATA
DR. NURULLAH ÇALIK
- Termal görüntülerde derin öğrenme yaklaşımları ile elektrik arızalarının sınıflandırılması
Classification of electrical faults in thermal images via deep learning approaches
GÖNÜL SAKALLI
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiKonya Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HASAN KOYUNCU
- Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK