Fully convolutional one-stage object detection model for fire and smoke detection
Yangın ve duman tespiti için tam evrişimsel tek aşamalı nesne algılama modeli
- Tez No: 958993
- Danışmanlar: PROF. DR. MEHMET KESKİNÖZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 78
Özet
Yangın ve duman tespiti, günümüz literatüründe en çok incelenen konuların başında gelmektedir. İklim değişikliği etkilerinin hızlanarak hayatımızı etkilemesi, bu bağlamda orman yangınları vb. afetlerin artışını göz önünde bulundurulduğumuzda, yangın ve dumanın tespiti potansiyel felaketlerin önlenebilmesi, insanın ve vahşi yaşamın korunması ile çevrenin erken uyarı sistemleri ve alarm mekanizmalarıyla korunabilmesini amaçlamaktadır. Özellikle erken tespit, orman yangınlarının yüksek ivmeli yayılma hızını önemli ölçüde yavaşlatıp daha büyük felaketlerin önüne geçebilir. Derin öğrenme metotlarının yaygınlaşmasıyla, bu konu sensör veya fiziksel dedektör temelli çözümlere kıyasla nesne algılama yöntemleriyle ele alınmaya başlanmıştır. Bu çalışmada, yangın ve duman tespiti için, ön tanımlı, referans bölge önerisi gerektirmeyen, hafif, tam evrişimsel ve tek aşamalı (FCOS tarzı) bir derin sinir ağı modeli öneriyoruz. Modelimiz sabit ve en iyi denilebilecek bir tanımı olmayan ve öğrenilemeyen parametrelere duyulan ihtiyacı ortadan kaldırır, hafif bir mimari ve daha az hesaplama kaynağına ihtiyaç duymasıyla çevre dostu bir yaklaşım sunar. Ayrıca model uçtan uca eğitilebilen tek aşamalı yapısı sayesinde ayrı bir bölge önerisi aşaması eğitilmesi sürecini ortadan kaldırır. Çalışmada nesne tespiti modelleri için literatürü inceledik. Derin sinir ağı tabanlı nesne tespiti öncelikle iki aşamalı tasarlanan modeller ile başladı. Bu iki aşamadan ilki mekansal bilgilerin özellik çıkarıcı ağlar aracılığıyla önerilmesi işlemi sonrasında bu özellik haritaları üzerinde ilgi bölgelerinin çıkarılması işlemlerini içerir. İkinci aşamada bu ilgi bölgeleri üzerinde sınıflandırma ve nesneyi içeren dikdörtgenin iyileştirilmesi işlemleriyle model tamamlanır. Bu türde modellere örnek olarak Faster R-CNN modelini inceledik. Bu modelde ilgi bölgelerinin çıkarılması işlemi ön tanımlı kutu boyutları ve en-boy oranları kombinasyonları yardımıyla Bölge Öneri Ağı (RPN) tarafından yapılır. Bölge Öneri Ağı'nın önerdiği farklı boyutlardaki referans kutuları, İlgi Bölgesi Havuzlama (RoI Pooling) ile sabit boyutlu çıktılara dönüştürülür. Bu işlem, ilgili referans kutularının ikinci aşamada kullanılacak yapay sinir ağının girdi boyutuna uyması gerektiğinden zorunludur. Bölge Öneri Ağı, önerdiği referans kutular için ayrıca kutu içerisinde nesne olma olasılığı çıktısı da verir. İkinci aşamaya geçerken yalnızca en yüksek nesne olma oranına sahip 2000 adet kutu ikinci aşamaya geçer (test kümesi için 1000 adet). İkinci aşamada ise bir Çok Katmanlı Algılayıcı (MLP) model iki ayrı çıktı üretir: sınıf skorları ve her bir sınıf için kutu regresyonları. Bu tarz iki aşamalı yaklaşımlar modele ek olarak hiperparametre ayarı gerektirmesi ve tek aşamalı modellere kıyasla gerçek zamanlı uygulamalar için yetersiz performans göstermesi gibi zayıflıklara sahiptir. Çalışmada ayrıca bir ablasyon çalışması olması amacıyla bir Faster R-CNN modeli oluşturulmuştur. Bu modelde orijinal Faster R-CNN modelinin Bölge Öneri Ağı ve RoI Havuzlama katmanındaki yapılar değiştirilmezken, özellik çıkarıcı ağ katmanında MobileNet-v3 büyük versiyonu kullanıldı. RoI başlığı için tek katmanlı evrişim katmanı, üç katmana; Çok Katmanlı Algılayıcı iki katmandan üç katmana çıkarıldı. Model tasarlanırken, FCOS-tabanlı modelimizle adil bir karşılaştırma yapabilmek adına yaklaşık benzer hesaplama gücüyle çalışan bir ağ önerimi hedeflendi. Tek aşamalı modeller uçtan uca tek bir yapay sinir ağı ile bölge önerisi işleminin ayrı bir ağ tarafından yapılması işlemine kıyasla; verinin özellik haritalarının çıkarıldığı ilk katman, bu haritaların farklı ölçekler ile birbirleri arasında taşınmasının sağlandığı özellik birleştirme katmanı ve son olarak da farklı özellik seviyelerinde yapılan nesne tespiti katmanlarından oluşan tek bir ağ üzerinde çalışması sağlanmıştır. Çalışmada önerdiğimiz FCOS tarzı model bunlara ek olarak ön tanımlı referans bölge önerisi gerektirmemesiyle ön plana çıkmaktadır. Model mekansal bilgi çıkarımı için EfficientNet-B3 omurga sinir ağının küçültülmüş bir versiyonunu, çok ölçekli özellik birleştirme katmanı olarak Aşamalar Arası Kısmi Modül (CSP) ve Hızlı Mekansal Piramit Havuzlama (SPPF) modülünü içeren özel bir çift yönlü Özellik Çoklu Ölçek Ağı (FPN) bileşenini, tespit başlığı için ise Derinlik-Ayırmalı Evrişimsel Ağ tabanlı ve Evrişimsel Blok Dikkat Modülü (CBAM) ile inşa edilmiş üç ölçekte çalışan bir tespit başlığı modeli kullanmaktadır. Model nesne tespiti sırasında, her ızgara hücresi pikselini bir referans kutu merkezi olarak kabul eder, oluşacak çok fazla sayıdaki nesne tahminini dengelemek için ise ilgili pikselin nesne merkezine uzaklığını ürettiği merkezilik çıktısı ile sağlamayı hedefler; merkeze yakın pikseller, daha yüksek bir katsayıyla sınıf skoru artırılırken uzak piksellerin skoru düşürülmektedir. Model toplamda üç farklı çıktı değeri üretmektedir: merkezilik skoru, sınıf skoru ve sınırlayıcı çerçeve tahmini. Sınıf skoru için İkili Sınıflı Çapraz Entropi Kaybı'nın (BCE) odaklı bir versiyonu olarak Odaklı Kayıp (Focal Loss) fonksiyonu kullanılmıştır, fonksiyon ek olarak hatalı sınıflandırılmış örneklerin etkisini artırırken doğru sınıflandırılmış örneklerin etkisini azaltır. Merkezilik skoru için İkili Çapraz Entropi Kaybı fonksiyonu kullanılmıştır. Çerçeve tahmini için ise Tamamlayıcı IoU (Kesişim/Birleşim Kümesi Oranı) Kaybı (CIoU Loss) fonksiyonu kullanılmıştır. Standart IoU kaybına ek olarak merkezler arası mesafe farkı ve en-boy oranı farklılığını da cezalandırmasıyla yaygın kullanılan bir kayıp fonksiyonu olma özelliğini taşır. Eğitim ve değerlendirme için Roboflow üzerinde Orta Doğu Teknik Üniversitesi tarafından oluşturulmuş Fire and Smoke Detection Dataset'ini (Türkçesi: Yangın ve duman tespiti veri kümesi) kullandık. Veri kümesi toplamda 6300 adet görsel içeriyor ve halihazırda %70-%20-%10 oranlarında eğitim, doğrulama ve test kümelerine bölünmüş şekilde ayrılmış ve eğitim veri kümesinde bazı temel veri çoğaltma yöntemleri uygulanarak örnek başına ekstra iki versiyon daha oluşturulacak şekilde kaydedilmiş. Çalışmada ekstra veri çoğaltma yöntemlerini rastgele şekilde uygulayarak eğitimi iyileştirme hedeflendi. Halihazırda eğitim kümesi üç katına çıkarıldığı için ekstra bir sayı artırımına gerek duyulmadı. Eğitim için görüntü boyutları 640x640 piksel olacak şekilde yeniden boyutlandırıldı, AdamW iyileştirme algoritması başlangıç öğrenme oranı 3e-4 olup 40. epok sonrasında 3e-5 olacak şekilde toplamda 75 epok ve yığın boyutu 16 olacak şekilde eğitildi. Önerdiğimiz FCOS-tabanlı modelimiz, [email protected] skorunda %58.5 ve F1 skorunda %60.3 değerlerine ulaştı; bu değerler, aynı veri kümesi üzerinde yapılan özelleştirilmiş Gerçek Zamanlı Nesne Tespit Transformatörü (RT-DETR) çalışmasına kıyasla yaklaşık %3 daha düşük [email protected] sağlarken bunu %20 daha az parametre kullanarak elde etmiştir. Bunun yanı sıra modelimiz temel RT-DETR modeline kıyasla %14 daha az hesaplama maliyeti (GFLOPs) ile çalışmıştır. Ayrıca, yaptığımız kalite testleri sonucunda, son teknoloji evrişimsel modellerden olan YOLOv8-m modeline kıyasla modelimiz %2.7 daha düşük [email protected] sağlarken bunu %55 daha az parametre ile ve %35 daha düşük hesaplama maliyeti ile elde ederek rekabetçi sonuçlar elde etmiştir. Ek olarak kalite testi çalışması olarak oluşturduğumuz özelleştirilmiş Faster R-CNN tabanlı modelimiz ise %55.7 [email protected] skoruna ulaşırken, FCOS-tabanlı ana modelimizle yaklaşık olarak aynı hesaplama maliyeti ile %2.8 daha düşük performans sergilemiştir.
Özet (Çeviri)
Fire and smoke detection is one of the most studied fields in the literature today. Considering the speed of climate change and its effects like fire starters, the field focuses on preventing potential disasters, saving the lives of people and wildlife, and protecting the environment by early detection systems and warnings. Especially early detection may have a vital effect to help slow down the spread of forest fires. Since the advent of deep learning, this task has been addressed into object detection methods, instead of sensor or detector based physical solutions. In this paper, we propose an anchor-free, lightweight, fully convolutional, one-stage object-detection-based deep neural network for fire and smoke detection. An anchor-free model eliminates the need for predefined, non-learnable anchor parameters. A lightweight model requires fewer computational resources, making it more environmentally friendly and better suited for such an ecological solution. It is also a one-stage model, trainable end-to-end without requiring a separate region proposal stage. Our proposed FCOS-based model integrates an EfficientNet-b3-based lightweight backbone to extract spatial information, a custom bidirectional Feature Pyramid Network built using Cross-Stage Partial (CSP) module of convolutional blocks and a Spatial Pyramid Pooling–Fast module, and a multi-scale Detection Head module built with depthwise-separable convolutional blocks and Convolutional Block Attention Modules. We discuss the background of object detection models, the differences and weaknesses of each method. We also propose a Faster R-CNN model as a two-stage object detector for an ablation study. The model is customized with MobileNet-v3 Large-based feature extractor network, an improved Region of Interest Head with a deeper convolutional structure and an improved Multi-layer Perceptron module for the Box Head detector. We used the Fire and Smoke Dataset from Roboflow for training and evaluation. Our FCOS-based primary model achieved an [email protected] score of 58.5% and an F1 score of 60.3%, which are 3% lower than that of the previous state-of-the-art RT-DETR-based transformer network while using 20% fewer parameters and incurring 14% lower computational cost (in GFLOPs) compared to the base RT-DETR model; our model also achieves 2.7% lower [email protected] score than previous state-of-the-art convolutional neural network based YOLOv8-m model while using 55% fewer parameters and 35% less computational cost in our benchmarks. We also achieved a [email protected] score of 55.7% (2.8% lower than the FCOS-based model) with our custom Faster R-CNN model, which requires approximately the same computational cost as the FCOS-based model.
Benzer Tezler
- Deep learning aided data detectionfor future wireless communication systems
Gelecek nesil telsiz haberleşme sistemleri içinderin öğrenme yardımıyla data tespiti
MERVE TURHAN
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN ALİ ÇIRPAN
- Identification of object manipulation anomalies for service robots
Servis robotları için nesne etkileşim anomalilerinin tanısı
DOĞAN ALTAN
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SANEM SARIEL UZER
- Sabit kanatlı insansız hava araçları için kilitlenme algoritması
Lock-on algorithm for fixed-wing unmanned aerial vehicles
MERVE İSMAİLVELİOĞLU
Yüksek Lisans
Türkçe
2025
Savunma ve Savunma Teknolojileriİstanbul Teknik ÜniversitesiSavunma Teknolojileri Ana Bilim Dalı
PROF. DR. MUSTAFA DOĞAN
- Deep learning-based building segmentation using high-resolution aerial images
Yüksek çözünürlüklü hava görüntüleri kullanarak derin öğrenme temelli bina bölütlemesi
BATUHAN SARITÜRK
Doktora
İngilizce
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
- CNN derin öğrenme tekniği kullanılarak prostat kanser hastalığının teşhisi
Diagnosis of prostate cancer disease using CNN deep learning technique
MEHMET EMİN SALMAN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İSMAİL HAKKI CEDİMOĞLU