Geri Dön

Deep learning-based detection and segmentation for 3D perception of the urban world

Kentsel dünyanın 3D algısı için derin öğrenme tabanlı tespit ve segmentasyon

  1. Tez No: 956146
  2. Yazar: BAHADIR AKIN AKGÜL
  3. Danışmanlar: DR. ÖĞR. ÜYESİ İSMAİL BURAK PARLAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Galatasaray Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 125

Özet

Otonom sürüş teknolojilerindeki hızlı ilerleme, karmaşık kentsel trafik sahnelerini anlayabilen algılama sistemlerine olan ihtiyacı daha da belirgin hale getirmiştir. Bu tez çalışması, yalnızca görüntü verilerine dayalı olarak çalışan bir derin öğrenme sistemi sunmaktadır. Sistem, trafik ortamlarında yer alan üç temel öğeyi, yani yolu, aracı ve yayayı tanıma ve ayırt etme üzerine odaklanmaktadır. Yöntem, 360 derece kameralarla elde edilen görüntülerin 2D projeksiyonlarını kullanmakta ve LiDAR gibi ek sensörlere ihtiyaç duymamaktadır. Bu yaklaşım, özellikle düşük maliyetli ve ölçeklenebilir çözümler sunmayı hedefleyen akıllı ulaşım sistemleri için önemlidir. Geliştirilen modellerin eğitimi ve test edilmesi için, İstanbul, Paris, Münih ve Marsilya şehirlerinden alınan Google Street View görüntüleriyle oluşturulmuş özel bir veri seti kullanılmıştır. Veri seti, 8.932 etiketli görüntü ve 149.000'in üzerinde nesne anotasyonu içermektedir. Farklı şehir yapılarına ve trafik koşullarına sahip bu veri seti, modelin genel performansını değerlendirmek için zengin bir içerik sunmaktadır. Nesne tespiti için YOLOv8 ve YOLOv10 modelleri, semantik segmentasyon için ise DeepLabV3 modeli tercih edilmiştir. Modeller farklı eğitim-doğrulama oranlarında test edilmiş ve standart ölçütlerle değerlendirilmiştir. En iyi tespit performansı YOLOv10 ile elde edilmiş, model [email protected] değerinde 0.685 ve genel kesinlikte 0.76 sonuçlarına ulaşmıştır. Segmentasyon tarafında ise DeepLabV3 modeli, yol sınıfında 0.85'in üzerinde IoU ve net bölgelerde 0.80'i aşan F1 skorları ile yüksek başarı göstermiştir. Bu sonuçlar, yalnızca görüntü kullanan sistemlerin, kentsel trafik sahnelerinin analizinde gerçek zamanlı ve etkili biçimde çalışabileceğini göstermektedir. Bu tez kapsamında geliştirilen sistem, görüntü tabanlı otonom araç teknolojileri için hem uygulanabilir hem de geliştirilebilir bir temel sunmakta ve literatüre yeni bir veri seti kazandırmaktadır.

Özet (Çeviri)

The rapid development of autonomous driving technologies has highlighted the growing need for perception systems that can understand and interpret complex urban traffic scenes. This thesis presents a deep learning-based, vision-only framework that focuses on the detection and segmentation of three key elements in traffic environments: roads, vehicles, and pedestrians. The system operates using 2D image projections generated from 360-degree cameras, without relying on LiDAR or any other external sensors. This approach aims to offer a scalable and cost-effective solution for intelligent transportation applications. To train and evaluate the proposed models, a custom dataset was created using Google Street View imagery collected from four major European cities: Istanbul, Paris, Munich, and Marseille. The dataset includes 8,932 labeled images and more than 149,000 object annotations, providing a diverse range of traffic scenes under varying urban conditions. YOLOv8 and YOLOv10 models were used for object detection, while DeepLabV3 was applied for semantic segmentation. The models were evaluated across different train-validation splits using standard metrics. YOLOv10 achieved the best detection performance with a [email protected] score of 0.685 and an overall precision of 0.76. DeepLabV3 produced strong segmentation results, including IoU scores above 0.85 for road detection and F1 scores exceeding 0.80 in clearly defined object regions. These results indicate that image-only systems can effectively perform traffic scene analysis in real time. The framework developed in this thesis demonstrates the potential of deep learning for urban scene understanding and contributes a new dataset that supports future research in vision-based autonomous navigation.

Benzer Tezler

  1. Ray ve çevresindeki nesnelerin tespiti ve mesafe ölçümü için derin öğrenme tabanlı yaklaşımların geliştirilmesi

    Development of deep learning-based approaches for the detection and distance measurement of rails and surrounding objects

    MUHAMMED AMİR ELMUHAMMEDCEBBEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLHAN AYDIN

  2. Hardware ımplementatıon of 3D data processıng usıng deep neural networks

    Derin öğrenme algoritmaları ile 3 boyutlu veri işleme ve donanım gerçeklemesi

    MUHAMMED YASİN ADIYAMAN

    Doktora

    İngilizce

    İngilizce

    2025

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSMAİL FAİK BAŞKAYA

  3. Deep learning-based techniques for 3D point cloud analysis

    3B nokta bulutu analizi için derin öğrenme temelli teknikler

    YUSUF HÜSEYİN ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖZDE ÜNAL

  4. Investigation of artificial intelligence-based point cloud semantic segmentation

    Yapay zeka tabanlı nokta bulutu semantik bölümlendirmesinin incelenmesi

    MUHAMMED ENES ATİK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. ZAİDE DURAN

  5. Planar geometry estimation with deep learning

    Derin öğrenme ile düzlemsel geometrinin tahminlenmesi

    FURKAN EREN UZYILDIRIM

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA ÖZUYSAL