Monodepth-based object detection and depth sensing for autonomous vehicle vision systems
Monodepth tabanlı otonom araç görüş sistemleri için nesne tespiti ve derinlik algılama
- Tez No: 920449
- Danışmanlar: DR. ÖĞR. ÜYESİ GÖKHAN SEÇİNTİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 87
Özet
Otonom araçlar, modern teknolojinin en dikkat çekici ve potansiyel dolu alanlarından birini oluşturuyor. Bu araçlar, insan müdahalesi olmadan çevrelerindeki nesneleri algılayabilen, çeşitli trafik koşullarında güvenli bir şekilde hareket edebilen ve hatta seyahat rotalarını planlayabilen araçlardır. Otonom araçların gelişimi, mobiliteyi kökten değiştirecek bir potansiyel taşıyor. Bu gelişimde, yapay zeka teknolojilerinin belirleyici bir rolü bulunmaktadır. Yapay zeka, otonom araçların beyni olarak düşünülebilir. Derin öğrenme, makine öğrenimi ve benzeri teknikler, araçların çevrelerindeki nesneleri algılamalarını, bu verileri işlemelerini ve uygun tepkiler vermelerini sağlar. Örneğin, kameralar, lidarlar, radarlar ve diğer sensörler aracılığıyla toplanan verileri analiz ederek, yapay zeka sistemleri aracın çevresini anlamlandırır ve güvenli bir seyahat sağlamak için gerekli kararları alır. Bu bağlamda, otonom araçların çevresel nesneleri algılayıp uzaklıklarını belirleme süreci, geleneksel ve yapay zeka tabanlı yöntemlerle giderek daha da geliştirilmektedir. Derin öğrenme modelleri, karmaşık görüntü verilerini işleyerek nesne algılama ve konum belirleme yeteneklerini artırabilir. Bu gelişmeler, otonom araçların güvenliğini ve etkinliğini artırmaya yönelik çabalarda önemli bir rol oynamaktadır. Otonom araçlar, çevrelerindeki nesneleri algılamak ve konumlarını belirlemek için bir dizi sensör kullanır. Bu sensörler arasında lidarlar, radarlar, kameralar ve ultrasonik sensörler bulunabilir. Gelen veriler, aracın çevresindeki nesnelerin algılanması ve araçla nesneler arasındaki mesafelerin belirlenmesi için işlenir. Özellikle, kamera sensörleri, aracın çevresindeki nesneleri algılamak için yaygın olarak kullanılır. Stereo kamera sistemleri veya 3D kameralar kullanılarak elde edilen görüntüler, derinlik bilgisini sağlayarak çevredeki nesnelerin konumlarının belirlenmesine yardımcı olur. Ancak, tek mercekli 2D kameralardan mesafe tahmini yapmak zorlu bir süreçtir. Bu kameralar, derinlik algısını sağlamak için paralaks gibi stereoskopik bilgileri kullanamazlar, bu da mesafe tahmininin doğruluğunu etkiler. Stereo veya 3D kameraların yanı sıra lidarlar ve radarlar gibi diğer sensörlerin kullanılması da otonom araçların nesneleri algılamasına ve mesafeleri belirlemesine yardımcı olabilir. Ancak, bu sensörlerin maliyeti genellikle yüksektir, bu da otonom araç teknolojisinin yaygınlaşmasını kısıtlayabilir. Artan sensör maliyetleri ve 3D kameraların farklı ortam koşullarına uyum sağlama ihtiyacı, araştırmacıları 2D kamera görüntüleri üzerinde odaklanmaya yönlendirdi. Gelişen sinir ağları, bu 2D görüntüler üzerinde önemli başarılar elde etmeye başladı. Bu başarılar, çeşitli yapay zeka teknikleriyle donatılan sinir ağlarının, çevresel nesnelerin algılanması ve mesafelerinin belirlenmesinde 2D kamera verilerini etkili bir şekilde kullanabildiğini göstermektedir. Bu gelişmeler, otonom araçlar ve diğer uygulamalarda kullanılan algılama ve mesafe belirleme sistemlerinin daha ekonomik ve esnek hale gelmesine katkı sağlayabilir. Dolayısıyla, 2D kamera görüntüleri üzerinde yapılan çalışmalar, artan sensör maliyetlerine ve 3D kameraların çeşitli ortam koşullarına uyum sağlama zorunluluğuna bir alternatif olarak öne çıkmaktadır. Bu çalışmada, 2D kamera görüntülerinde nesne tespiti ve nesne mesafelerinin tahmini için iki ayrı yapay sinir ağı kullandık. Ayrıca, daha sağlam bir mesafe tahmini elde etmek amacıyla yeni bir algoritma olan Ağırlıklı Mesafe Tahmin Algoritması'nı uyguladık. Bu algoritma, nesnelerin tespit edilmesi ve konumlandırılması için kullanılan yapay sinir ağlarından elde edilen konum bilgilerini temel alarak daha doğru mesafe tahminleri sağlamayı amaçlamaktadır. Çalışmamız, 2D kamera görüntülerinin kullanımıyla ilgili olarak hem nesne tespiti hem de mesafe tahmini alanlarında yeni yöntemlerin geliştirilmesine katkıda bulunmaktadır. Bağımsız ve paralel olarak çalışan modellerde, nesne tespiti için You Only Look Once (YOLO) algoritmasını kullanırken, tahmin edilen mesafeleri algılamak için U-Net mimarisine dayalı Monodepth2 modelini kullanmaktayız. Yöntemin gerçek dünya koşullarında çalışmasını test etmek amacıyla Nvidia Jetson cihazı üzerinde test edilmesi önemlidir. Nvidia Jetson gibi yerel işlem gücüne sahip cihazlar, yapay zeka modellerini yerinde çalıştırarak gerçek zamanlı uygulamalarda yüksek performans sağlayabilen kompakt ve enerji-verimli sistemlerdir. Bu platformda test edilmesi, yöntemin mobilite ve pratik kullanılabilirliği açısından önemli bir adımdır. Nvidia Jetson üzerinde başarılı bir şekilde çalışması, yöntemin gerçek dünya uygulamalarında yaygın olarak kullanılabilirliğini ve güvenilirliğini artırır. Nesne tespiti için YOLOv8 (You Only Look Once V8) algoritması tercih edildi. YOLOv8, görüntüdeki nesneleri tek bir aşamada algılayabilen ve sınıflandırabilen hızlı ve etkili bir derin öğrenme modelidir. Bu özelliği, gerçek zamanlı uygulamalarda kullanımını tercih edilen bir hale getirir. YOLOv8'in diğer geleneksel nesne tespit algoritmalarına kıyasla avantajı, tek bir geçişte nesneleri algılayıp sınıflandırması ve bu sayede yüksek hız ve etkinlik sağlamasıdır. Bu özellikler, yöntemin nesne tespiti sürecinde yüksek doğruluk ve hız sağlamak amacıyla tercih edilmesini sağlar. Derinlik tahmini için Monodepth2 modeli tercih edildi. Monodepth2, U-Net mimarisi üzerine kurulmuş bir derin öğrenme modelidir ve tek bir görüntüden stereo eşdeğer derinlik haritaları oluşturmak için kullanılır. Bu model, tek kamera görüntülerinden derinlik tahmini yaparken yüksek doğruluk sağlar. U-Net mimarisi, girdi görüntüsünün her bir pikseli için derinlik bilgisi üretmek üzere tasarlanmış olup, özellikle tek gözlü kamera sistemlerinden elde edilen görüntüler için etkili bir şekilde çalışır. Monodepth2 modelinin tercih edilmesi, derinlik tahmini sürecinde yüksek doğruluk ve güvenilirlik sağlamak amacıyla yapılmıştır. Bu model, tek bir kameradan elde edilen görüntülerle nesne mesafelerini tahmin etmek için kullanıldığından, gerçek zamanlı uygulamalarda kullanımı yaygın olarak tercih edilen bir hale gelir. Nesne algılamayla tanımlanan sınırlayıcı kutular içinde arka plan görüntüsü, genellikle algılanan nesnenin sınırlarının ötesine uzanır. Bu durumda, arka plana atfedilen pikseller, ortalama derinlik tahmininde bozulma yaratma potansiyeline sahiptir. Bu durum, özellikle derinlik tahmini için tek bir görüntü kullanıldığında belirgin hale gelir. Bu endişeyi gidermek için, bir ağırlıklı mesafe tahmin algoritması kullanıyoruz. Bu algoritma, algılanan nesnelerin gerçek konumlarına daha yakın tahminler elde etmek için sınırlayıcı kutulardaki piksellerin ağırlıklı olarak dikkate alınmasını sağlar. Bu sayede, derinlik tahmininde olası bozulmalar azaltılarak daha doğru sonuçlar elde edilir. Bu çalışmada, derinlik tahmini için KITTI Dataseti, nesne tespiti için ise BDD100K veri setleri kullanıldı. KITTI Dataseti, genellikle derin öğrenme modellerinin eğitimi ve değerlendirilmesi için kullanılan yaygın bir veri setidir ve genellikle otonom sürüş uygulamaları için kullanılır. Öte yandan, BDD100K veri seti, büyük ölçekli nesne algılama, sınıflandırma ve segmentasyon problemleri üzerine odaklanan bir veri setidir. Eğitilen modellerin gerçek hayata uyarlanabilmesi için, optimizasyon çalışmaları gerçekleştirildi ve bu modellerin Nvidia Jetson cihazı üzerinde çalışabilirliği test edildi. Bu kapsamda, modellerin performansını artırmak ve daha etkin bir şekilde çalışmalarını sağlamak için optimizasyon adımları uygulandı. Ayrıca, modelin Nvidia Jetson gibi yerel işlem gücüne sahip cihazlarda doğru bir şekilde çalışıp çalışmadığını kontrol etmek amacıyla onnx ve TensorRT dönüşümleri yapıldı. Bu süreç, eğitilen modellerin pratik uygulamalarda kullanılabilirliğini artırmak ve gerçek dünya koşullarında başarılı bir şekilde çalışmalarını sağlamak için önemli bir adımdır. Geliştirilen uygulama, Nvidia Jetson Xavier NX üzerinde başarıyla çalışarak, gerçek zamanlı işleme performansında 12 FPS hızında sorunsuz bir performans sergiliyor. Bu uygulama, otonom araç sistemlerinde kullanılabilecek güçlü bir gömülü cihazın yeteneklerini ortaya koymaktadır. Nesne tespiti ve mesafe tahmini gibi kritik görevleri güvenilir bir şekilde yerine getirebilmesi, 2D tek gözlü kameraların dahi kullanılmasıyla mümkün olduğunu kanıtlamaktadır. Ortalama Mutlak Hata'nın 1.51 metre olması, uygulamanın doğruluğunu ve güvenilirliğini vurgulamaktadır. Bu başarılar, otonom araç teknolojilerinin pratikte kullanımına önemli bir adım sağlar.
Özet (Çeviri)
This study explores object recognition and distance measurement technologies for autonomous vehicles and addresses advancements in this area. Autonomous vehicles are vehicles capable of perceiving objects in their surroundings and moving safely without human intervention. The progress in these technologies holds the potential to revolutionize mobility, largely driven by the significant role of artificial intelligence in enabling these advancements. Artificial intelligence is considered a fundamental component for autonomous vehicles to perceive environmental conditions and ensure safe travel. Techniques such as deep learning and machine learning allow vehicles to process data collected through cameras, lidars, radars, and other sensors to interpret their surroundings and provide safe responses. The processes of object detection and depth estimation are continually being improved with traditional and AI-based methods.Deep learning models improve object detection and localization capabilities by processing complex image data, thereby enhancing the safety and performance of autonomous vehicles. Autonomous vehicles use various sensors to detect environmental objects and determine distances. These sensors include lidars, radars, cameras, and ultrasonic sensors. Data collected from these sensors are processed to perceive surrounding objects and determine distances from the vehicle. While camera sensors are widely used, distance estimation with single-lens 2D cameras can be challenging. Advancements in artificial intelligence techniques have achieved significant success with 2D camera images. Particularly, these techniques offer alternatives to challenges such as increasing sensor costs and the need for 3D cameras to adapt to various environmental conditions, enhancing the importance of progress in this area. In this study, different artificial neural network models were used for object detection and depth estimation. Optimization efforts were conducted to adapt trained models for real-world applications, and testing on the Nvidia Jetson device was considered a crucial step. The developed application achieved successful results in real-time processing performance, representing a significant advancement in autonomous vehicle technologies. The real-time processing performance of the developed application was determined to be 12 frames per second (FPS). Additionally, the average absolute error value obtained in the object detection and distance estimation areas was measured as 1.51 meters. These values indicate that the application operates quickly and reliably, accurately predicting object locations.
Benzer Tezler
- Developing a new system for advertisement analysis using gaze and depth analysis methods
Bakış ve derinlik analizi yöntemleri kullanılarak reklam analizi için yeni bir sistem geliştirilmesi
FATİH BADAY
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBüyük Veri ve Veri Analitiği Ana Bilim Dalı
DOÇ. DR. ÖMER FARUK BEYCA
- Tasarım temelli STEM eğitimi etkinliklerinin 7. sınıf öğrencilerinde akademik başarılara, stem'e yönelik tutumlara ve STEM meslek ilgisine olan etkisinin belirlenmesi
Determining the effect of design based STEM education activities on academic success of middle school 7th grade students, attitudes towards STEM and stem profession
DERYA GÜNEŞ VAROL
Yüksek Lisans
Türkçe
2020
Eğitim ve ÖğretimFırat ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
PROF. DR. EROL ASİLTÜRK
- Deep learning approaches for the localization of capsule endoscope
Kapsül endoskopi lokalizasyonu için derin öğrenme yaklaşımları
KUTSEV BENGİSU ÖZYÖRÜK
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBiyomühendislik Ana Bilim Dalı
DOÇ. DR. BORA GARİPCAN
DR. MEHMET TURAN