Multimodal vision-based driver monitoring system in autonomous vehicles
Çok modlu görüntü tabanlı sürücü izleme sistemi otonom araçlarda
- Tez No: 856740
- Danışmanlar: YRD. DOÇ. DR. SEFER BADAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 77
Özet
Sürücü yorgunluğu ve dikkat dağınıklığı, yollardaki kazaların ve ölümlerin başlıca nedenleridir ve bu riskleri tespit etmek ve azaltmak için etkili teknolojilere acil bir ihtiyaç vardır. Bu tezde, sürücüleri potansiyel tehlikeler veya dikkat dağıtıcı unsurlara karşı algılayıp uyararak ve sürücü eylemlerinin ve davranışlarının daha kapsamlı ve sağlam bir temsilini sağlayarak yol güvenliğini artırmayı amaçlayan vizyon tabanlı bir sürücü izleme sistemi (DMS) sunduk. Birçok DMS'nin temel bileşenlerinden biri, kameralar tarafından yakalanan görüntülere veya videoya dayalı olarak sürücünün bakış yönünün veya noktasının tahmin edilmesini içeren bakış tahminidir. Literatürdeki yaklaşımların çoğu RGB verilerine odaklanmıştır ve bu yöntemlerin, düşük ışık veya yüksek parlama koşullarında daha sağlam olabilen IR verileriyle çalışacak şekilde uyarlanmasına yönelik araştırma eksikliği vardır. DMS'nin bir diğer önemli yönü, sürücünün performansını veya güvenliğini etkileyebilecek dikkat dağıtıcı unsurların veya bozuklukların saptanması ve sınıflandırılmasıdır. Bu dikkat dağıtıcılar, görsel veya işitsel uyaranlar gibi harici dikkat dağıtıcıları veya yorgunluk veya stres gibi dahili dikkat dağıtıcıları içerebilir. Birçok DMS, dikkat dağıtıcı unsurları algılamak ve sınıflandırmak için baş duruşu veya bakış tahmini gibi tek bir yöntem kullanır. Bununla birlikte, tek bir modalitenin kullanılması, tüm dikkat dağıtma türlerini doğru ve güvenilir bir şekilde tespit etmek ve sınıflandırmak için yeterli olmayabilir ve birden fazla modaliteyi birleştiren daha kapsamlı ve sağlam yaklaşımlara ihtiyaç vardır. Bununla birlikte, geleneksel DMS, dikkat dağıtıcı unsurları algılamak ve sınıflandırmak için genellikle kafa duruşu veya bakış tahmini gibi tek bir modaliteye güvenir. Bu yaklaşımlar, özellikle karmaşık veya dinamik sürüş ortamlarında, her tür dikkat dağıtmayı doğru ve güvenilir bir şekilde tespit etmek ve sınıflandırmak için yeterli olmayabilir. Bu nedenle, sürücünün eylemlerinin ve davranışlarının daha doğru ve güvenilir bir temsilini sağlamak için birden fazla yöntemi birleştiren daha kapsamlı ve sağlam yaklaşımlara ihtiyaç vardır. Tobii, empatica ve hem RGB hem de IR formatlarında kameralardan senkronize çıktı dahil olmak üzere çok modlu bir veri kaynağının kullanımını teşvik etmeye odaklanıyoruz, hem RGB hem de IR verileri üzerinde çalışan uyarlanabilir bir bakış tahmin modeli ve hibrit bir görsel dikkat dağıtma ile birlikte Kafa duruşu ve bakış tahminini birleştiren modül, görsel veya işitsel uyaranlar gibi harici dikkat dağıtıcılar ve yorgunluk gibi dahili dikkat dağıtıcılar dahil olmak üzere çeşitli dikkat dağınıklığı ve bozulma türlerini algılayabilen ve sınıflandırabilen daha kapsamlı ve doğru bir sürücü izleme sistemi ile sonuçlanacaktır. veya stres. Önerimiz, tek bir modaliteye dayanan geleneksel sürücü izleme sistemlerinin yeterli ve doğru olmadığı ve çok modlu bir veri kaynağı ve hibrit bir görsel dikkat dağıtma modülü kullanarak iyileştirme sağlayabileceğimiz gözlemine dayanmaktadır. Önerilen yöntem, bu çalışmada oluşturulan benzersiz veri seti kullanılarak önerilen sürücü izleme sisteminin geliştirilmesi ve değerlendirilmesi yoluyla test edilmiştir. Önerilen DMS, sürücü ve sürüş ortamı hakkında geniş bir bilgi yelpazesi sağlamak için bir kamera, araç CAN verileri ve diğer sensörleri içeren çok modlu bir veri kaynağına dayanmaktadır. DMS'nin doğruluğunu ve güvenilirliğini artırmak için, DMS'nin eğitimi, testi ve doğrulanması için kullanılabilen hem RGB hem de IR formatlarında birden çok sensörden senkronize çıktı içeren benzersiz bir veri seti geliştirdik. Bu veri seti, hem RGB hem de IR formatlarında birden fazla sensörden senkronize edilmiş çıktı içermesi bakımından benzersizdir; bu, her iki veri türü üzerinde çalışabilen DMS modüllerinin geliştirilmesine ve değerlendirilmesine olanak tanır. DMS'de çok modlu veri kaynakları kullanmanın bir zorluğu, sürücünün eylemlerini ve davranışlarını izlemek için kameraların veya sensörlerin kullanılmasıyla ortaya çıkan gizlilik endişeleridir. Bu çalışma, uygun koruma önlemleri ve onay mekanizmalarını kullanarak ve DMS tarafından toplanan ve işlenen verilerin yalnızca sürücüleri potansiyel tehlikeleri veya dikkat dağıtıcı unsurları tespit etmek ve bunlara karşı uyarmak amacıyla kullanılmasını sağlayarak bu endişeleri dikkate alır. Bu çalışma, bu gizlilik endişelerini ele alarak DMS'de çok modlu veri kaynaklarının kullanımının etik ve sürücünün haklarına ve onuruna saygılı olmasını sağlar. Farklı dikkat dağınıklığı ve bozulma türlerini tespit etmek ve sınıflandırmak için, baş duruşu ve bakış tahminini birleştiren hibrit bir görsel dikkat daşıtma modülü geliştirdik. Ayrıca hem RGB hem de IR verileri üzerinde çalışan uyarlanabilir bir bakış tahmini modeli geliştirdik ve HourGlass CNN'yi IR verileri üzerinde çalışacak şekilde uyarladık. Uyuşukluğu algılamak için Mediapipe çerçevesini ve Empatica e4 bilekliğini kullandık ve telefon kullanımını, sürücü varlığını ve yeme/içmeyi algılamak için bilgisayar görüşü ve algılama algoritmalarının bir kombinasyonunu kullandık. Genel olarak, bu çalışma, geleneksel DMS'nin zorluklarını ve sınırlamalarını ele almayı ve dikkat dağıtıcı unsurları ve bozulmaları tespit etmek ve sınıflandırmak için daha kapsamlı ve doğru bir çözüm sağlamayı amaçlamaktadır. Literatürdeki bu boşlukları ele alan bu çalışma, DMS'nin güvenliğini ve etkinliğini önemli ölçüde artırma ve yollardaki kaza ve ölüm olaylarını azaltma potansiyeline sahiptir. DMS'nin performansını değerlendirmek için doğruluk, kesinlik, yanlış pozitif oranı vb. dahil olmak üzere çeşitli ölçütler ve kıyaslamalar kullandık. Sonuçlar, DMS'nin farklı türlerdeki dikkat dağıtma ve bozulmaları tespit etmede ve sınıflandırmada yüksek doğruluk ve güvenilirlik elde ettiğini gösterdi. Sonuç olarak, bu tez çok modlu veri kaynakları ve hibrit bir görsel dikkat da˘gıtma modülü kullanarak sürücü izleme sistemlerindeki dikkat da˘gıtıcı unsurları ve bozuklukları tespit etmek ve sınıflandırmak için kapsamlı ve esnek bir çözüm sunar. Bu çalışma, çeşitli aydınlatma koşullarında ve sürüş ortamlarında DMS'nin doğruluğunu ve güvenilirliğini artırmak için tasarlanmış benzersiz bir veri seti, uyarlanabilir bir bakış tahmin modeli ve hibrit bir görsel dikkat dağıtma modülü sağlayarak alana önemli bir katkı sağlamaktadır. DMS'de çok modlu veri kaynaklarını kullanmanın zorluklarını ve sınırlamalarını ele alan bu çalışma, bu sistemlerin güvenliğini ve etkinliğini önemli ölçüde artırma ve yollardaki kaza ve ölüm olaylarını azaltma potansiyeline sahiptir.
Özet (Çeviri)
Driver fatigue and distractions are major causes of accidents and fatalities on the roads, and there is a pressing need for effective technologies to detect and mitigate these risks. In this thesis, we presented a vision-based driver monitoring system (DMS) that aims to improve road safety by detecting and alerting drivers to potential dangers or distractions, and by providing a more comprehensive and robust representation of the driver's actions and behaviors. The DMS is based on a multimodal data source, comprising a camera, vehicle CAN data, and other sensors, to provide a wide range of information about the driver and the driving environment. To improve the accuracy and reliability of the DMS, we developed a unique dataset containing synchronized output from multiple sensors in both RGB and IR formats, which can be used for training, testing, and validation of the DMS. This dataset is unique in that it contains synchronized output from multiple sensors in both RGB and IR formats, which allows for the development and evaluation of DMS modules that can operate on both types of data. To detect and classify different types of distractions and impairments, we developed a hybrid visual distraction module that combines head pose and gaze estimation. We also developed an adaptive gaze estimation model that works on both RGB and IR data, and we adapted the HourGlass CNN to work on IR data. To detect drowsiness, we used the Mediapipe framework and Empatica e4 wristband, and to detect phone usage, driver presence, and eating/drinking, we used a combination of computer vision and detection algorithms. To evaluate the performance of the DMS, we used a variety of metrics and benchmarks, including accuracy, precision, false positive rate, etc. The results showed that the DMS achieved high accuracy and reliability in detecting and classifying different types of distractions and impairments. Overall, this work makes a significant contribution to the field of driver monitoring and road safety by providing a novel and effective approach for detecting and mitigating driver fatigue and distractions using multimodal data and a hybrid visual distraction module. The unique dataset and the proposed DMS can be used as a benchmark for future research and development in this area. In addition, the results of this study have the potential to inform policy and practice related to driver monitoring and road safety, and to improve the safety and efficiency of transportation systems.
Benzer Tezler
- Sürdürülebilir ulaşım bağlamında hizmet olarak hareketlilik (Mobılıty as a servıce – Maas): İstanbul
Evaluating the concept of mobility as a service within the scope of sustainable transport: The case of İstanbul
VİLDAN ÇETİNER
Yüksek Lisans
Türkçe
2023
Ulaşımİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. EDA BEYAZIT İNCE
- Exploring the capabilities of large language models in visual question answering: A new approach using question-driven image captions as prompts
Büyük dil modellerinin görsel soru yanıtlama yeteneklerinin keşfedilmesi: Soru odaklı görüntü altyazılarını istem olarak kullanan yeni bir yaklaşım
ÖVGÜ ÖZDEMİR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiModelleme ve Simülasyon Ana Bilim Dalı
DOÇ. DR. ERDEM AKAGÜNDÜZ
- Fire detection algorithms using multimodal signal and image analysis
Çokkipli işaret ve imge çözümleme tabanlı yangın tespit algoritmaları
BEHÇET UĞUR TÖREYİN
Doktora
İngilizce
2009
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
PROF. DR. A. ENİS ÇETİN
- Yinelemeli sinir ağları ile işaret dili tanıma
Sign language recognition with recurrent neural networks
İBRAHİM ÇETİNKAYA
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. TAMER ÖLMEZ
- Social behavior learning for an assistive companion robot
Yardımcı robotlar için sosyal davranış öğrenimi
PINAR ULUER
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE