Wavedrive: a pipeline for gesture recognition using hands' orientation and polar coordinates
Wavedrive: ellerin yönünü ve polar koordinatları kullanarak jest tanıma için bir boru hattı
- Tez No: 948098
- Danışmanlar: PROF. DR. ERDİNÇ ALTUĞ
- Tez Türü: Yüksek Lisans
- Konular: Mekatronik Mühendisliği, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 73
Özet
Otonom araçlar, insan tarafından sürülen otomobillerden daha güvenli kabul edildikleri bir noktaya kadar dönüşmüştür. Hem araçtaki sürücülerin hem de dışarıdaki yayaların emniyetini ve güvenliğini artırmak için gelişmiş kontrol sistemlerinden karmaşık makine öğrenimi algoritmalarına kadar çeşitli teknoloji araçları kullanırlar. Otonom araçların, özellikle gerekli altyapıya sahip bölgelerde yakın gelecekte vazgeçilmez bir parça olacağı öngörülmektedir. Bu, bu alandaki farklı sorunları çözmeye odaklanan hem akademik kurumlarda hem de ticari pazarlarda araştırmaların artmasına yol açmıştır. Tüm bunlar dikkate alınmasıyla birlikte, insanların otonom araç deneyimini benimsemesini engelleyen duygusal zeka eksikliği gibi bazı sosyal engeller de vardır. Bir diğer önemli etken ise farklı insan operatörleri ve/veya yayalar ile otonom araçlar arasındaki etkileşimin kalitesidir. Yanlış algılar ve iletişim hataları, karışıklıklara ve güvenli olmayan koşullara neden olabilecektir. Normalde, sürücüler ve operatörler arasındaki bir etkileşim, 2 taraf arasında bir iletişim protokolü oluşturur. Burada açık bir etkileşim, her iki tarafın niyetlerinin yorumlanmasını kolaylaştırır. Bu tez çalışmasında bu zorluklar ele alınmış olup, insan-araç iletişim akışına odaklanmıştır. Belirli operatörler tarafından gösterilmekte olan jest tabanlı mesajları anlamak için araçlara monte edilmiş görüş tabanlı bir boru hattı sunmakta ve birden fazla farklı faktörü göz önünde bulundurmaktayız. Bu nedenle, burada, görüş alanı içindeki yönelimlerine ve kutup koordinatlarına baktıktan sonra gösterilen jestleri inceleyen oldukça benzersiz bir çözümü araştırmaktayız. Günümüzde sürücüsüz araçların yaygınlaşmasıyla birlikte, bu araçların insanlarla güvenli ve doğal bir şekilde iletişim kurması büyük önem taşımaktadır. Bu ihtiyacın temelinde, insanların otonom sistemlere karşı duyduğu güven eksikliği ve yanlış anlama olasılığı yatmaktadır. Özellikle kısa süreli karşılaşmalarda, insan operatörlerin yönlendirmeleri net bir şekilde algılanmalıdır. Kültürel farklılıklar da aynı jestlerin farklı anlamlara gelebileceğini göstermekte, bu da sistemin esnekliğini zorunlu kılmaktadır. Bu tezde tanıtılan boru hattı 3 farklı sinir ağı modeline dayanmaktadır. Bu kademeli akıştaki modeller, özel, elle toplanmış ve etiketlenmiş veri kümeleri üzerinde eğitilmiştir. Toplanan veri kümeleri, 2 görsel ve 1 sayısal koleksiyona bölünmüştür. Koleksiyonlardan 2'si orijinal verilerin önceden işlenmiş ve filtrelenmiş versiyonlarını temsil etmektedir. Açıklama ve ön işleme, kullanıcı arayüzü tabanlı etiketleme araçları ve veri kazıma teknikleri dahil ancak bunlarla sınırlı olmamak üzere farklı teknolojiler ve metodolojiler kullanılarak elle gerçekleştirilmiştir. Veri seti oluşturulurken çeşitlilik ve gerçekçilik ön planda tutulmuştur. Katılımcılar farklı renklerde yelekler (sarı ve turuncu), eldivenli ve eldivensiz olarak görüntülenmiş, böylece modelin genelleme yeteneği artırılmıştır. Görsellerin farklı saatlerde, doğal ışık altında toplanması, farklı aydınlatma koşullarında sistem performansının test edilmesini sağlamıştır. Etik kurallar çerçevesinde, tüm gönüllüler bilgilendirilmiş onam formu imzalamış, reşit olmayan katılımcılar için ebeveyn izni alınmıştır. Eğitim, performanslarını doğru bir şekilde değerlendirmek için 2 model için veri kümelerinin farklı versiyonları üzerinde yapılmıştır. Entegrasyon, operatör algılama ve hareket yönelimi tanıma için hem 2 aşamalı hem de 1 aşamalı nesne algılama modelleri içermiştir. Faster R-CNN modeli, büyük nesneleri yüksek doğrulukla tespit edebilme yeteneği sayesinde yelekli operatörleri algılamada tercih edilmiştir. YOLOv10 ise küçük nesneleri tespit etmede gösterdiği başarı nedeniyle el yönelimi tanıma için seçilmiştir. ANFIS kullanımı, belirsizlikle başa çıkmak ve klasik sinir ağlarının açıklanabilirlik eksikliğini gidermek adına kritik bir katkı sağlamaktadır. Bu kombinasyon, sistemin hem doğruluğunu hem de güvenilirliğini artırmıştır. Son model, bulanık mantığı birleştirerek sinir ağlarının belirsizlik dezavantajının üstesinden gelmekte ve sallanan hareketlerin bireysel yorumlarını çıkarmaktadır. Son yapı Python kullanarak uygulanmıştır. Paralel hesaplama için iş parçacığından ve görsel verileri beslemek ve ön işleme tabi tutmak için ünlü açık kaynaklı bilgisayarlı görü OpenCV kütüphanesinden yararlanmıştır. Ayrıca ana ve çatallı yayınlar üzerinde tahminler çizmek için kullanılmıştır. Test senaryoları, boru hattının farklı ışık koşullarında nasıl performans gösterdiğine dair tam bir resim elde etmek için hem iç hem de dış mekanlarda gerçekleştirilmiştir. Dış mekan testleri, doğal ışığın model performansına olumlu etkisini gösterirken, kapalı alan testleri özellikle loş ışıkta sistemin sınırlamalarını ortaya koymuştur. Simülasyon ortamındaki başarı, gerçek hayattaki zorlukları birebir yansıtmamakta; gerçek dünya koşullarındaki hareketli ortam, ışık değişiklikleri ve insan davranışları sistemin performansını etkileyebilmektedir. Bu nedenle her iki ortamın dengeli şekilde değerlendirilmesi, sistemin güvenilirliğini ortaya koymak açısından önemlidir. Kavram kanıtı olarak, robot simülatörü CoppeliaSim'de boru hattı ile KUKA youBot arasında bir iletişim arayüzü de oluşturulmuştur. Bu API veri alışverişi, Mecanum tekerlek tabanlı otonom robotun hareketini kontrol ederek etkileşimleri görselleştirmeye yardımcı olmuştur. Boru hattı ayrıca laboratuvar ortamında diferansiyel tekerlekli bir robot üzerinde 2 gerçek dünya senaryosunda test edildi. WaveDrive boru hattı, jest tabanlı sistemler aracılığıyla otonom araç iletişiminde önemli bir ilerlemeyi temsil etmektedir. Boru hattı, güçlü bilgisayarlı görüşü ve derin öğrenme teknolojilerini entegre ederek jest tanımadaki gerçek dünya nüanslarıyla başa çıkabilmektedir. Bu tez, boru hattının operatörleri tutarlı bir şekilde doğru bir şekilde tanıma, jest yönünü doğru bir şekilde belirleme ve jest konumunu doğru bir şekilde tahmin etme yeteneğini kesin bir şekilde ortaya koymaktadır. İleride yapılacak çalışmalarda, sistemin dinamik jestleri de tanıyabilmesi için zaman temelli modellemeler entegre edilebilir. Derinlik kamerası, LIDAR gibi sensörlerle veri birleştirme (sensor fusion) yapılması, pozisyon ve mesafe tahminlerinin doğruluğunu artıracaktır. Ayrıca, çoklu operatör senaryoları ve kalabalık ortamlarda da sistemin geçerliliğinin test edilmesi, pratik uygulamalarda başarısını artıracaktır. WaveDrive'ın çeşitli test koşullarındaki sağlamlığı, gerçek dünya uygulamalarında kullanılabilirliği ve güvenilirliğinin bir göstergesidir ve jest tabanlı iletişim sistemlerinin evrensel uygulamasına doğru büyük bir adımdır. Ancak, sistemin daha uzun menzillerdeki küçük yetersizlikleri, gelecekte iyileştirme için alan olduğunu göstermektedir. Gelecekteki araştırmalar, daha karmaşık, dinamik ve kontrolsüz ortamlar için sistemin esnekliğini iyileştirmeye, gerçek zamanlı hesaplama performansını geliştirmeye ve WaveDrive'ın geniş bir endüstriyel ve güvenlik açısından kritik uygulama yelpazesinde kullanılabilirliğini artırmak için optimize edilmiş donanım çözümlerini daha da iyileştirmeye odaklanacaktır. Ayrıca, operatörlerin statik duruşları yerine dinamik jestleri incelemeye de odaklanabilir. Bu çalışma, açık jest tabanlı etkileşimleri daha güvenli ve daha etkili insan-araç etkileşimine doğru ilerletmek için somut bir temel sağlar ve potansiyel olarak farklı endüstri sektörlerinde operasyonel uygulamayı dönüştürür. WaveDrive sistemi, yalnızca AV'lerle değil; inşaat sahaları, depo otomasyonu, afet bölgeleri, güvenlik birimleri gibi birçok sektörde kısa süreli ancak kritik insan-makine etkileşimleri için ideal bir çözüm olarak kullanılabilir. Özellikle yaşlı, çocuk veya engelli bireylerin bulunduğu bölgelerde, görsel komutlarla yönlendirme sağlayarak toplumsal fayda yaratabilir.
Özet (Çeviri)
Autonomous vehicles have evolved to a point where they are considered safer than man-driven automobiles. They use a variety of tools ranging from advanced control systems to complicated machine learning algorithms to enhance the safety and security of both onboard drivers and outdoor pedestrians. It is predicted that self-driving cars will be an indispensable part of the near future, especially in territories with the required infrastructure. This led to a spike in research in both academic institutions and commercial markets that focused on solving different problems in this field. All that being said, there are some social obstacles preventing people from adopting the autonomous vehicle experience, such as the lack of emotional intelligence. Another important factor is the quality of interaction between different human operators and/or pedestrians and autonomous vehicles. Misinterpretations and miscommunications may cause confusion and unsafe conditions. Normally, an encounter between drivers and operators establishes a communication protocol between the 2 parties. An explicit interaction here eases the interpretation of the intentions of both sides. Those challenges are introduced in this thesis to focus on the human-to-vehicle communication flow. A vision-based pipeline is introduced to understand gesture-based messages being waved by specific operators that are communicating with vehicles, considering multiple factors. Hence, we explore here a quite unique solution which studies waved gestures after looking at their orientation and polar coordinates within the field-of-view. The pipeline introduced in this thesis is based on 3 different neural network models. These models in this cascaded streamline were trained on custom, manually collected, and labelled datasets. The gathered datasets were divided into 2 visual collections versus one numerical collection. 2 of the collections represented preprocessed and filtered versions of the original data. Annotation and preprocessing were carried out manually using different technologies and methodologies, which included but were not limited to UI-based labeling tools and data scraping techniques. The training has been done on different variations of the datasets for the 2 models in order to accurately evaluate their performances. The integration contained both 2-stage and 1-stage object detection models for operator detection and gesture orientation recognition. The final model overcomes the uncertainty downside of neural networks by combining fuzzy logic into it and outputs individual interpretations of the waved gestures. The final structure was implemented in Python. It leveraged threading for parallel computation and the famous open-source computer vision OpenCV library for the sake of feeding and preprocessing the visual data. It was also used to draw predictions on the main and forked broadcasts. The final stage in the structure connects the dots by combining the 2 gesture interpretations to one final command using a predefined lookup table. Command generation was performed by combining the results from the gesture orientation recognition and position prediction stages. Detected gesture orientations (palm or dorsal) and positions (side and height) were translated into predefined commands (Stop, Go Straight, Go Left, Go Right, CCW, CW, NA) using a lookup table that matches specific gesture combinations to their corresponding actions. The predefined lookup table was designed to be flexible with different cultures that might interpret the same gestures with different meanings or need to extend the defined commands. The testing scenarios were done both indoors and outdoors in order to gain a full picture of how the pipeline is performing under different lighting conditions. As a proof of concept, there has also been a communication interface created between the pipeline and the KUKA youBot on the robot simulator, CoppeliaSim. This API exchange of data helped visualize the interactions by controlling the movement of the Mecanum wheels-based autonomous robot. The pipeline was also tested on 2 real-world scenarios inside a laboratory on a differential wheeled robot. The WaveDrive pipeline constitutes a significant advancement in autonomous vehicle communication through gesture-based systems. The pipeline is able to deal with real-world nuances in gesture recognition by integrating robust computer vision and deep learning technologies. This thesis conclusively demonstrates the pipeline's capability to accurately recognize operators consistently, identify gesture orientation correctly, and predict gesture location accurately. The robustness of WaveDrive in various test conditions is indicative of its usability and reliability in real-world applications and is a giant leap towards universal application of gesture-based communication systems. However, the system's small deficiencies at longer ranges suggest future scope for improvement. Future research can focus on improving the flexibility of the system for more complex, dynamic, and uncontrolled environments, enhancing real-time computation performance, and further improving optimized hardware solutions to increase the usability of WaveDrive in a broad spectrum of industrial and safety-critical applications. It can also focus on studying dynamic gestures instead of static postures of operators. This study provides a tangible foundation for propelling explicit gesture-based interactions towards safer and more effective human-vehicle interaction, potentially transforming operational practice across different industry sectors.