Geri Dön

Head gesture recognition for a semi-autonomous powerchair

Yarı-otonom akülü sandalye için kafa hareketleri tanıma

  1. Tez No: 496470
  2. Yazar: UBEYDE MAVUŞ
  3. Danışmanlar: YRD. DOÇ. DR. VOLKAN SEZER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Kontrol ve Otomasyon Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 79

Özet

Bu tezde, ellerini düzgün bir biçimde kullanmakta zorlanan bel altı felçli olan insanlar için yarı otonom akülü tekerlekli sandalye geliştirmeyi hedefleyen bir TÜBİTAK projesinde kafa hareketlerini tanımak için kullanılabilecek mimik tanıma algoritmaları incelenmiştir. Yer almış olduğum bu projede mimik tanıma algoritması geliştirmekle görevlendirildim. Mimik tanıma algoritması ile son kullanıcının akülü tekerlekli sandalyeye komut verebilmesi hedeflenmektedir, böylelikle son kullanıcının akülü tekerlekli sandalye üzerinde tam otonomi sahibi olması hedeflenmektedir. İnsan ve makina arasında çok çeşitli şekillerde etkileşim sağlanabilmektedir. Bu etkileşim ses, görüntü, kas hareketleri ve bunlar gibi bir çok farklı şekillerde olabilir. Projede bu etkileşimin atalet ölçüm ünitesi vasıtası ile olmasına karar verildi. Bu tercihin yapılmasında iki önemli etken bulunmaktadır. Bu etkenlerden ilki, atalet ölçüm ünitesi vasıtası ile son kullanıcının niyetinin gayet açık bir biçimde anlaşılabilecek olmasıdır. Örneğin, kullanıcı öne hareket etmek istese, kafasını öne eğmesi bu niyetin bir göstergesi olarak kabul edilebilir. Veya kullanıcı sola dönmek isterse, kafasını sola döndürmesi bu komutun bilgisayar tarafından anlaşılması için yeterlidir. İkinci etken ise, atelet ölçüm ünitelerinin gelişen teknoloji ile ucuzlayıp yaygınlaşmasıdır. Seçilen sensör tipi gibi tasarım kriterleri halihazırda üretilmekte olan standart akülü tekerlekli sandalyelere alternatif olarak geliştirilmesi planlanan yarı otonom akülü tekerlekli sandalyenin maliyetini azaltacak şekilde seçilmesiyle, elleri yardımı ile standart sandalyeleri kullanamayacak durumdaki ihtiyaç sahiplerine, kişiye özel modifikasyon gerektirdiği için maliyeti yüksek olan akülü tekerlekli sandalyelere daha ucuz bir alternatif getirilmesi hedeflenmektedir. Kafa oryantasyonunu yarı otonom akülü tekerlekli sandalyeye yön vermek için kullanan bir sistemin neden bir de mimik tanıma sistemine ihtiyacı olduğu merak edilebilir. Bu ihtiyaç, son kullanıcıya tam otonomi sağlanması gerekliliğinden gelmektedir. Örneğin, son kullanıcının yolda karşıdan karşıya geçmesi gerektiğinde yarı otonom sistemin sahip olduğu engelden kaçma algoritması karşıdan karşıya geçmenin kaotik olduğu kavşaklarda sandalyenin kaotik davranmasına, kazalara yahut yaralanmalara neden olabilir. Bu sebeple kullanıcının sandalyenin yarı otonom sistemini geçici olarak durdurabilmesi gerekmektedir. Diğer bir örnek ise kullanıcının arkadaşlarıyla sohbet ettiği esnada sandalyenin doğal kafa hareketlerini yönelim komutu olarak algılamaası problemidir. Böyle bir durumda kullanıcı sandalyesini yanlışlıkla arkadaşının üzerine sürmesi ve kazalara neden olması büyük bir ihtimaldir. Böyle bir durumun önüne geçilebilmesi için kullanıcının sandalyeyi toptan kapatabilmesi gerekmektedir. Bu ve bunlar gibi sebepler nedeniyle, sandalyeye yön verilmesi için kullanılan komutlar dışında, yarı-otonom sisteme kullanıcının niyetini aktarabileceği komutlara ihtiyaç vardır. Bu ihtiyacın sandalyeye entegre edilecek mimik tanıma algoritması karşılanması amaçlanmıştır. Literatürde mimik tanıma üzerine çok çeşitli yayınlar ve çok çeşitli yöntemler bulunmaktadır. Bununla beraber, bütün literatür genelde üç fikir etrafında yoğunlaşır, bunlar; veri toplama, öznitelik çıkarma (feature extraction) ve karar verme. Bu aşamalar tezin bölümlerinde ayrıntılı olarak anlatışmıştır. Ancak belirtmekte fayda var ki literatürdeki yayınların geneli öznitelik çıkarmak üzerine yazılmıştır. Bunun sebebinin, tüketiciler tarafından dolaylı olarak oluşturulan bilgi işlem teknolojisinde sinyal işleme ihtiyacının yakın zamanda çip teknolojisinin gelişmesiyle beraber karşılanabilmesi ve sinyal işlemede kullanılan yöntemlerin mimik tanımada yeni ufuklar açması olduğunu düşünmekteyim. Bunun sonucu olarak, öznitelik çıkarmak için geliştirilen matematiksel yöntemlerin sayısının diğer iki aşama için geliştirilen yöntemlerin sayısından daha fazla olduğu söylenebilir. Sinyal işleme algoritmaları sayesinde var olan sinyalin sahip olduğu özelliklerin incelenmesi kolaylaşmaktadır. Bu kolaylık mimik tanımada öznitelik çıkarma konusunda da kolaylık sağlar. Örnek olarak zaman serilerinin frekans düzleminde incelenmesi, zaman düzleminde incelenmesinden daha kolay olabilir. Projede mimik tanımak algoritması için üç farklı yöntem denenmiştir. Bu yöntemleri sırası ile, Hızlı Fourier Dönüşümünün öznitelik çıkarmada kullanılması, kafa hareketlerini tanımak için dinamik zaman bükülmesi algoritmasının kullanılması ve bu algoritma için benzerlik eşik değerlerinin optimal olarak belirlenmesi ve yapay sinir ağları kullanarak kafa hareketlerinin tanınması, şeklinde adlandırmak mümkündür. Mimik tanımada herhangi iki farklı mimiği birbirinden ayırmada kullanılabilecek her özellik, öznitelik olarak kullanılabilir. Bu bağlamda Hızlı Fourier Dönüşümünün mimik tanımada kullanılabileceği düşünülmüştür. Hızlı Fourier Dönüşümü, genellikle zaman serisi verilerinin frekans domaininde incelenmesi için kullanılır. Hızlı Fourier Dönüşümü ile bir zaman serisini oluşturan harmonikler elde edilir. Her farklı mimiğin farklı zaman serilerine sahip olacağı düşünülürse, elde edilecek harmoniklerin de farklı olması beklenilir. Frekans domaininde harmoniklerin karşılaştırılması, zaman domaininde zaman serisine ait örneklerin karşılaştırılmasından cebirsel olarak daha kolay olduğu düşünülürse, Hızlı Fourier Dönüşümü öznitelik çıkarmada ve böylelikle mimik tanıma algoritmasında kullanılabilir sonucuna varılır. Ancak yapılan deneyler sonucunda bu hipotezin tutarlı olmadığı görülmüştür. Buna sebep olarak sonsuz uzunluktaki zaman serilerinden mimiklerin başladığı ve bittiği yerlerin bir kesinlikle bulunması gösterilebilir. Sonsuz uzunluktaki zaman serisinin içerisinde herhangi bir mimiğin başladığı ve bittiği yerin belirlenmesi zor olduğu için, pencereleme yöntemi ile sonsuz uzunluktaki zaman serisinin önbelleğe alınan kısımları üzerinden hızlı fourier dönüşümü yaptık. Ancan hızlı fourier dönüşümü pencerelenen sinyalin periyodik olduğu varsayımı doğru kabul edilirse güvenilir/doğru sonuçlar vermektedir. Bahsi geçen pencerenin sonsuz uzunluktaki zaman serisi üzerinde kaymasından dolayı herhangi bir mimiğin sürekli olarak pencerenin aynı yerinde başlayıp, aynı yerinde bittiği garantilenemez. Dolayısı ile hızlı fourier dönüşümü alınan zaman serisi aynı mimiği içerse bile ilgili pencerede ön belleğe alınan zaman serisi farklı periyotlara sahip olacağı için, elde edilen dönüşüm, mimiğe ait zaman serisi birebir aynı kalsa bile farklı olmaktadır. Dinamik zaman bükülmesi, iki zaman serisinin karşılaştırılmasında kullanılan bir algoritmadır. Bu algoritma giriş olarak iki zaman serisi alır ve iki sinyali birbiri üzerine optimal olarak oturtmaya çalışır. İki sinyalin birbiri üzerine oturtulması işlemi her iki sinyale ait örneklerin bir yakınlık ölçütüne göre birbirleri ile eşleştirilmesiyle yapılır. Bu algoritma çıkış olarak iki sinyalin birbiri üzerine en optimal olarak nasıl oturtulabileceği bilgisini içeren en kısa yol bilgisini, en kısa yola ait maliyet değerini, ve maliyet matrisi verir. En kısa yola ait maliyet değeri iki sinyalin benzerliği azaldıkça artmaktadır. İki sinyal birbiri ile tamamen aynı ise en kısa yola ait maliyet değeri sıfır olur. En kısa yola ait maliyet değeri için bir üst sınır bulunmamaktadır. Aynı kategoriye ait mimiklerin zaman serilerinin benzer olması beklenilir. Bu benzerlik aynı kategoriye ait mimiklerin farklı zaman serileri için farklılık göstermesiyle ile beraber mimiklerin aynı kategoriye ait olduğuna karar verebilmek için bir üst sınır bulunabileceği düşünülürse, dinamik zaman bükülmesi mimik tanıma için uygun bir algoritma olarak görülebilir. Ancak bu noktada, mimik tanıma problemi optimal eşik değer belirleme problemine dönüşmektedir. Bu problemin çözümü için önerdiğimiz metod ile benzerliğe karar vermek için gerekli olan eşik değerlerinin optimal olarak belirlenmesi mümkün olmaktadır. Bu methodu kullanarak yaptığımız deneylerde ortalama olarak %85 başarı oranı elde edilmiştir. Bu başarı oranı, veri kümesinde tanımlı olup on kere tekrar edilen her mimiğin sekizden fazla kez doğru şekilde tanınacağını/kategorilendirileceğini ifade etmektedir. Belirtmekte fayda var ki deneylerde elde edilen yüzde seksen beş başarı oranını methodda seçime bağlı parametre olarak ifade edilen eşik değerlerinin sınırlarını gösteren üç boyutlu cismin geometrik karmaşıklığı arttırılarak kolayca arttırılabilmektedir. Yapay sinir ağları genel olarak giriş ve çıkış arasındaki ilişkinin kesin olarak ifade edilemediği durumlarda bu ilişkinin modellenebilmesi için kullanılır. Mimik tanımada giriş ve çıkışlar arasındaki ilişki de kesin olarak ifade edilemediğinden, yapay sinir ağları mimik tanımada kullanılmaya uygundur. Bu konuda literatürde çok çeşitli yapılar mevcuttur. Her bir yapay sinir ağı yapısı, zaman serilerinin farklı özelliklerini düşünülerek tasarlanmıştır. Önemli olan soyutlanmaya çalışılan özelliklerin yapay sinir ağının eğitilmesinin ardından ilgili ilişkinin (giriş ve çıkış arasındaki kesin ifade edilemeyen ilişki) genelleşmiş bir model verecek şekilde olmasıdır. Zaman serisinde her elemanın giriş ve çıkış arasındaki kesin olmayan ilişkinin modellenmesinde yararlı olabileceğinden, her noktanın yapay sinir ağına beslenmesi gereklidir. Kişilerin bir bir mimiği bire bir aynı şekilde tekrar etmesi mümkün değildir. Dolayısı ile aynı kişi bişe bir mimiği farklı zamanlarda tamamlayabilir. Bu sebeple zaman serilerinin sahip olduğu eleman sayısı kaydı alınan her mimik örneğinde fakrlı olabilmektedir. Kullanılan yapay sinir ağının giriş sayısı sabit olduğu için ortaya çıkan bu problemin giderilmesi gerekmektedir. Bu problemin giderilebilmesi için ilgili zaman serileri yeniden boyutlandırımalıdır. Bu yeniden boyutlandırma işlemi için zaman serilerinin zamanda sahip olduğu eleman sayısı aynı olacak şekilde zaman düzleminde boyutlandırıması gerekmektedir. Bu boyutlandırma işlemi yapılırken zaman serisinin sahip olduğu harmonik sayısının düşürülmemesi yahut olabildiğince az düşürülmesi gerekmektedir. Örneğin bir zaman serisinin tek bir noktaya indirgenmesi çok yüksek bilgi kaybı anlamına gelmektedir. Bu problemlerin çözümü için bir önişleme yapılması gerekmektedir. Bu önişlemden sonra elde edilen zaman serileri yapay sinir ağının eğitiminde kullanılabilir hale gelmektedir. Yaptığımız deneylerde bu yöntem ile %97 başarı elde edilmiştir. Ancak bu başarı, yapay sinir ağlarının yapısından ve projede gerçeklenme şeklinden mütevellit hatalı olarak mimik tanınabileceğini ve istemsiz olarak yarı otonom moddan çıkıp manuel moda geçiş yapılabileceğini ifade etmektedir.

Özet (Çeviri)

The author had been involved in a project, where a semi-autonomous powerchair which has obstacle avoidance system for the paraplegic who can not use their hands properly, have been developed. In the project, the author was tasked to design a head gesture recognition system which would allow the end user to convey control commands to the chair so that he can have full autonomy. There are many different ways to communicate with a machine from using sound to using flexing of a muscle which is, by the way, this is how Stephen Hawking interacts with his chair. Ultimately, an inertial measurement unit has been chosen for the project. There are two simple reasons for this selection. One of which is that inferring intend of the user from the head orientation is very basic. For example, if the end user is leaning his head forward, that probably means“go forward”, on the other hand; if he is leaning his head left, this probably means“turn left”. The second reason is that the sensor needed for the task is affordable and easy to find. Design choices such as this, help to make the chair a low cost alternative to commercially available traditional powerchairs which require further engineering that is specific to the person who can not control it manually. For example, Stephen Hawking uses a specific muscle in his face to interact with his chair, which is impractical for others who can use their other limbs. One may ask that why a semi-autonomous powerchair that uses head orientation as direction command, also needs a gesture recognition system. The answer may not be very obvious. However, there is a reason behind it. As mentioned in the previous paragraph, the end user needs full autonomy. For example; the user may want to cross a road. But the chaotic nature of crossing a road with a group of people, whose behaviour could not be easily predicted, may lead the chair's obstacle avoidance system to behave chaotically too. The chair may avoid humans towards an incoming car. Therefore, the user should be able to suspend the obstacle avoidance system. Or the user may be talking to his friends, and the chair may interpret one of his nods as a“go forward”command which may cause injuries or worse. Therefore, the user should also be able to prevent chair from listening to directional commands. For reasons as such, the semi-autonomous chair needs ways of communicating the intention of the user. This is achieved via head gesture recognition in the project. There are many methods for gesture recognition in the literature. However, all wrap around several ideas which are data collection, feature extraction and decision making. All of these ideas are detailed in the chapters. However it is worth noting that most of the publications are about feature extraction. The author suspects that one of the reasons for this difference in the number of publications between the three in gesture recognition relate to the recent advancements of the computing technology where signal processing gained relative importance and it advanced relatively more rapidly due to the need created by consumers. Consequently, there exist more mathematical tools for feature extraction, compared to the number of tools available for the other two. Three different method have been studied in the thesis. These methods are named as;“Fast Fourier Transform as a Feature Extraction Method”,“Head Gesture Recognition via DTW and Threshold Optimization”,“Gesture Recognition via Neural Network”. The first method failed at recognition task. The focus of the second method was directed towards decision making of the gesture recognition algorithm, reasons for which are discussed in detail. As a result of our studies, a method has been proposed for recognition algorithms where dynamic time warping is used for signal comparisons, to increase the recognition rate via threshold optimization. Even though the method has been developed to be used with dynamic time warping, the intuitive idea behind the method for threshold optimization which comes from geometry, can be extended to other gesture or pattern recognition problems. In the proposed method, the optimization algorithm used was genetic algorithm. But anyone who is interested in replicating or implementing the work can use any other meta-heuristic optimization algorithm to optimize the thresholds. The thresholds found through the method, which are calculated/optimized with very simple geometric shapes, have achieved, on average, success rate of 85% which means that more than eight out of ten repetitions of gestures are recognised successfully. Nonetheless, it is important to understand that this modest success rate can be easily increased towards 100% (if not 100%) by using more complex polygons for optimization. The third and the last method have achieved around 97% success rate, however this success rate means there is a possibility of switching the mode of the chair from semi-autonomous to manual without the intention of the user.

Benzer Tezler

  1. Audio-visual correlation modeling for speaker identification and synthesis

    Konuşmacı tanıma ve sentezi için görsel işitsel ilinti modellenmesi

    MEHMET EMRE SARGIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2006

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF.DR. MURAT TEKALP

  2. Automatic analysis of head and facial gestures in video streams

    Video görüntülerinden kafa ve yüz mimiklerinin otomatik analizi

    HATİCE ÇINAR AKAKIN

    Doktora

    İngilizce

    İngilizce

    2010

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. BÜLENT SANKUR

  3. Kinect rgb görüntülerinde ve derinlik haritalarında uzam-zamansal özellikleri kullanarak işaret dili tanıma

    Sign language recognition using spatio-temporal features on Kinect rgb video sequences and depth maps

    ABBAS MEMİŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SONGÜL ALBAYRAK

  4. Vision based sign language recognition: Modeling and recognizing isolated signs with manual and non-manual components

    Video tabanlı işaret dili tanıma: El ve el dışı hareketler içeren ayrık işaretlerin modellenmesi ve tanınması

    OYA ARAN

    Doktora

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. LALE AKARUN

  5. Facial feature tracking and expression recognition for sign language

    Yüz özniteliklerinin takibi ve işaret dili için ifade tanıma

    İSMAİL ARI

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. LALE AKARUN