Object manipulation through intuitive hand gestures in virtual reality: The relation between objects' spatial properties and gestures
Sanal gerçeklikte sezgisel el jestleriyle nesne manipülasyonu: Nesnelerin uzamsal özellikleriyle jestlerin ilişkisi
- Tez No: 709435
- Danışmanlar: PROF. DR. HATİCE KÖSE, DOÇ. DR. SEMA ALAÇAM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı
- Bilim Dalı: Oyun ve Etkileşim Teknolojileri Bilim Dalı
- Sayfa Sayısı: 141
Özet
Bu tezin amacı, sanal gerçeklikte 3 boyutlu nesneleri manipüle etmek için kullanılan el jestlerini etkileyen değişkenleri araştırmaktır. Nesnelerin uzamsal özellikleri (biçim, boyut, konum ve yönelim); jestlerin sezgiselliği ve kinestetik geribildirimi bu çalışmanın odak noktalarıdır. VR ortamı, nesneleri 3 boyutlu olarak görüntüleme olanağı sağladığı için seçilmiştir. 2 boyutlu bir ekranda görüntülenen bir nesnenin hacmi ve mesafesi gibi uzamsal bilgileri sağlanamazken, aynı nesne VR ortamında görüntülendiğinde bu bilgiler sağlanabilir. Bu benzersiz özelliğin jest etkileşimi üzerindeki tasarım etkilerini incelemek için, el jestleri ile kontrol edilen bir VR oyun konsepti geliştirilmiştir. Oyunun temel amacı, nesneleri el jestleriyle yok etmektir. Oyuncu, uzamsal özellikleri farklı olan nesnelerle çevrilidir (büyük-küçük, kol mesafesinde-kol mesafesinin ötesinde, çeşitli yönelimler). Oyunda iki tür nesne bulunmaktadır ve bu nesneleri yok etmek için oyuncuların iki imha yönteminden birini kullanması gerekmektedir. Bunlar, dışarı ve içeri doğru patlatma operasyonlarıdır. Bu oyun konsepti bir VR deneyi geliştirmek için temel olarak kullanılmıştır. Deney Unity oyun motoru kullanılarak geliştirilmiştir ve senaryo tabanlı bir düzeneğe sahiptir. Toplamda altı senaryo bulunmaktadır. Her senaryo, iki hareketli nesneden birini içerir. İlk üç senaryo dışa doğru patlayan bir nesneyi içerirken, nesnenin bazı uzamsal özellikleri senaryolar arasında değişmektedir. İlk senaryo, erişilebilecek bir konuma yerleştirilmiş nispeten büyük bir nesne içermektedir. İkinci senaryoda, nesne daha küçüktür. Üçüncü senaryoda, nesne tekrar büyük olup bu sefer erişilemeyecek bir konuma yerleştirilmiştir. Dördüncü, beşinci ve altıncı senaryolar da ise, içe doğru patlayan başka bir nesne bulunmaktadır. Bu senaryolardaki nesneler de ilk üç senaryodaki gibi ayarlanmıştır, ancak bu kez nesnenin yönü de her bir senaryoda değişmiştir. Yazar tarafından her senaryo için benzersiz el jestleri önerilerek bir jest seti oluşturulmuştur. Bu setteki jestler, ergonomi, uygulama kolaylığı, metaforik ve ikonik olarak mantıklı olma, kinestetik geri bildirim üretme vb. birçok kritere dayalı olarak üretilmiştir. Ardından, önerilen jestleri daha keşfedilebilir kılmak için nesnelerin formu, ölçeği ve yerleşimi her bir senaryo için detaylandırılmıştır. Deney iki denemeli olarak gerçekleştirilmiştir. İlk deneme, bir jest açığa çıkarma çalışması olup genel halktan el jestleri toplamayı amaçlamıştır. Bu doğrultuda, farklı mesleklere ve oyun oynama sıklığına sahip 15 katılımcı çalışmaya dahil edilmiştir. Jestlerin sezgisel olarak üretilmesi hedeflenmiştir. Bu nedenle, deneye bazı zaman kısıtlamaları getirilmiş ve katılımcılara deney öncesinde çalışmanın içeriği hakkında bilgi verilmemiştir. Ardından, katılımcılar bir VR başlığı kullanarak her bir senaryoyu gözlemlemiş ve gözlemledikleri animasyona neden olacak bir el jesti üretmiştir. Katılımcılar her bir senaryodan sonra ürettikleri jesti üç kez daha tekrarlayarak bu jesti neden kullandıklarını sesli olarak gerekçelendirmiştir. Her bir senaryoda katılımcılara jest üretmeleri için 5 saniye süre tanınmıştır. Bu süreç altı senaryonun tümü için tekrarlanmıştır. Senaryolar arasında ileri ve geri geçiş sağlamak için yazar tarafından önerilen başparmak ve serçe parmak kaldırma jestleri kullanılmıştır. Deney sırasında katılımcılar üst ekstremite (parmaklar, eller, önkollar, kollar vb.) hareketleriyle sınırlandırılmıştır. Buna karşın, katılımcılar bir veya iki elini kullanmakta özgür bırakılmıştır. Ayrıca, katılımcıların nesneye dokunmalarına veya nesneyi kavramalarına izin verilmiştir. Son olarak, katılımcılara, gerekli gördükleri takdirde aynı jesti birden fazla senaryo için kullanma şansı tanınmıştır. Kol mesafesindeki nesnelerin animasyonları dokunma ile etkinleşecek şekilde programlanmıştır. Kol mesafesinin ötesindeki nesnelerin animasyonları ise belirli el jestlerinin tespitiyle etkinleşecek şekilde programlanmıştır. İlk çalışmayı takiben, bir seçime dayalı açığa çıkarma çalışması yapılmıştır. Öncelikle, katılımcılara çalışmanın içeriği hakkında bilgi verilmiş ve yazar tarafından tasarlanan jestler öğretilmiştir. Devamında, deneyin ikinci denemesine başlanmıştır. Bu sefer katılımcılar, her bir senaryo için yazar tarafından tasarlanan jestleri test etmiştir. Ardından da karşılıklı görüşme anketi düzenlenmiştir. Anket aracılığıyla, katılımcıların profili oluşturulmuş ve yazar tarafından tasarlanan jestlere ilişkin katılımcı algıları araştırılmıştır. Ayrıca, katılımcılardan her bir senaryo için daha uygun buldukları jesti seçmeleri istenmiştir (kullanıcı tarafından üretilen jeste karşı yazar tarafından tasarlanan jest). Son olarak, katılımcılara hangi faktörlerin (sezgisel, doğal, mantıklı, basit, zahmetsiz, eğlenceli ve tatmin edici) tercih ettikleri jesti belirlemelerinde daha etkili olduğu sorulmuş ve bu faktörlerden en fazla üç tanesini seçmeleri istenmiştir. Deney, daha sonra analiz edilmek amacıyla videoya alınmıştır. Araştırma soruları video kayıtlar ve anket sonuçlarının analizi yoluyla cevaplanmıştır. Farklı kullanıcılar aynı senaryolar için benzer türde jestler üretir mi (RQ1)? Her senaryoda katılımcılar arasında birçok benzerlik görülmüştür. Katılımcıların çoğu dışarı doğru patlatma operasyonu için iki elini kullanarak jest üretmiştir. Ek olarak, katılımcılar bir nesneyi dışarı doğru patlatmak için elleriyle bir yol takip etme konusunda çok güçlü bir eğilim göstermiştir. Katılımcıların çoğu, kol mesafesindeki nesneleri dışarı doğru patlatmak için doğrudan manipülasyon jestlerini kullanırken, erişilemeyen nesneleri dışarı doğru patlatmak için çoğunlukla ikonik jestler kullanmıştır. Katılımcıların kullandığı el sayısı içeri doğru patlatma senaryolarında da güçlü benzerlikler göstermiştir. Katılımcılar 4. ve 6. senaryolarda büyük çoğunlukla iki elini kullanarak jest üretirken, 5. senaryoda büyük çoğunlukla tek elini kullanarak jest üretmiştir. İçeri doğru patlatma senaryolarındaki jestlerin doğası da katılımcılar arasında oldukça tutarlılık göstermiştir. Katılımcıların çoğunluğu erişilebilen ve içeri doğru patlayan nesneler için doğrudan manipülasyon jestleri kullanırken, erişilemeyen ve içeri doğru patlayan nesne için genellikle pantomimik jestler kullanmıştır. Sanal nesnelerin uzamsal özellikleri (boyut, konum, yön) kullanıcıların jestlerini etkiler mi (RQ2)? Sonuçlar, katılımcıların nesne boyutundaki değişime bağlı olarak büyük oranda farklı jestler ürettiğini göstermiştir. Nesnelerin daha küçük olduğu 2. ve 5. senaryolarda, önceki senaryolara oranla tek elli jestlerin sayısı oldukça artmıştır. Bu bulgular, nesnenin boyutunun kullanılan el sayısını büyük ölçüde etkilediğini ileri sürmüştür. Nesne boyutu, sanal nesnelere temas etmekte kullanılan el kısımlarında da önemli ölçüde farklı sonuçlar üretmiştir. Katılımcılar 5. senaryoda, 4. senaryodan farklı olarak avuçlarını kullanmak yerine parmak uçlarını kullanmıştır. Nesnelerin yakında konumlandırıldığı tüm senaryolarda en yaygın olarak doğrudan manipülasyon jestlerinin kullanıldığı görülmüştür. Bu da katılımcıların çoğunun kol mesafesindeki nesneleri temas yoluyla kontrol etme eğiliminde olduğuna işaret etmektedir. Bu bulgu yazar tarafından önerilen jestlerin tasarımıyla da paralellik göstermiştir. Nesnenin erişilemediği senaryolarda ise en yaygın olarak görülen jestlerin doğalarının birbirinden farklı olduğu tespit edilmiştir. 3. ve 6. senaryolardaki jestlerin hareketleri yaklaşık olarak birbirinin zıttı olsa da jestlerin doğası birbirinden farklı çıkmıştır. Katılımcılar uzaktan dışarı doğru patlatma operasyonu için daha çok ikonik jestler üretirken, uzaktan içeri doğru patlatma operasyonu için daha çok pantomimik jestler üretmiştir. Kinestetik geribildirimin varlığı kullanıcı etkileşimi memnuniyetini nasıl etkiler (RQ3)? Sonuçlar, kinestetik geribildirim sayesinde etkileşimden elde edilen memnuniyetin doğrudan manipülasyon jestlerinde en yüksek seviyede olduğunu göstermiştir. Ayrıca, mutlak bir bitiş konumu sunan jestlerin en olumlu geri dönüşlere sahip olduğu tespit edilmiştir. Ek olarak, sonuçlar, kinestetik geribildirimin etkileşim boyunca devam etmemesinden katılımcıların olumsuz etkilenmediğini işaret etmiştir. Kullanıcılar, kendileri tarafından açığa çıkarılan jestleri mi yoksa yazar tarafından tasarlanan jestleri mi tercih eder (RQ4)? Yazar tarafından tasarlanan tüm jestler olumlu sonuç vermiş ve katılımcıların en az yarısından fazlası bu jestleri diğer jestlere tercih etmiştir. Tercih edilen jestler ile kullanıcı etkileşimi nitelikleri (mantıklı, sezgisel, doğal, zahmetsiz, basit, eğlenceli, tatmin edici) arasındaki ilişki nedir (RQ5)? Ankette, katılımcılardan her senaryo için bir jesti diğerine tercih etmelerinde etkili olan yedi faktörden en fazla üçünü seçmeleri istenmiştir. Tüm senaryolarda en önemli faktörlerin sırasıyla mantıklı, sezgisel, doğal, zahmetsiz, basit, eğlenceli ve tatmin edici olduğu ortaya çıkmıştır. Cevapların sıklığı, özellikle mantık ve sezgiselliğin, diğer faktörlere kıyasla daha çok tercih edilen jestler üretme eğiliminde olduğunu göstermiştir. Ek olarak, ilk senaryonun sonuçları, katılımcıların daha sezgisel olandansa daha mantıklı olan jesti seçme eğiliminde olduklarını ileri sürmüştür. Bu tez çalışması, el-nesne kesişimleri ve katılımcı bazında tekrar olarak adlandırılan iki yeni jest sınıflandırması önermiştir. Ayrıca, kaynağına ve zamansal durumuna göre kinestetik geribildirim için iki yeni sınıflandırma önerilmiştir. Ek olarak, bu tez çalışmasında 'gerçekleştirmesi kolay', 'ikonik olarak mantıklı' ve 'metaforik olarak mantıklı' (Nielsen ve meslektaşları, 2003) terimleri için tanımlamalar yapılmıştır. Son olarak, pantomimik jestlerin kapsamı, deneyler sırasında gözlemlenen yeni kullanım örneklerini içerecek şekilde genişletilmiştir. Bazı katılımcıların içeri doğru patlama animasyonunu nesne kendilerinden uzaklaşıyormuş olarak hatalı yorumlaması, bu animasyonun çalışmanın zafiyetlerinden biri olduğunu göstermiştir. Bu durumun, kullanılan küçülme animasyonun sabit ivmesinden kaynaklandığı varsayılmıştır. Başlangıçta, nesnenin kendi içine çökmesi esnasında bazı kısımların daha hızlı hareket ederek parçalandığı daha karmaşık bir animasyon hedeflenmiştir, ancak zaman kısıtlamaları nedeniyle bu yaklaşımdan vazgeçilmiştir. Gelecekte bu animasyon test edilebilir. Başparmak konumlandırmasının beklenenden daha çeşitli olduğu saptanmıştır. Katılımcıların yumruk yaparken başparmaklarını diğer parmakların üstüne, altına ve yanına konumlandırdığı görülmüştür. Bu nedenle sistemin belirli jestleri tanıma başarısı düşmüştür. Gelecekte, farklı başparmak konumlandırmalarına sahip jestler, aynı jestin varyasyonları olarak jest sözlüğüne eklenerek her bir varyasyonun tanınması sağlanabilir. Son olarak, bu tez çalışması, bir duygu ifade etme jesti açığa çıkarmış ve bu jestlerin potansiyel olarak insan-bilgisayar etkileşimi alanında da kullanılabileceğine işaret etmiştir. Örneğin, görsel roman türü bir oyunda, kullanıcı duygularını oyun içi bir avatara bu jestleri kullanarak yansıtıp oyunun yönünü değiştirebilir. Bu oyun kurgusu, eğitim amaçlı kullanılarak çocukların sergilediği farklı tutumların olası sonuçlarını gözlemlemelerini sağlayabilir.
Özet (Çeviri)
This thesis aims to investigate the variables that affect mid-air hand gestures used to manipulate 3D objects in virtual reality. Spatial properties of virtual objects (form, size, position, and orientation); intuitiveness and kinesthetic feedback of gestures are the focus points of this study. VR medium is selected because of its ability to display objects in simulated 3D. While an object displayed on a 2D screen cannot provide spatial information such as the object's volume and distance, an object displayed in a VR headset can. To examine the design implications of this unique aspect on gesture interaction, a gesture-controlled VR game concept is developed. The main purpose of the game is to destroy objects via mid-air hand gestures. The player is surrounded by objects that differ in spatial properties (big-small, within-beyond arm's reach, various orientations). There are two types of objects and to destroy them players need to use one of the two destruction methods: implode or explode. This game concept is used as a basis to develop a VR experiment using the Unity game engine. The experiment has a scenario-based setup. There are a total of six scenarios. Each scenario includes one of the two animated objects. The first three scenarios have the same exploding object whereas some spatial properties of the object change between scenarios. The first scenario includes a relatively big object that is placed within arm's reach. In the second scenario, the object is smaller. In the third scenario, the object is big again but is placed beyond arm's reach. The fourth, fifth, and sixth scenarios have another object that implodes. The objects in these scenarios are set as in the first three scenarios, but this time the orientation of the object changes between scenarios as well. For each scenario, a unique hand gesture was proposed by the author to create a gesture vocabulary. This vocabulary was created based on multiple criteria such as ergonomics, ease of performance, being metaphorically and iconically logical, producing kinesthetic feedback, etc. Then, the form, scale, and placement of the objects were fleshed out for each scenario to make proposed gestures more discoverable. After that, the experiment was carried out in two trials. The first trial was a user-elicitation study and aimed to collect mid-air hand gestures from the general public. Therefore, 15 participants with varying occupations and gaming frequencies were recruited for the study. The gestures were aimed to be intuitively generated. For that purpose, some temporal constraints were set and participants were not informed about the context of the study before the experiment. Next, using a VR headset, participants observed each scenario and proposed a hand gesture that would cause the observed animation. After each scenario, they repeated the gesture they proposed three more times while explaining why they used that particular gesture. For each scenario, they were given 5 seconds to propose a gesture. This process was repeated for all six scenarios. Thumbs-up and Pinky-up gestures, proposed by the author, were used to navigate between scenarios. During the experiment, participants were restricted to upper limb movements, allowing them to use their fingers, hands, forearms, arms, etc. They could also decide whether to use one or both hands. Furthermore, they were allowed to touch or grasp the object as they saw fit. Lastly, if deemed necessary, they were allowed to use the same gesture for different scenarios. The objects that were within arm's reach were programmed to play their animations when touched. The objects that were beyond arm's reach, on the other hand, were programmed to react to specific hand gestures. Following the first study, a novel choice-based elicitation study was conducted. First, participants were informed about the context of the study and were taught author-designed gestures. After that, the second trial of the experiment began. This time, participants tried author-designed gestures for each scenario. Next, an in-person survey was conducted. The survey was used to profile participants and investigate their perception of author-designed gestures. Furthermore, participants were prompted to choose the gesture they deemed more appropriate for each scenario (their user-elicited gesture vs the author-designed gesture). They were also prompted to check up to three factors out of seven (intuitive, natural, logical, simple, effortless, fun, and satisfactory) that strongly influenced their preferences. The experiment was video recorded for further analysis. The research questions were answered through the analysis of the video recordings and survey responses. Do different users generate similar types of gestures for the same scenarios (RQ1)? There were many similarities between the participants in each scenario. Most of the participants produced gestures using both hands for explode operation. In addition, participants showed a very strong tendency to trace a motion path with their hands to explode objects. Most participants used iconic gestures to explode beyond arm's reach objects while using direct manipulation gestures to explode within arm's reach objects. The number of hands used by the participants also showed strong similarities for implode operation. While the participants mostly produced two-handed gestures in the 4th and 6th scenarios, they mostly produced one-handed gestures in the 5th scenario. The nature of the gestures in the imploding object scenarios was also highly consistent among the participants. The majority of the participants used direct manipulation gestures for imploding objects that were within arm's reach while pantomimic gestures were mostly used for the imploding object that was beyond arm's reach. Do spatial properties (size, position, orientation) of virtual objects affect the users' gestures (RQ2)? The results showed that the participants produced highly different gestures depending on the change in object size. In scenarios 2 and 5, where the objects were smaller, the number of one-handed gestures increased considerably compared to the previous scenarios. These findings suggested that the size of the object greatly affected the number of hands used. The object size also produced significantly different results in the hand parts used to touch virtual objects. In scenario 5, participants used their fingertips instead of using their palms, unlike in scenario 4. Direct manipulation gestures were most commonly used in all scenarios, where the objects were positioned within arm's reach. This indicated that most of the participants tended to control within arm's reach objects through contact. This finding showed parallelism with author-designed gestures. In the scenarios, where the object was positioned beyond arm's reach, however, the nature of the most common gestures was different from each other. Although the movements of the gestures were approximately the opposite of each other, the nature of the gestures differed. While the participants produced mostly iconic gestures for the remote explode operation, they produced mostly pantomimic gestures for the remote implode operation. How does the presence of kinesthetic feedback impact user interaction satisfaction (RQ3)? Results showed that interaction satisfaction due to kinesthetic feedback was highest in direct manipulation gestures. Additionally, gestures that offer an absolute down position acquired the highest ratings. Finally, the results indicated that participants were not adversely affected by the absence of kinesthetic feedback throughout the interaction. Do users prefer user-elicited or author-designed gestures (RQ4)? All gestures designed by the author produced positive results and it was observed that at least more than half of the participants preferred these gestures to other gestures. What is the relationship between preferable gestures and user interaction qualities (logical, intuitive, natural, effortless, simple, fun, satisfactory) (RQ5)? In the survey, participants were asked to choose up to three of the seven factors that were influential in their gesture preference for each scenario. The results showed that the most important factors in all scenarios were logical, intuitive, natural, effortless, simple, fun, and satisfactory, respectively. The frequency of responses indicated that especially logic and intuitiveness tended to produce more preferred gestures compared to other factors. In addition, the results of the first scenario suggested that participants tended to choose the more logical gesture over the more intuitive one. This thesis proposed two new gesture classifications, namely hand-object intersections and repetition per participant. In addition, two novel classifications were proposed for kinesthetic feedback according to its source and temporal state. Furthermore, definitions for the terms 'easy to perform', 'iconically logical', and 'metaphorically logical' (Nielsen et al., 2003) were made. Finally, the scope of pantomimic gestures was expanded to include new use cases observed during the experiments. Some participants misinterpreted the implosion animation as the object moving away from them, indicating that this animation was one of the weaknesses of the study. It was assumed that this was due to the constant acceleration of the shrink animation used. Initially, a more complex animation, in which some parts moved faster and broke apart as the object collapsed in on itself, was aimed but later abandoned due to time constraints. This animation can be tested in the future. Thumb positioning was found to be more diverse than expected. It was observed that the participants positioned their thumbs above, below, and to the side of the other fingers while making a fist. Therefore, the success of the system in recognizing certain gestures decreased. In the future, gestures with different thumb positioning can be added to the gesture vocabulary as variations of the same gesture, allowing each variation to be recognized. Finally, this thesis study elicited an affect display gesture and pointed out that these gestures could potentially be used in the field of human-computer interaction. For example, in a visual novel type game, the user can project their emotions to an in-game avatar using these gestures and change the direction of the game. This game setup can also be used for educational purposes so that children can observe the results of their different attitudes.
Benzer Tezler
- Translating intuitive aspects of conceptual model into the digital realm
Kavramsal modelleri̇n sezgi̇sel boyutunun di̇ji̇tal ortama aktarılması
ELİF AKTAŞ
Yüksek Lisans
İngilizce
2014
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
DOÇ. DR. MİNE ÖZKAR
- Hesap kuramı ve felsefe
Theory of computation and philosophy
KEVSER KARACA ÇALIK
Yüksek Lisans
Türkçe
2020
Felsefeİstanbul 29 Mayıs ÜniversitesiFelsefe Ana Bilim Dalı
PROF. DR. AHMET AYHAN ÇİTİL
- Sayısal ortamda kartografik genelleştirme
Cartographic generalization in digital environment
TÜRKAY GÖKGÖZ
- Direct multi-touch ınteraction on a stereoscopic tabletop display
Bir stereoskopik masaüstü ekranda doğrudan çok dokunuşlu etkileşim
KASIM ÖZACAR
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTohoku UniversityPROF. DR. YOSHIFUMI KITAMURA
- Gödel makinelerinde öğrenme sorunu
Learning problem in Gödel machines
ABDULLAH HANZALE KORKMAZ
Yüksek Lisans
Türkçe
2024
Felsefeİstanbul ÜniversitesiSistematik Felsefe ve Mantık Ana Bilim Dalı
PROF. DR. ÖZGÜÇ GÜVEN