Geri Dön

Dialogue for all: Crafting inclusive and humanized voice assistants for diverse populations through an interdisciplinary approach

Herkes için diyalog: Farklı topluluklar için kapsayıcı ve insani sesli asistanlar oluşturmak üzerine disiplinler arası bir yaklaşım

  1. Tez No: 816000
  2. Yazar: YELİZ YÜCEL
  3. Danışmanlar: PROF. DR. KEREM RIZVANOĞLU
  4. Tez Türü: Doktora
  5. Konular: İletişim Bilimleri, Communication Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Galatasaray Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Radyo Televizyon ve Sinema Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 197

Özet

Konuşma ajanları (CA) teknoloji ve insan-bilgisayar etkileşimi (HCI) alanlarının ötesine uzanan dönüştürücü bir potansiyele sahiptir. Bu teknolojilerin, özellikle dijital bölünmeyi daraltma ve sosyal katılımı artırma konularında önemli toplumsal etkileri olabilmektedir. İnsanların konuşma ajanlarıyla etkileşimlerinin kültürel, cinsiyet, yaş ve yetenekle ilişkili özelliklerle nasıl etkilendiğini tanımak ve ele almak hayati önem taşımaktadır. Bu farklılıklar, yalnızca kullanıcıların bilgilere nasıl erişip bu bilgileri nasıl kullandıklarıyla değil, aynı zamanda bu bilgileri nasıl yorumlayıp değerlendirdikleriyle de şekillenmektedir. Bu nedenle, konuşma ajanları, önyargıları ve stereotipleri yayma ve yeniden üretme riski taşıyabilir. İletişim yöntemlerini çeşitli kullanıcı popülasyonlarına uygun hale getirmek bu endişeleri hafifletebilir, kullanıcı deneyimini artırabilir, kapsayıcılığı artırabilir ve erişimi genişletebilir. Google Asistan, Alexa, SIRI, Cortana gibi kişisel sesli asistanların artan kullanımı, kullanıcıların dikkatini uzun ve doğal konuşmalarda tutabilecek kadar etkili bir tasarım gerektirir. İnsan-bilgisayar etkileşimi (HCI) evrensel kullanılabilirliği garanti etmelidir. Ancak, yeni teknolojilerin kullanılabilirlik, erişilebilirlik ve kapsayıcılığı belirli popülasyonlar için sınırlı kalmaktadır. Bu çalışma, sesli asistan prototipleri üzerinden kullanıcı popülasyonlarının yeterince araştırılmamış bir alanına odaklanarak (özellikle yaşlı yetişkinler, özel ilgi alanlarına sahip yetişkinler ve görme engelli bireyler), insan-bilgisayar etkileşimi (HCI), sosyal psikoloji ve iletişim alanlarına önemli katkıda bulunmaktadır. Toplumsal düzeyde, kullanıcıların bireysel ihtiyaçlarına göre özelleştirilmiş konuşma ajanlarının geliştirilmesi, bilgi ve hizmetlere erişimdeki eşitsizlikleri ele alma potansiyeline sahiptir. Bu ajanlar, özellikle dezavantajlı gruplar için sağlık ve genel yaşam kalitesini teşvik etme konusunda önemli katkılarda bulunma potansiyeline sahiptir. Bilgi ve hizmetlere erişimi kolaylaştırarak, bu sistemler, bu kullanıcı grupları tarafından yaşanan zorlukları etkili bir şekilde hafifletebilir, böylece sosyal eşitsizlikle ilgili sorunları etkili bir şekilde ele alabilir. Bu ajanların geliştirilmesinde ortak tasarım tekniklerini ve kullanıcı merkezli yöntemlerini entegre etmek, kullanılabilirliklerini ve alakalarını garanti eder, böylece sosyal etkilerini en üst düzeye çıkarır. Tasarım sürecinde son kullanıcıların aktif katılımı kültürel olarak anlamlı, stereotipik olmayan ve kapsayıcı çözümler için son derece önemlidir.Nihai hedef, farklı popülasyonların spesifik ihtiyaçlarına hizmet eden insani sohbet etme yetisine sahip konuşma ajanları yaratmaktır, böylece daha kapsayıcı ve erişilebilir bir dijital ortama katkıda bulunulabilir. Bu çalışmanın en önemli yöntemsel katkılarından biri Wizard of Oz (WoZ) tekniğinin yenilikçi kullanımıdır. Bu teknik, sosyal bilimcilerin kodlama yapmadan çeşitli insan özellikleri manipüle ederek sesli asistana entegre etmelerine olanak tanır, böylece insan-bilgisayar etkileşimlerini anlamada daha esnek ve uyumlu bir yaklaşım sunar. Bu çalışma, WoZ tekniğinin entegrasyonuyla özellikle teknik geçmişe sahip olmayan araştırmacılar için insan-bilgisayar etkileşimi alanında yeni fırsatlar yaratmaktadır. Ayrıca, her bölümdeki öncesi ve sonrası ziyaret testleri, anlık test değerlendirmeleri, test öncesi ve sonrası görüşmeler, anketler ve niceliksel ölçeklerle birleştirilen benzersiz karma yöntem yaklaşımı, kullanıcıların konuşma ajanlarıyla etkileşimine dair kapsamlı ve detaylı bir anlayış yaratmaktadır. Bu araştırma, bu etkileşimleri yorumlamak için bütünsel ve kapsayıcı bir çerçeve sunarak, insanların sesli asistanlarla etkileşimi esnasındaki dinamikleri daha nüanslı bir şekilde anlamamıza katkıda bulunmaktadır. İkinci bölüm, cinsiyetle ilgili vokal sinyallerin ve konuşma tarzının etkisine odaklanarak, konuşma ajanlarının (CA) gösterdiği kendini açma(self- disclosure) seviyelerine odaklanarak, daha insani ve doğal bir sesli asistan prototipi yaratmayı amaçlamaktadır. Bu faktörlerin, mütekabiliyet (reciprocity) ve güven dahil olmak üzere özel ilgi alanlarına sahip yetişkinler üzerindeki tutumsal ve davranışsal sonuçları üzerindeki etkilerini incelemek amaçlanmıştır. Bu çalışmada, özellikle ev tipi bir sesli asistan (Google Home) üzerine entegre edilmiş bir konuşma tabanlı konuşma ajanı (CA) prototipi tasarlanmıştır. Tamamen işlevsel bir sesli asistanı simüle etmek için Wizard of Oz tekniğini kullanışmıştır, bu da sistemin verdiği yanıtları manipüle eden bir araştırmacıyı (wizard) kapsamaktadır. Araştırma tasarımımız, doğal bir ev ortamında 40 yetişkin kullanıcıyla test edilmiş ve çok yöntemli bir yaklaşımı benimsemiştir. Araştırmamızda sunulan konsept, Bilgisayarlar Sosyal Aktörlerdir (CASA) Paradigması temeline dayanmaktadır. Bu çalışmanın bulguları, sesli asistanların kendini açıklama düzeylerinin(self-disclosure) artmasının, kişilerarası bağlantılar kurmada ve güven oluşturmada kritik bir rol oynadığını göstermektedir. Nitel veriler, CA'lara yönelik içkin cinsiyet stereotiplerini ortaya koymakta, kullanıcı merkezli tasarımın ve konuşma ajanlarının toplumsal önyargı ve stereotipleri yeniden üretme potansiyelinin altını çizmektedir. Kullanıcılar, sesli asistanla etkileşimleri sırasında konuşma sırasını almak (turntaking) ve arka kanal iletişimi sağlamak (back-channeling) gibi insani konuşma normlarını içgüdüsel olarak takip etme eğilimindedirler. Bahsedilen bulgular, sesli asistanlar geliştirirken, konuşma kurallarını bağlama yönelik olarak dikkate almanın ve kültürel olarak anlamlı arka plan bilgi kaynaklarını (background knowledge) entegre etmenin önemini vurgulamaktadır. Bu yaklaşım, kültürel uygunluğun, kullanıcı empatisinin ve katılımın teşvikini kolaylaştırır ve böylece sesli asistanla daha anlamlı ilişkiler kurmaya elverişli bir ortam hazırlar. Üçüncü bölümün amacı, yaşlı bireyler gibi dezavantajlı gruplara hizmet edebilmesi için konuşma ajanlarının becerilerinin popülasyonun spesifik ihtiyaçları doğrultusunda geliştirmenin gerekliliğini vurgulamaktır. Bu çalışma, 65 ile 75 yaş arası yaşlı bireyler için sesli asistanların (VA) potansiyelini araştırmak üzere karma bir yöntem yaklaşımı kullanmıştır. Bu yaş grubu, Covid-19 pandemisinden önemli ölçüde etkilenmiş olup, dijital bölünme gibi ek bir engelle karşı karşıyadır. Amaç, yaşlı yetişkinlerin ev tipi bir sesli asistana (Google Home) entegre edilmiş bir sesli asistan prototipiyle ilk kez etkileşimde bulunduklarındaki ihtiyaçlarını ve zorluklarını belirlemektir. Sesli asistan prototipimiz var olan sesli asistanların tek tip yaklaşımın kısıtlamalarının altını çizmek için yaşlı bireylerin sosyo-kültürel geçmişine uygun ve değişken ses yaşlarına (olgun ve genç ses) sahip empatik bir sesli asistan (VA) sunmaktadır. Bu prototip bağlama özgü ve kullanıcı merkezli diyalog akışları kullanılarak gerçekleştirilmiş ve diyalog akışları yaşlı yetişkin kullanıcılar tarafından değerlendirilerek valide edilmiştir. Çalışma, diyalog akışlarını manipüle edebildiğimiz Wizard of Oz yaklaşımını kullanan bir prototipe bağlı olup, etkileşimde bulunan 60 yaşlı yetişkin katılımcıyı kapsamaktadır. Bilgisayarlar Sosyal Aktörler paradigması, Benzerlik-Çekim Teorisi ve Hofstede'nin Kültürel Boyutlar Teorisi kullanılarak sesli asistanın vokal özelliklerinin (olgun ve genç) ve empatik ifadenin varlığının (yüksek ve düşük) toplumsal (algılanan destek ve güven) ve işlevsel sonuçlara (algılanan öz-yeterlilik) etkilerini araştırılmıştır. Bulgular şunları önermektedir: (1) sesli asistanın konuşma tarzı, yaşlı yetişkinler için fiziksel görünümünden daha önemlidir ve antropomorfizma (insanileştirme), fiziksel bir tezahür olmaksızın meydana gelebilmektedir ve (2) yüksek empatik ifadenin varlığı, yaşlı yetişkinlerin sosyo-kültürel geçmişi ve inançlarına dayanarak sesli asistan prototipini“insan etkileşiminin ötesinde sadık bir dost”olarak algılamaları için güçlü bir motivasyon kaynağıdır. (3) Benzerlik çekim etkisinin, benzerliğin vokal özellikler üzerinden (olgun ses) aracılık ettiği zaman yaşlı bireyler üzerinde işlev gördüğüne dair bir kanıt bulunamamıştır, çünkü olgun sesli bir sesli asistanla yaşadıkları deneyimin yaşlı yetişkinler üzerinde hissedilen destek veya güven bazında etkisi yoktur. İlginç bir şekilde, yaşlı yetişkinler olgun sese sahip sesli asistanı reddetmişlerdir. Yaşlı yetişkinlerin jenerasyon bazlı refleksleri ve kültürel duyarlı tasarımı göz önünde bulundurarak, çalışmamız, yaşlı yetişkinlerle optimal etkileşim için bağlam temelli, kullanıcı merkezli“bedensiz”bir sesli asistana empatik ifade ve ses tasarımını entegre etmenin önemini vurgulamaktadır. Çalışmanın dördüncü aşamasında, fiziksel çevrenin temel olarak görsel özelliklerinden dolayı kültürel, tarihi ve pratik bilgilere erişimde sınırlamalarla karşılaşan görme engelli bireylerin üzerine yoğunlaşılmıştır. Sınırlı erişim imkanı, iç ve dış mekanda gerçekleşebilecek boş zaman aktivitelerine katılımı zorlaştırmaktadır. Müzeler, keşif, sosyal etkileşim ve eğitim fırsatları sunmasına rağmen, erişilebilirlik sıkça göz ardı edilmektedir. Küçük değişiklikler bile, görme engelli olanlar için müze deneyimini önemli ölçüde geliştirebilir. Bu engelleri aşmak için, görme engelli bireyler için hem erişilebilir hem de kapsayıcı müze ortamları oluşturmayı amaçlayan tekrar üretilebilir bir araştırma çerçevesi içeren iMuse Modeli'ni tasarlanmıştır. Bu modelin merkezinde, Türkiye'deki Yerebatan Sarnıcı Müzesi'nde uzaktan müze gezintisi için Google Home üzerinden gerçekleştirilen bir sesli asistan prototipinin görme engelli bireylerle birlikte yapılmış kapsayıcı bir ortaklaşa tasarım bulunmaktadır. Model, iki katmanlı bir çalışmayı içermektedir. İlk katmanda, görme engelli kullanıcıların ve görme kaybı eğitmenlerinin belirli ihtiyaçlarına ve zorluklarına odaklanan dört aşamalı bir çerçevenin ortaklaşa tasarlanması yer almaktadır. İkinci katman, bu tasarımı ek 30 görme engelli birey ile test etmeyi ve bunun için Wizard of Oz (WoZ) tekniği de dahil olmak üzere birden çok yöntemi kullanmayı içermektedir. Prototipin diyalog akışlarına, müze ortamında kaydedilmiş damlayan su veya uğultu gibi mekansal seslerle birlikte, mekanın anlatımında duyusal, duygusal, tarihi ve yapısal unsurları içeren kapsayıcı ve görme engelliler tarafından anlaşabilir betimleyici sesli açıklamalar entegre edilmiştir. Yukarıdaki yöntem, mekânsal anlama ve bilişsel harita (cognitive map) gelişimini artırmada etkili bulunmuştur. Katılımcıların var olan sesli asistanların kalıplaşmış şakaları ve insani olarak algılanmayan etkileşimleri hususundaki hassasiyetini not alarak, sesli asistanın iki iterasyonuna kişilerarası yetenekler entegre edilmiştir. Bu versiyonlardan biri mizahi bir şekilde mekanı anlatmaya odaklanırken, diğeri mizahsız etkileşimlere odaklanacak şekilde farklı özelliklere sahiptir. Hem niteliksel hem de niceliksel sonuçlar, görme engelli kullanıcıların mizahi versiyonu tercih ettiklerini, etkileşimi, orada olma hissini (immersion) ve hatta sosyal öğrenmeyi artırdığını göstermiştir. Bu çalışma, iMuse Modeli'nin, tanıdık olmayan alanlarda görme engelli bireylere yardımcı olmak için ortaklaşa tasarlanmış, mizahla süslenmiş ve kültürel açıdan duyarlı sesli asistanları kullanma potansiyelini vurgulamaktadır. Ayrıca, bu sesli asistanların bu ortamlarda sosyal öğrenmeyi, katılımı ve kültürel mirası değerlendirmeyi nasıl artırabileceğinin altını çizmektedir. Genel olarak, bu çalışmanın sonuçlarının, daha diyalog bazlı, kullanıcı merkezli ve kapsayıcı olan konuşma ajanlarının oluşturulması ve geliştirilmesi için değerli içgörüler sunması beklenmektedir. Bu araştırma çabası, özellikle daha kapsayıcı ve erişilebilir sesli asistanlar tasarlama alanında önemli teorik ve pratik ilerlemeleri beraberinde getirme potansiyeline sahiptir. Ayrıca, İnsan-Bilgisayar Etkileşimi (HCI) hakkındaki anlayışı derinleştirebilir ve teknoloji alanında sosyal bilim teorilerinin kullanımını genişletme potansiyeline sahiptir.

Özet (Çeviri)

Conversational agents (Cas) have transformative potential that reaches beyond the realms of technology and human-computer interaction (HCI). These technologies can potentially have a significant societal impact, particularly in narrowing digital divides and enhancing social inclusion. Recognising and addressing the various ways in which humans interact with conversational agents, as influenced by cultural, gender, age, and ability-related characteristics, is crucial. These variations shape not only how users access and utilise information but also how they interpret and evaluate it. As such, these agents could risk propagating and reproducing biases and stereotypes. Tailoring communication methods to diverse user populations can help alleviate these concerns, enhancing the user experience, increasing inclusivity and broadening access. The growing use of personal voice assistants like Google Assistant, Amazon's Alexa, SIRI, Cortana, and Microsoft's Cortana calls for effective design that can hold users' attention for prolonged and natural conversations. Human-computer interaction (HCI) must ensure universal usability. However, new technologies' usability, accessibility and inclusivity remain limited for specific populations. By exploring the under-researched area of voice-assistant user populations, with a particular focus on older adults, adults with specialised interests, and visually impaired people, this study significantly contributes to the fields of human-computer interaction (HCI), social psychology and communication. At the social level, the development of conversational agents that are customised to meet the individual needs of users has the potential to address disparities in access to information and services. These agents have the potential to significantly contribute to promoting health, wellness, and overall quality of life, especially for vulnerable groups. By facilitating access to information and services, these systems have the potential to effectively mitigate the challenges experienced by these user groups, thus effectively tackling issues related to social inequality. Integrating co-design techniques and user-centred methodologies in developing these agents guarantees their usability and relevance, hence maximising their social impact. The active involvement of end users in the design process is of utmost importance, culturally relevant solutions, non-stereotypical, and inclusive solutions. The ultimate goal is to create humanised computational agents that cater to the diverse needs of the populace, contributing to a more inclusive and accessible digital environment. The innovative use of the Wizard of Oz (WoZ) technique is a significant methodological contribution. This technique enables social scientists to manipulate various human characteristics without coding, allowing for a more flexible and adaptable approach to comprehending human-computer interactions. By integrating WoZ, this study creates new opportunities for HCI research, particularly for those with non-technical backgrounds. Furthermore, the unique mixed-method approach, combined with pre- and post-visit quizzes, momentary test evaluations, pre- and post-visit interviews, surveys, and quantifiable scales in each chapter, creates a comprehensive and detailed understanding of user interactions with computational agents. This research contributes to a more nuanced understanding of the dynamics when humans interact with artificial entities by introducing a holistic and inclusive framework for interpreting these interactions. Our second chapter delves into the influence of gender-related vocal signals and conversational style, focusing on the level of self-disclosure exhibited by conversational agents (CAs). We seek to examine the effects of these factors on attitudinal and behavioural outcomes, including self-disclosure reciprocity and trust. This study used a speech-based conversational agent (CA) prototype integrated into a voice assistant system based on smart speakers, specifically Google Home. We employed the Wizard of Oz technique to simulate a fully functional CA, which involved human operators controlling the system's responses Our research design also incorporated a complete multi-method approach, which included the participation of 40 adult users in a naturalistic home environment setting. The concept presented in our research is based on the Computers are Social Actors (CASA) Paradigm and is designed to be cost-effective. The findings of this study indicate that the act of self-disclosure by computer agents (CAs) plays a crucial role in establishing interpersonal connections and cultivating trust. Qualitative data reveals implicit gender stereotypes towards CAs, emphasising user-centred design and the potential of reproducing biases and stereotypes of conversational agents. Users tend to instinctively follow conversational conventions such as taking turns in speaking and providing back-channel responses. The aforementioned findings underscore the significance of considering conversational conventions dependent on context and integrating culturally relevant background knowledge sources when developing voice assistants based on smart speakers. This approach facilitates the promotion of cultural relevance, user empathy, and engagement, hence fostering more meaningful interactions. The objective of the third chapter is to emphasise the necessity of improving the skills of conversational agents in order to cater to disadvantaged groups, such as older adults. This study used a mixed-method approach to investigate the potential of voice assistants (VAs) for a specific demographic, namely older persons between the ages of 65 and 75. This age group has had significant impacts from the Covid-19 pandemic and faces the additional hurdle of the digital divide. The objective was to identify their needs and challenges when interacting with a smart speaker-based VA (Google Home) for the first time. To address the constraints of a one-size-fits-all approach, our voice assistant prototype provides an empathetic VA with varied voice ages tailored to older individuals' socio-cultural backgrounds. This was achieved through the use of context-specific and user-centred dialogue flows. The study included 60 elderly persons who interacted with a prototype speech-based conversational agent (CA) that used the Wizard of Oz approach within a smartspeaker-based voice assistant (Google Home). We investigated the effects of VA's voice characteristics (mature vs young) and the presence of empathic expression (high vs low) on social outcomes (perceived support and trust) and functional outcomes (perceived self-efficacy) towards voice assistants using the Computers are Social Actors paradigm, the Similarity-Attraction Theory, and Hofstede's Cultural Dimensions Theory. The findings suggest that: (1) the voice assistant's conversational style is more important than its appearance for older adults, and anthropomorphism occurs even in the absence of a physical embodiment, and (2) high empathic expression is a powerful motivator for perceiving the VA as a“discreet confidante beyond human interaction”based on older adults' socio-cultural background and beliefs. (3) There was no evidence that the similarity attraction effect functioned on older individuals when the similarity was mediated, as a mature voice had no effect on felt support or trust. Interestingly, older adults rejected the voice assistant with a mature voice. Considering older adults' generational reflexes and culturally-sensitive design, our study underscores the significance of incorporating empathic expression and voice design into a context-based, usercentred“bodiless”voice assistant for optimal interaction with older adults. In the fourth phase of our study, we directed our attention towards individuals with visual impairments who often face limitations in accessing cultural, historical, and practical knowledge due to the primarily visual characteristics of the physical environment. The limited availability of access poses obstacles to engagement in indoor and outdoor leisure activities. While museums provide opportunities for exploration, social interaction, and education, accessibility is frequently disregarded. Even slight modifications can significantly enhance the museum experience for those with visual impairments. In order to tackle these obstacles, we have devised the iMuse Model, a reproducible research framework designed to establish museum environments that are both accessible and inclusive for individuals with visual impairments. The central focus of this model revolves around the co-design of a prototype voice assistant, implemented through Google Home, for remote museum navigation, specifically within the Basilica Cistern Museum in Turkey. The model incorporates a two-layer study. The initial layer involves co-designing a four-phase framework with visually impaired users and their sight loss instructors, concentrating on their specific needs and challenges. The second layer involves testing this design with an additional 30 visually impaired individuals, using multiple methodologies, including the Wizard of Oz technique. In our prototype, we integrated inclusive and comprehensible audio descriptions, incorporating sensory, emotional, historical, and structural elements, along with spatialised sounds from the museum environment, such as the dripping water or buzzing noises. The above methodology was discovered to enhance spatial understanding and cognitive map development. Noting the exhaustion with conventional voice assistants' canned jokes and tool-like interactions, we have incorporated interpersonal capabilities into our two iterations of the voice assistant. These versions encompass distinct characteristics, one emphasising humour through laughter, while the other focuses on non-humorous interactions. Both qualitative and quantitative results indicated a preference for the humorous version, which increased interaction, immersion, and even social learning. This study highlights the potential of the iMuse Model in utilising co-designed, humour-infused, and culturally sensitive voice assistants to aid visually impaired individuals in navigating unfamiliar spaces. Additionally, it emphasises how these voice assistants can enhance social learning, engagement, and the appreciation of cultural heritage within these environments. Overall, the results of this study are anticipated to offer valuable insights that can guide the creation and advancement of conversational agents that are more captivating, user-centric, and inclusive. This research endeavour holds the potential to yield significant theoretical and practical advancements, particularly in the area of designing conversational agents that are more immersive and inclusive. Moreover, it can enhance our comprehension of Human-Computer Interaction (HCI) and expand the utilisation of social science ideas inside the technology domain. Les agents conversationnels (CAs) ont un potentiel transformateur qui va audelà des domaines de la technologie et de l'interaction homme-machine (IHM). Ces technologies peuvent potentiellement avoir un impact sociétal significatif, en particulier pour réduire les fossés numériques et améliorer l'inclusion sociale. Reconnaître et aborder les différentes façons dont les humains interagissent avec les agents conversationnels, influencées par des caractéristiques culturelles, de genre, d'âge et de capacité, est essentiel. Ces variations déterminent non seulement comment les utilisateurs accèdent à l'information et l'utilisent, mais aussi comment ils l'interprètent et l'évaluent. À ce titre, ces agents pourraient risquer de propager et de reproduire des préjugés et des stéréotypes. Adapter les méthodes de communication à diverses populations d'utilisateurs peut aider à atténuer ces préoccupations, améliorant l'expérience utilisateur, augmentant l'inclusivité et élargissant l'accès. L'utilisation croissante d'assistants vocaux personnels tels que Google Assistant, Alexa d'Amazon, SIRI, et Cortana de Microsoft nécessite une conception efficace capable de retenir l'attention des utilisateurs pour des conversations prolongées et naturelles. L'interaction homme-machine (IHM) doit garantir une utilisabilité universelle. Cependant, l'utilisabilité, l'accessibilité et l'inclusivité des nouvelles technologies restent limitées pour certaines populations spécifiques. En explorant le domaine peu étudié des populations d'utilisateurs d'assistants vocaux, avec une attention particulière portée aux personnes âgées, aux adultes avec les intérêts spécialisés, et aux personnes malvoyantes, cette étude apporte une contribution significative aux domaines de l'interaction homme-machine (IHM), de la psychologie sociale et de la communication. Au niveau social, le développement d'agents conversationnels personnalisés pour répondre aux besoins individuels des utilisateurs a le potentiel de traiter les disparités d'accès à l'information et aux services. Ces agents ont le potentiel de contribuer de manière significative à la promotion de la santé, du bien-être et de la qualité de vie en général, en particulier pour les groupes vulnérables. En facilitant l'accès à l'information et aux services, ces systèmes ont la capacité d'atténuer efficacement les défis rencontrés par ces groupes d'utilisateurs, abordant ainsi directement les problèmes liés à l'inégalité sociale. L'intégration de techniques de coconception et de méthodologies centrées sur l'utilisateur dans le développement de ces agents garantit leur utilisabilité et leur pertinence, maximisant ainsi leur impact social. L'implication active des utilisateurs finaux dans le processus de conception est de la plus haute importance pour des solutions culturellement pertinentes, non stéréotypées et inclusives. L'objectif ultime est de créer des agents computationnels humanisés qui répondent aux besoins diversifiés de la population, contribuant à un environnement numérique plus inclusif et accessible. L'utilisation innovante de la technique du Magicien d'Oz (WoZ) est une contribution méthodologique significative. Cette technique permet aux scientifiques sociaux de manipuler diverses caractéristiques humaines sans programmation, offrant ainsi une approche plus flexible et adaptable pour comprendre les interactions homme-machine. En intégrant le WoZ, cette étude ouvre de nouvelles opportunités pour la recherche en HCI, en particulier pour ceux qui n'ont pas de formation technique. De plus, l'approche mixte unique, combinée à des quiz avant et après la visite, des évaluations de tests momentanés, des entretiens avant et après la visite, des enquêtes, et des échelles quantifiables dans chaque chapitre, crée une compréhension complète et détaillée des interactions des utilisateurs avec les agents computationnels. Cette recherche contribue à une compréhension plus nuancée des dynamiques lors des interactions entre les humains et les entités artificielles en introduisant un cadre holistique et inclusif pour interpréter ces interactions. Notre seconde chapitre se penche sur l'influence des signaux vocaux liés au genre et sur le style de conversation, en se concentrant sur le niveau d'auto-révélation exhibé par les agents conversationnels (AC). Nous cherchons à examiner les effets de ces facteurs sur les résultats attitudels et comportementaux, y compris la réciprocité de l'auto-révélation et la confiance. Cette étude a utilisé un prototype d'agent conversationnel (AC) basé sur la parole intégré dans un système d'assistant vocal reposant sur des enceintes intelligentes, spécifiquement Google Home. Nous avons employé la technique du Magicien d'Oz pour simuler un AC entièrement fonctionnel, impliquant des opérateurs humains contrôlant les réponses du système. Notre conception de recherche a également incorporé une approche multi-méthodes complète, incluant la participation de 40 utilisateurs adultes dans un cadre d'environnement domestique naturel. Le concept présenté dans notre recherche est basé sur le paradigme“Les ordinateurs sont des acteurs sociaux”(CASA) et est conçu pour être rentable. Les résultats de cette étude indiquent que l'acte d'autorévélation par les agents conversationelles (AC) joue un rôle crucial dans l'établissement de connexions interpersonnelles et la cultivation de la confiance. Les données qualitatives révèlent des stéréotypes de genre implicites envers les AC, mettant l'accent sur la conception centrée sur l'utilisateur et le potentiel de reproduction de biais et stéréotypes des agents conversationnels. Les utilisateurs ont tendance à suivre instinctivement les conventions conversationnelles telles que prendre leur tour pour parler et fournir des réponses de retour. Les découvertes susmentionnées soulignent l'importance de prendre en compte les conventions conversationnelles en fonction du contexte et d'intégrer des sources de connaissances contextuelles pertinentes lors du développement d'assistants vocaux basés sur des enceintes intelligentes. Cette approche facilite la promotion de la pertinence culturelle, de l'empathie utilisateur et de l'engagement, favorisant ainsi des interactions plus significatives. L'objectif du troisième chapitre est de souligner la nécessité d'améliorer les compétences des agents conversationnels afin de répondre aux besoins des groupes défavorisés, tels que les personnes âgées. Cette étude a utilisé une approche mixte pour enquêter sur le potentiel des assistants vocaux (AV) pour une démographie spécifique, à savoir les personnes âgées entre 65 et 75 ans. Ce groupe d'âge a été fortement impacté par la pandémie de Covid-19 et fait face à l'obstacle supplémentaire de la fracture numérique. L'objectif était d'identifier leurs besoins et défis lorsqu'ils interagissent pour la première fois avec un AV basé sur une enceinte intelligente (Google Home). Pour répondre aux contraintes d'une approche universelle, notre prototype d'assistant vocal offre un AV empathique avec des voix de différents âges adaptées aux origines socio-culturelles des personnes âgées. Ceci a été réalisé grâce à l'utilisation de flux de dialogue spécifiques au contexte et centrés sur l'utilisateur. L'étude a inclus 60 personnes âgées qui ont interagi avec un prototype d'agent conversationnel (AC) basé sur la parole utilisant l'approche du Magicien d'Oz au sein d'un assistant vocal basé sur une enceinte intelligente (Google Home). Nous avons étudié les effets des caractéristiques vocales de l'AV (voix mature vs jeune) et de la présence d'expression empathique (élevée vs faible) sur les résultats sociaux (soutien et confiance perçus) et fonctionnels (auto-efficacité perçue) envers les assistants vocaux en utilisant le paradigme“Les ordinateurs sont des acteurs sociaux”, la théorie de l'attraction par similitude, et la théorie des dimensions culturelles de Hofstede. Les résultats suggèrent que : (1) le style conversationnel de l'assistant vocal est plus important que son apparence pour les personnes âgées, et l'anthropomorphisme se produit même en l'absence d'une incarnation physique, et (2) une forte expression empathique est un puissant motivateur pour percevoir l'AV comme un“confident discret au-delà de l'interaction humaine”basé sur le background et les croyances socio-culturels des personnes âgées. (3) Il n'y avait aucune preuve que l'effet d'attraction par similitude fonctionnait sur les personnes âgées lorsque la similitude était médiatisée, car une voix mature n'avait aucun effet sur le soutien ou la confiance ressentis. De manière intéressante, les personnes âgées ont rejeté l'assistant vocal avec une voix mature. En tenant compte des réflexes générationnels des personnes âgées et d'une conception sensible à la culture, notre étude souligne l'importance d'intégrer l'expression empathique et la conception de la voix dans un assistant vocal“sans corps”, centré sur l'utilisateur et basé sur le contexte, pour une interaction optimale avec les personnes âgées. Dans la quatrième phase de notre étude, nous avons orienté notre attention vers les personnes malvoyantes qui rencontrent souvent des limites pour accéder à la connaissance culturelle, historique et pratique à cause des caractéristiques principalement visuelles de l'environnement physique. La disponibilité limitée d'accès constitue des obstacles à la participation à des activités de loisirs intérieures et extérieures. Si les musées offrent des opportunités d'exploration, d'interaction sociale et d'éducation, l'accessibilité est souvent négligée. De légères modifications peuvent considérablement améliorer l'expérience muséale pour les personnes malvoyantes. Afin de surmonter ces obstacles, nous avons élaboré le modèle iMuse, un cadre de recherche reproductible conçu pour établir des environnements muséaux à la fois accessibles et inclusifs pour les personnes malvoyantes. Le cœur de ce modèle concerne la co-conception d'un prototype d'assistant vocal, mis en œuvre via Google Home, pour la navigation à distance dans le musée, spécifiquement au sein de la Basilique Citerne en Turquie. Le modèle comporte une étude à deux niveaux. Le premier niveau implique la co-conception d'un cadre en quatre phases avec des utilisateurs malvoyants et leurs instructeurs, se concentrant sur leurs besoins et défis spécifiques. La deuxième couche implique de tester cette conception avec 30 autres individus malvoyants, en utilisant plusieurs méthodologies, dont la technique du Magicien d'Oz. Dans notre prototype, nous avons intégré des descriptions audio inclusives et compréhensibles, incorporant des éléments sensoriels, émotionnels, historiques et structurels, ainsi que des sons spatialisés de l'environnement du musée, comme l'eau qui goutte ou des bruits de fond. Cette méthodologie s'est avérée renforcer la compréhension spatiale et le développement de cartes cognitives. Notant la lassitude des blagues formatées des assistants vocaux conventionnels et des interactions utilitaires, nous avons intégré des capacités interpersonnelles dans nos deux versions de l'assistant vocal. Ces versions ont des caractéristiques distinctes, l'une mettant l'accent sur l'humour par le rire, tandis que l'autre se concentre sur des interactions non humoristiques. Les résultats qualitatifs et quantitatifs ont indiqué une préférence pour la version humoristique, qui a augmenté l'interaction, l'immersion et même l'apprentissage social. Cette étude met en évidence le potentiel du modèle iMuse dans l'utilisation d'assistants vocaux co-conçus, imprégnés d'humour, et culturellement sensibles pour aider les personnes malvoyantes à naviguer dans des espaces inconnus. De plus, elle souligne comment ces assistants vocaux peuvent renforcer l'apprentissage social, l'engagement et l'appréciation du patrimoine culturel au sein de ces environnements. Globalement, les résultats de cette étude devraient offrir des perspectives précieuses qui peuvent guider la création et l'avancement des agents conversationnels plus captivants, centrés sur l'utilisateur et inclusifs. Cette initiative de recherche a le potentiel d'apporter des avancées théoriques et pratiques significatives, en particulier dans le domaine de la conception d'agents conversationnels plus immersifs et inclusifs. De plus, elle peut améliorer notre compréhension de l'Interaction HommeOrdinateur (IHO) et étendre l'utilisation des idées des sciences sociales dans le domaine technologique.

Benzer Tezler

  1. Kullanıcı deneyimi alanında araştırma süreçlerinin incelenmesi: Araştırma tasarımına yönelik iyileştirme önerileri

    Exploring research processes in user experience design: Suggestions towards improving research design

    ÖRSAN BERKAY TÜLÜCE

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Endüstri Ürünleri Tasarımıİstanbul Teknik Üniversitesi

    Endüstriyel Tasarım Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGE ÇELİKOĞLU

  2. Platon'un Yasalar'daki öğretisi ve Fârâbî'nin Nevâmîs'i

    Plato's teaching in the Laws and al-Fārābī's Nawāmīs

    ENES BİLGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Felsefeİnönü Üniversitesi

    Felsefe Ana Bilim Dalı

    DOÇ. DR. YAKUP YILDIZ

  3. Mimarlık alanında alternatif bir süreç: Herkes için mimarlık Ovakent projesi

    An alternative process-based approach to architecture: The Ovakent project by the architecture for all association

    MERVE GÜL ÖZOKCU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. AHMET ARDA İNCEOĞLU

  4. Diyalog tabanlı yarışmalara yeni bir model önerisi

    A new model for dialog based architectural competitions

    GÖRKEM RABİA EVKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Bölümü

    DOÇ. DR. HÜSEYİN KAHVECİOĞLU

  5. Beden ürün diyaloğu: Beden odaklı analiz ve tasarımda yeni olanaklar

    Body product dialogue: Body oriented analysis and new possibilities in design

    AYŞE ASYA GÜRGÜN ÖZDEMİR

    Doktora

    Türkçe

    Türkçe

    2023

    Endüstri Ürünleri Tasarımıİstanbul Teknik Üniversitesi

    Endüstriyel Tasarım Ana Bilim Dalı

    PROF. DR. GÜLNAME TURAN