Geri Dön

Human-centric artificial intelligence systems for visual assistance and multimodal emotion analysis

Görsel yardım ve çok modlu duygu analizi için insan merkezli yapay zeka sistemleri

  1. Tez No: 916136
  2. Yazar: İBRAHİM DEDE
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ABDURRAHMAN GÜMÜŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İzmir Yüksek Teknoloji Enstitüsü
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 58

Özet

İnsan merkezli yapay zeka sistemleri, günlük yaşamı iyileştiren ve gerçek dünyadaki zorlukları ele alan teknolojiler yaratmak için çok önemlidir. Bu perspektifte, iki proje önerilmektedir. İlk proje olan Vis-Assist, görme engelli bireylere yardımcı olmak için tasarlanmış bir giyilebilir görsel yardımcı cihazdır. Nesneleri algılar ve sınıflandırır, mesafelerini ölçer ve harici sunuculara ihtiyaç duymadan entegre düşük maliyetli bir hesaplama birimi kullanarak titreşim motoru dizisi aracılığıyla gerçek zamanlı dokunsal geri bildirim sağlar. Bu cihaz, kullanıcıların 19 farklı nesne sınıfı arasında ayrım yapmasına ve güvenli bir şekilde gezinmesine olanak tanır. Geliştirilen giyilebilir cihazın performansı, dört katılımcıyla iki tür deney yoluyla değerlendirildi. Sonuçlar, kullanıcıların nesnelerin yerini belirleyebildiğini ve böylece engellerle çarpışmayı önleyebildiğini göstermektedir. Kullanıcılar ortalama olarak, 40 m²'lik boş bir alanda bir sandalye gibi önceden tanımlanmış bir nesneyi 94 saniyeden kısa bir sürede bulabilir ve nesneleri bulmak için engellerin etrafından dolaşabilir ve 121 saniyeden kısa bir sürede nesneleri bulabilir. İkinci proje, az sayıda atış öğrenmesi kullanarak çok modlu duygu sınıflandırmasına odaklanıyor. Yapay zekadaki geleneksel yöntemler, genellikle metin, görüntü, zaman serisi sinyali, ses spektrogramı gibi tek bir kaynak türünden gelen girdilere dayanır. Bu kaynaklar, modelin performansını iyileştirmek için çok modlu yaklaşımla birleştirilebilir. Bu araştırmada, OpenAI'nin CLIP çerçevesini kullanarak bir yapay zeka modeli geliştirildi ve Tip-Adapter algoritması üç tür girdiyi (metin, ses ve video) işleyecek şekilde uyarlandı. Modelin performansı, iki veri kümesi kullanılarak bir duygu sınıflandırma görevi üzerinde test edildi. Sonuçlar, çok modluluğun tek bir modalite kullanmaya kıyasla doğruluğu artırdığını göstererek, karmaşık, gerçek dünya ortamlarını anlayabilen ve bunlara yanıt verebilen insan merkezli AI sistemlerinin önemini vurguluyor.

Özet (Çeviri)

Human-centric artificial intelligence systems are crucial for creating technologies that enhance daily life and address real-world challenges. In this perspective, two projects are developed. The first project, Vis-Assist, is a novel wearable visual assistive device designed to aid visually impaired individuals. It detects and classifies objects, measures their distances, and provides real-time haptic feedback through a vibration motor array, all using an integrated low-cost computational unit without the need for external servers. This device allows users to discern between 19 different object classes and navigate safely. The performance of the developed wearable device was evaluated through two types of experiments with four participants. The results demonstrate that users can identify the location of objects and thereby prevent collisions with obstacles. On average, users can locate a predefined object, such as a chair, within a 40 m² vacant space in under 94 seconds and navigate around obstacles to find objects in less than 121 seconds. The second project focuses on multimodal emotion classification using few-shot learning. Traditional methods in artificial intelligence (AI), typically rely on inputs from a single type of resource such as text, image, time-series signal, audio spectrogram. These resources can be combined with multimodal approach to improve the performance of the model. This research developed an AI model using OpenAI's CLIP framework and adapted the Tip-Adapter algorithm to handle three types of inputs: text, audio, and video. The model's performance was tested on an emotion classification task using two datasets. The results demonstrate that multimodality improves accuracy compared to using a single modality.

Benzer Tezler

  1. Dialogue for all: Crafting inclusive and humanized voice assistants for diverse populations through an interdisciplinary approach

    Herkes için diyalog: Farklı topluluklar için kapsayıcı ve insani sesli asistanlar oluşturmak üzerine disiplinler arası bir yaklaşım

    YELİZ YÜCEL

    Doktora

    İngilizce

    İngilizce

    2023

    İletişim BilimleriGalatasaray Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    PROF. DR. KEREM RIZVANOĞLU

  2. Cognitively-inspired deep learning approaches for grounded language learning

    Temellendirilmiş dil öğrenimi için bilişsel esinli derin öğrenme yaklaşımları

    OZAN ARKAN CAN

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. DENİZ YURET

  3. Enhancing user experience: The critical role of Human-Computer Interaction (HCI) and Artificial Intelligence (AI)-driven systems in Pakistan

    Kullanıcı deneyimini geliştirme: Pakistan'da İnsan-Bilgisayar Etkileşimi (HCI) ve Yapay Zeka (AI) odaklı sistemlerin kritik rolü

    SABEEN SHOUKAT

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilim ve TeknolojiYeditepe Üniversitesi

    Etkileşim Tasarımı Bilim Dalı

    DR. ÖĞR. ÜYESİ ÇAĞLA ÖZEN

  4. Trusted distributed artificial intelligence for critical and autonomous systems

    Kritik ve otonom sistemler için mutemet dağıtık yapay zeka

    MUHAMMED AKİF AĞCA

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversity of Luxembourg

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. DJAMEL KHADRAOUI

  5. Framing, emotions, salience: The future of Aİ as seen by redditors

    Çerçeveleme, duygular, önemlilik: Redditorlar tarafından görülen yapay zeka (YZ)'nın geleceği

    AYŞE ÖCAL

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSyracuse University

    Bilgisayar Mühendisliği ve Enformatik Bilimler Ana Bilim Dalı

    PROF. DR. KEVİN CROWSTON