Geri Dön

Towards understanding intuitive physics with language and vision

Dil ve görmeyi kullanarak sezgisel fiziği anlamaya çalışmak

  1. Tez No: 692501
  2. Yazar: TAYFUN ATEŞ
  3. Danışmanlar: DOÇ. DR. MEHMET ERKUT ERDEM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 79

Özet

Çok kipli yapay muhakeme görevlerinin en zorlularından biri de görsel soru cevaplamadır. Bu problemde makinenin verilen bir görüntü ya da video hakkında sorulan soruya doğru cevap vermesi beklenmektedir. Soruya doğru cevap verebilmesi için, makinenin sahneyi iyi anlaması, sahnedeki varlıklar ve varlıklar arası ilişkiler hakkında doğru yargılara varması gerekmektedir. Görsel soru cevaplama üzerine çıkmış yapay veri kümeleri genellikle sabit görüntüler üzerinedir ve sadece modellerin uzamsal muhakeme yeteneklerini ölçmektedir. Bu tarz sabit sahnelerde ise makine, soruya doğru cevap vermek için sahnedeki varlıkların fiziksel özelliklerini öğrenmek zorunda değildir. Öte yandan, bu veri kümelerini kullanarak modellerin sezgisel fizik ya da zamansal ve nedensel muhakeme yeteneklerinin olup olmadığını ölçmek mümkün değildir. Bu tez kapsamında, bu yetenekleri de ölçebilmek adına; soruları ve görselleri, yapay ve otomatik yollarla elde edilmiş, CRAFT adında yeni bir veri kümesi oluşturulmuştur. CRAFT içindeki yaklaşık 38000 adet soru ve video çifti, yine yaklaşık olarak 3000 adet hareketli sahne videolarından oluşturulmuştur. Bu videolar, farklı sayıda hareketli varlık içeren on farklı iki-boyutlu sahne düzeninden sentetik bir biçimde oluşturulmuştur. CRAFT soruları hazırlanırken ise daha önce de çalışılmış iki adet soru kategorisinin (betimsel ve karşıolgusal) yanında bilişsel bilimlerdeki nedensel ilişkilerin temsillerinden de ilham alınarak daha önce çalışılmamış yeni soru kategorileri (sebebiyet, kolaylaştırma ve engelleme) de eklenerek toplam beş adet soru kategorisi yaratılmıştır. Bu video ve soru çiftleri hazırlanırken özellikle insanlar için kolay ama makineler için zor olmasına dikkat edilmiştir. Bu iddiayı savunmak için de CRAFT soruları hem seçilmiş yapay modellere hem de 12 yetişkin katılımcıya sorulmuştur. Deneysel sonuçlarda ise videolarla ilgili soruların insanlar tarafından kolayca cevaplanabilmesi ve yapay modellerin benzer sezgisel fizik yeteneğine kolayca erişememesi gözlemlenmiştir.

Özet (Çeviri)

Visual question answering (VQA) is one of the difficult tasks in multimodal machine reasoning. VQA requires machines to provide correct answers to questions about an image or a video. Here, the machine should perceive the scene and infer true judgements on the relationships between different entities. Recent benchmarks on VQA have been mostly proposed for static images and they only question spatial reasoning capabilities of artificial models. In other words, it is not a requirement for the machines to learn the physical properties of objects and understand different physical relationships among them. Hence, it is not possible to evaluate whether the models have intuitive physics or causal and temporal reasoning capabilities using these datasets. This thesis proposes a new benchmark, CRAFT, which is designed to evaluate these capabilities of artificial intelligence models. In particular, it comprises of 38K video and question pairs that are automatically generated from 3K videos of dynamic scenes. These scenes are synthetically created using a physics engine by considering ten different two-dimensional scene layouts containing variable number of dynamic objects. While generating the questions in CRAFT, we consider five different categories, two of those (descriptive and counterfactual) have been investigated in earlier works. However, in our work, we have introduced three new question categories (cause, enable, and prevent) which are proposed inspired by the representations of causal relationships in cognitive science. A special attention has been given to data generation process to focus on creating questions which are easy to solve by humans, but difficult for machines. In order to support this claim, CRAFT questions are asked to both artificial models and 12 adult participants. Our experimental results demonstrate that although the tasks seem intuitive for human participants, there is a large gap between them and the most successful artificial model.

Benzer Tezler

  1. Biyomagnetik olaylar

    Başlık çevirisi yok

    M.TOGAN ÇANDIR

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. İNCİ AKKAY

  2. Le rapport des droits de l'homme au politique: Lefort et Rancière

    İnsan haklarının politik-olan bağlantısı: Lefort ve Rancière

    EYLEM YOLSAL MURTEZA

    Doktora

    Fransızca

    Fransızca

    2022

    FelsefeGalatasaray Üniversitesi

    Felsefe Ana Bilim Dalı

    PROF. DR. ALİYE KARABÜK KOVANLIKAYA

  3. Trabzon kentsel dokusunda morfolojik analiz

    Morphological analysis of the built environment in Trabzon

    PELİN DURSUN

    Doktora

    Türkçe

    Türkçe

    2002

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. GÜLSÜN SAĞLAMER

  4. Design as making: Integration of design development and fabrication through human-computer interaction

    Yaparak tasarlama: insan bilgisayar etkileşimi ile tasarım ve imalat süreçlerini bütünleştirme

    SERDAR AŞUT

    Doktora

    İngilizce

    İngilizce

    2016

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. ARZU ERDEM

  5. Derin öğrenme ile cerrahi video anlama

    Surgical video understanding with deep learning

    ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DUYGU SARIKAYA