Geri Dön

Deki: A multimodal image-to-code transformation and vision-based gui agents

Dekı: Çok modlu görüntüden koda dönüşüm ve görme tabanlı guı ajanları

  1. Tez No: 954536
  2. Yazar: RASUL OSMANBAYLİ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SELÇUK ŞENER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: GUI Ajanları, Çok Modlu Yapay Zekâ, Görüntüden Koda, Görme Tabanlı Ajanlar, UI Otomasyonu, Set-of-Mark İstemleme, Nesne Tespiti, GUI Agents, Multimodal AI, Image-to-Code, Vision-Based Agents, UI Automation, Set-of-Mark Prompting, Object Detection
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Aydın Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Grafiksel kullanıcı arayüzü (GUI) öğelerini ham ekran görüntülerinden doğru bir şekilde anlamak ve bunlarla etkileşim kurmak, en gelişmiş büyük dil modelleri (LLM'ler) ve görsel dil modelleri (VLM'ler) için bile önemli bir darboğaz olmaya devam etmektedir. Bu tez, bir makinenin yapılandırılmamış piksel düzeyindeki görünümü ile insanların sahip olduğu zengin, hiyerarşik anlayış arasındaki, otomatikleştirilmiş GUI görevlerindeki ilerlemeyi sınırlayan kritik“anlamsal boşluğu”ele almaktadır. Bu araştırma, temel sınırlamanın modern modellerin akıl yürütme yeteneği değil, dili görsel uzayda doğru bir şekilde temellendirme konusundaki algısal yetenekleri olduğunu öne sürmektedir. Bu boşluğu kapatmak için bu tez, UI ekran görüntülerini analiz etmek ve kurucu öğelerinin zengin, yapılandırılmış açıklamalarını üretmek üzere tasarlanmış çok modlu bir sistem olan deki'yi sunmaktadır. deki boru hattı, görünümler, resimler ve metin gibi UI öğelerini hassas bir şekilde yerelleştirmek için özel olarak eğitilmiş bir YOLOv8 nesne algılama modeli kullanır. Bu yerelleştirilmiş bölgeler daha sonra, metin okunabilirliğini artırmak için Gelişmiş Derin Süper Çözünürlük (EDSR) modelinin kullanılmasını, ardından yüksek doğrulukta veri çıkarımı sağlamak için Optik Karakter Tanıma (OCR) ve yazım denetimini içeren çok aşamalı bir öznitelik çıkarma sürecinden geçer. Nihai çıktı, öğe sınıflarını, hassas sınırlayıcı kutu koordinatlarını, düzeltilmiş metni ve görsel öznitelikleri içeren kapsamlı bir JSON dosyasıdır. Bu dosya, aşağı akış LLM'ini zenginleştirmek için İşaret Kümesi (SoM) ile işaretlenmiş bir ekran görüntüsüyle birleştirilir ve bu strateji hem sembolik hem de açık görsel temellendirme sağlar. deki'nin etkinliği iki temel alanda değerlendirilmektedir. Görüntüden koda üretimde, bir VLM'in deki'nin çıktısıyla zenginleştirilmesi, Yapısal Benzerlik Endeksi (SSIM) ile ölçüldüğü üzere daha yüksek görsel doğruluğa sahip UI koduyla sonuçlanmıştır. En önemli etki, GUI otomasyonunda gözlemlenmiştir. Tek adımlı Android Control kıyaslamasında, deki ile zenginleştirilmiş bir ajan, temel VLM'ye göre +%18,3'lük bir iyileşme ile %70,7'lik bir eylem doğruluğu elde etmiştir. Daha karmaşık, çok adımlı Android World kıyaslamasında ise ajan, %66,6'lık bir başarı oranı elde ederek alanındaki en iyi yalnızca görme tabanlı ajanları geride bırakmıştır. Bu sonuçlar, özellikle affetmeyen etkileşimli görevler için güvenilir insan-bilgisayar etkileşimi için hassas mekânsal temellendirmenin kritik rolünü vurgulamaktadır. Bulgular, genel amaçlı modelleri deki gibi özel algı modülleriyle zenginleştirmenin güçlü ve etkili bir mimari model olduğunu göstermektedir. Bu araştırmanın, otomatikleştirilmiş yazılım mühendisliği, yeni nesil erişilebilirlik araçları ve HCI'nin herhangi bir grafik arayüzle sorunsuz, dil odaklı etkileşime doğru ilerlemesi için geniş kapsamlı etkileri bulunmaktadır.

Özet (Çeviri)

Accurately understanding and interacting with graphical user interface (GUI) elements from raw screenshots remains a significant bottleneck for even the most advanced large language models (LLMs) and visual language models (VLMs). This thesis addresses the critical“semantic gap”between a machine's unstructured pixel-level view and the rich, hierarchical understanding humans possess, a challenge that limits progress in automated GUI tasks. This research posits that the primary limitation is not the reasoning capability of modern models, but their perceptual ability to accurately ground language in visual space. To bridge this gap, this thesis presents deki, a multimodal system designed to analyze UI screenshots and produce rich, structured descriptions of their constituent elements. The deki pipeline employs a custom-trained YOLOv8 object detection model to precisely localize UI elements such as views, images, and text. These localized regions then undergo a multi-stage attribute extraction process, which includes using an Enhanced Deep Super-Resolution (EDSR) model to improve text legibility, followed by Optical Character Recognition (OCR) and spell-checking to ensure high-fidelity data extraction. The final output is a comprehensive JSON file containing element classes, precise bounding box coordinates, corrected text, and visual attributes, which is combined with a Set-of-Mark (SoM) annotated screenshot to augment a downstream LLM, a strategy that provides both symbolic and explicit visual grounding. The effectiveness of deki is evaluated across two key domains. In image-to-code generation, augmenting a VLM with deki's output resulted in UI code with higher visual fidelity, as measured by the Structural Similarity Index (SSIM). The most significant impact was observed in GUI automation. On the single-step Android Control benchmark, a deki-augmented agent achieved an action accuracy of 70.7%, a +18.3% improvement over the baseline VLM. On the more complex, multi-step Android World benchmark, the agent achieved a 66.6% success rate, outperforming state-of-the-art vision-only agents. These results underscore the critical role of precise spatial grounding for reliable human-computer interaction, particularly for unforgiving interactive tasks. The findings suggest that augmenting generalist models with specialized perception modules like deki is a powerful and effective architectural pattern. This research has broad implications for automated software engineering, next-generation accessibility tools, and the advancement of HCI towards seamless, language-driven interaction with any graphical interface.

Benzer Tezler

  1. Exploring the capabilities of large language models in visual question answering: A new approach using question-driven image captions as prompts

    Büyük dil modellerinin görsel soru yanıtlama yeteneklerinin keşfedilmesi: Soru odaklı görüntü altyazılarını istem olarak kullanan yeni bir yaklaşım

    ÖVGÜ ÖZDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Modelleme ve Simülasyon Ana Bilim Dalı

    DOÇ. DR. ERDEM AKAGÜNDÜZ

  2. Robust quality metrics for assessing multimodal data

    Çok kipli veri değerlendirme için dayanıklı nitelik ölçütleri

    BARIŞ KONUK

    Doktora

    İngilizce

    İngilizce

    2015

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖZDE AKAR

  3. Akıllı kent yönetiminde ulaşım hizmetlerine yönelik konumsal karar destek araçlarının geliştirilmesi: İstanbul örneği

    Developing spatial decision support tools regarding transportation services in smart city management: Istanbul case

    DENİZ SAĞLAM

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DOÇ. DR. ARİF ÇAĞDAŞ AYDINOĞLU

  4. Turkish children's picturebooks of 1960s: A multimodal analysis

    1960'ların Türk resimli çocuk kitaplarının multimodal analizi

    ASLI KURİŞ

    Doktora

    İngilizce

    İngilizce

    2024

    Güzel SanatlarBahçeşehir Üniversitesi

    Sinema ve Medya Araştırmaları Bilim Dalı

    PROF. DR. NAZLI EDA NOYAN CELAYİR

  5. Total diz protezinde ultrason eşliğinde yapılan fasiya iliyaka kompartman bloğu ile femoral sinir bloğunun postoperatif analjezi ve derlenme kalitesi üzerine etkinliklerinin karşılaştırılması

    The comparison of the effects of fascia iliaca compartment block and femoral nerve block performing under ultrasound imaging in total knee prothesis on postoperative analgesia and recovery quality

    HASAN KANADLI

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2015

    Anestezi ve ReanimasyonGaziosmanpaşa Üniversitesi

    Anesteziyoloji ve Reanimasyon Ana Bilim Dalı

    YRD. DOÇ. DR. SERKAN DOĞRU