Geri Dön

LLM-assisted onboarding via retrieval-augmented interactive computational notebooks

Büyük dil modelleri ile desteklenen etkileşimli hesaplama defterlerinde projeye uyum süreci

  1. Tez No: 967818
  2. Yazar: BERKE ODACI
  3. Danışmanlar: PROF. DR. SELİM SAFFET BALCISOY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 58

Özet

Büyük dil modelleri (LLM'ler), son yıllarda programlama süreçlerini anlamada ve işlevsel kod üretmede önemli ilerlemeler kaydetmiştir. Kod üretimi ve tamamlama gibi görevlerde yaygın olarak kullanılan bu modeller, çoğu zaman yeterli açıklama veya bağlamsal bilgi sunma konusunda yetersiz kalmaktadır. Oysa mevcut projelerle etkili bir şekilde çalışabilmek için hem geliştiriciler hem de konu uzmanları açısından bu tür açıklayıcı destek büyük önem taşımaktadır. Bu ihtiyaç özellikle, veri görselleştirme ve analiz süreçlerinin yoğun olarak yürütüldüğü Görsel Analiz alanında kendini göstermektedir. Bu alanda, interaktif hesaplama defterleri (örneğin Jupyter Notebook) genellikle karmaşık görselleştirmeler, veri dönüşümleri ve makine öğrenmesi modellerinin prototiplenmesi için kullanılmaktadır. Söz konusu defterler yalnızca geliştiriciler değil; aynı zamanda çıktılarla doğrudan etkileşime giren, sonuçları yorumlayan veya değişiklik talep eden ekonomi uzmanları, veri analistleri ya da araştırmacılar gibi alan uzmanları tarafından da kullanılmaktadır. Yetersiz dokümantasyon ve örtük mantık nedeniyle, bu tür defterlere adapte olmak her iki grup için de zaman alıcı ve hata yapmaya açık olabilir. Bu çalışmada, projeye uyum sürecini kolaylaştırmak amacıyla, LLM'lerden yararlanarak interaktif hesaplama defterlerini analiz eden, açıklayan ve düzenleyebilen bir araç sunuyoruz. Sistem, defteri yönlü bir hücre grafiğine ayırmakta, her hücre için doğal dilde açıklamalar üretmekte ve bu içerikleri vektör tabanlı bir bilgi tabanında saklamaktadır. Kullanıcılar, web tabanlı bir arayüz üzerinden doğal dilde sorular sorabilir, belirli hücreleri seçerek odaklı açıklamalar alabilir ve kod üzerinde değişiklik talebinde bulunabilir; ayrıca yapılan değişiklikler gerekirse geri alınabilir. Sistemi, yazılım geliştiriciler ve alan uzmanlarıyla gerçekleştirdiğimiz karma yöntemli bir değerlendirme ile test ettik. Görev tabanlı etkileşimler ve ardından yapılan anketler aracılığıyla elde edilen sonuçlar, aracın kullanıcıların defteri anlamasını kolaylaştırdığını, projeye devam etme konusundaki güvenlerini artırdığını ve gelecekte yeniden kullanılmak isteneceğini ortaya koymuştur. Bu çalışma, LLM'lerin kod ve yorum arasında köprü kurarak daha etkili işbirliği ve bilgi aktarımı sağlama potansiyelini ortaya koymaktadır.

Özet (Çeviri)

Recent advancements in large language models (LLMs) have significantly improved their ability to understand programming workflows and generate functional code. While these models are widely used for code-related tasks such as generation and completion, they often fall short in providing sufficient explanation or contextual understanding, both of which are essential for effectively working with existing projects. This challenge is particularly evident in Visual Analytics workflows, where interactive computational notebooks (e.g., Jupyter Notebooks) are commonly used to prototype and document complex visualizations, data transformations, and machine learning pipelines. These notebooks are accessed not only by developers but also by domain experts such as economists, analysts, or researchers who interact with the outputs, interpret the findings, or request changes. For both groups, onboarding into an unfamiliar project can be time-consuming and error-prone due to missing documentation, implicit logic, and the complexity of the code-output relationship. To address this, we present a tool that supports the onboarding process by leveraging LLMs to analyze, explain, and edit interactive computational notebooks. The system parses the notebook into a directed graph of cells, generates natural language explanations for each cell, and stores them in a retrieval-augmented vector store. Users interact with the notebook through a web-based interface, where they can ask natural language questions, select specific cells for focused explanations, and even request code modifications, all with the ability to revert changes if needed. We evaluate the tool with both software developers and domain experts through a mixed-method study, including task-based interactions and post-task surveys. Results show that the tool improves users' understanding of unfamiliar notebooks, increases their confidence in continuing the project, and is highly valued as a future onboarding aid. The tool demonstrates the potential of LLMs to bridge the gap between code and interpretation in data-driven environments, supporting more efficient collaboration and knowledge transfer across roles.

Benzer Tezler

  1. Contract-based automated testing framework for event-driven microservices utilizing large language models

    Büyük dil modellerini kullanan olay odaklı mikroservisler için sözleşme tabanlı otomatik test çerçevesi

    BURAK TUTUMLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUĞKAN TUĞLULAR

  2. Kronik inmeli bireylerde üst ekstremiteye yönelik teknoloji destekli performans değerlendirme yöntemi ile klinik değerlendirme yöntemlerinin karşılaştırılması

    Comparison of technology assisted performance evaluation method and clinical evaluation methods for upper extremity in chronic stroke patients

    GİZEM MURAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Fizyoterapi ve RehabilitasyonHacettepe Üniversitesi

    Nörolojik Fizyoterapi Ve Rehabilitasyon Ana Bilim Dalı

    DOÇ. DR. MUHAMMED KILINÇ

  3. Mitigating vulnerability leakage from llms for secure code analysis

    Güvenli kod analizi için büyük dil modellerinden kaynaklanan zafiyet sızıntısının azaltılması

    BENGÜ GÜLAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. CEMAL YILMAZ

  4. Yeni nesil oyun arkadaşı: yapay zeka destekli, etkileşimli çocuk oyun ve eğitim teknolojileri üzerine bir görsel tasarım önerisi

    New generation game companion: A visual design proposal on artificial intelligence supported, interactive children's game and educational technologies

    ÇİĞDEM KOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Güzel SanatlarÇanakkale Onsekiz Mart Üniversitesi

    Grafik Tasarımı Ana Sanat Dalı

    DOÇ. DR. OĞUZ TUNÇ

  5. Sağlık verileri üzerinde büyük dil modellerinin ince ayar performansı

    Fine tuning performance of large language models on health data

    MUHAMMED KAYRA BULUT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ