LLM-assisted onboarding via retrieval-augmented interactive computational notebooks

Büyük dil modelleri ile desteklenen etkileşimli hesaplama defterlerinde projeye uyum süreci

PDF İndir

Tez No: 967818
Yazar: BERKE ODACI
Danışmanlar: PROF. DR. SELİM SAFFET BALCISOY
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 58

Özet

Büyük dil modelleri (LLM'ler), son yıllarda programlama süreçlerini anlamada ve işlevsel kod üretmede önemli ilerlemeler kaydetmiştir. Kod üretimi ve tamamlama gibi görevlerde yaygın olarak kullanılan bu modeller, çoğu zaman yeterli açıklama veya bağlamsal bilgi sunma konusunda yetersiz kalmaktadır. Oysa mevcut projelerle etkili bir şekilde çalışabilmek için hem geliştiriciler hem de konu uzmanları açısından bu tür açıklayıcı destek büyük önem taşımaktadır. Bu ihtiyaç özellikle, veri görselleştirme ve analiz süreçlerinin yoğun olarak yürütüldüğü Görsel Analiz alanında kendini göstermektedir. Bu alanda, interaktif hesaplama defterleri (örneğin Jupyter Notebook) genellikle karmaşık görselleştirmeler, veri dönüşümleri ve makine öğrenmesi modellerinin prototiplenmesi için kullanılmaktadır. Söz konusu defterler yalnızca geliştiriciler değil; aynı zamanda çıktılarla doğrudan etkileşime giren, sonuçları yorumlayan veya değişiklik talep eden ekonomi uzmanları, veri analistleri ya da araştırmacılar gibi alan uzmanları tarafından da kullanılmaktadır. Yetersiz dokümantasyon ve örtük mantık nedeniyle, bu tür defterlere adapte olmak her iki grup için de zaman alıcı ve hata yapmaya açık olabilir. Bu çalışmada, projeye uyum sürecini kolaylaştırmak amacıyla, LLM'lerden yararlanarak interaktif hesaplama defterlerini analiz eden, açıklayan ve düzenleyebilen bir araç sunuyoruz. Sistem, defteri yönlü bir hücre grafiğine ayırmakta, her hücre için doğal dilde açıklamalar üretmekte ve bu içerikleri vektör tabanlı bir bilgi tabanında saklamaktadır. Kullanıcılar, web tabanlı bir arayüz üzerinden doğal dilde sorular sorabilir, belirli hücreleri seçerek odaklı açıklamalar alabilir ve kod üzerinde değişiklik talebinde bulunabilir; ayrıca yapılan değişiklikler gerekirse geri alınabilir. Sistemi, yazılım geliştiriciler ve alan uzmanlarıyla gerçekleştirdiğimiz karma yöntemli bir değerlendirme ile test ettik. Görev tabanlı etkileşimler ve ardından yapılan anketler aracılığıyla elde edilen sonuçlar, aracın kullanıcıların defteri anlamasını kolaylaştırdığını, projeye devam etme konusundaki güvenlerini artırdığını ve gelecekte yeniden kullanılmak isteneceğini ortaya koymuştur. Bu çalışma, LLM'lerin kod ve yorum arasında köprü kurarak daha etkili işbirliği ve bilgi aktarımı sağlama potansiyelini ortaya koymaktadır.

Özet (Çeviri)

Recent advancements in large language models (LLMs) have significantly improved their ability to understand programming workflows and generate functional code. While these models are widely used for code-related tasks such as generation and completion, they often fall short in providing sufficient explanation or contextual understanding, both of which are essential for effectively working with existing projects. This challenge is particularly evident in Visual Analytics workflows, where interactive computational notebooks (e.g., Jupyter Notebooks) are commonly used to prototype and document complex visualizations, data transformations, and machine learning pipelines. These notebooks are accessed not only by developers but also by domain experts such as economists, analysts, or researchers who interact with the outputs, interpret the findings, or request changes. For both groups, onboarding into an unfamiliar project can be time-consuming and error-prone due to missing documentation, implicit logic, and the complexity of the code-output relationship. To address this, we present a tool that supports the onboarding process by leveraging LLMs to analyze, explain, and edit interactive computational notebooks. The system parses the notebook into a directed graph of cells, generates natural language explanations for each cell, and stores them in a retrieval-augmented vector store. Users interact with the notebook through a web-based interface, where they can ask natural language questions, select specific cells for focused explanations, and even request code modifications, all with the ability to revert changes if needed. We evaluate the tool with both software developers and domain experts through a mixed-method study, including task-based interactions and post-task surveys. Results show that the tool improves users' understanding of unfamiliar notebooks, increases their confidence in continuing the project, and is highly valued as a future onboarding aid. The tool demonstrates the potential of LLMs to bridge the gap between code and interpretation in data-driven environments, supporting more efficient collaboration and knowledge transfer across roles.

Benzer Tezler

Tez No
951502
Contract-based automated testing framework for event-driven microservices utilizing large language models
Büyük dil modellerini kullanan olay odaklı mikroservisler için sözleşme tabanlı otomatik test çerçevesi
BURAK TUTUMLU
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İzmir Yüksek Teknoloji Enstitüsü
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUĞKAN TUĞLULAR
Tez No
680202
Kronik inmeli bireylerde üst ekstremiteye yönelik teknoloji destekli performans değerlendirme yöntemi ile klinik değerlendirme yöntemlerinin karşılaştırılması
Comparison of technology assisted performance evaluation method and clinical evaluation methods for upper extremity in chronic stroke patients
GİZEM MURAT
Yüksek Lisans
Türkçe
2021
Fizyoterapi ve Rehabilitasyon Hacettepe Üniversitesi
Nörolojik Fizyoterapi Ve Rehabilitasyon Ana Bilim Dalı
DOÇ. DR. MUHAMMED KILINÇ
Tez No
967832
Mitigating vulnerability leakage from llms for secure code analysis
Güvenli kod analizi için büyük dil modellerinden kaynaklanan zafiyet sızıntısının azaltılması
BENGÜ GÜLAY
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. CEMAL YILMAZ
Tez No
949511
Yeni nesil oyun arkadaşı: yapay zeka destekli, etkileşimli çocuk oyun ve eğitim teknolojileri üzerine bir görsel tasarım önerisi
New generation game companion: A visual design proposal on artificial intelligence supported, interactive children's game and educational technologies
ÇİĞDEM KOÇ
Yüksek Lisans
Türkçe
2025
Güzel Sanatlar Çanakkale Onsekiz Mart Üniversitesi
Grafik Tasarımı Ana Sanat Dalı
DOÇ. DR. OĞUZ TUNÇ
Tez No
912067
Sağlık verileri üzerinde büyük dil modellerinin ince ayar performansı
Fine tuning performance of large language models on health data
MUHAMMED KAYRA BULUT
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ

Geri Dön