Automated priority detection in software bugs: A comprehensive study on transformer-based encoders with contrastive learning, large language models and vector databases for enhanced efficiency
Yazılım hatalarında otomatik öncelik tespiti: Arttırılmış verimlilik için karşılaştırmalı öğrenme, büyük dil modelleri ve vektör veritabanları ile transformatör tabanlı kodlayıcılar üzerine kapsamlı bir çalışma
- Tez No: 851193
- Danışmanlar: PROF. DR. İSMAİL HAKKI TOROSLU, DR. ÖĞR. ÜYESİ ÖMER KÖKSAL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 69
Özet
Yazılım geliştirme süreçleri, emek ve zaman yatırımı gerektiren birçok zorluğu bünyesinde barındırmaktadır. Zamanla bu zorlukların üstesinden gelmek, yazılım geliştirme ve bakım süreçlerini otomatize edebilmek için birçok araç ve teknik geliştirilmiştir. Yazılım hata raporları, kullanıcılar veya geliştiriciler tarafından programların operasyonel hatalarını belgeleyen, genellikle kod parçacıkları ve hata mesajlarını içeren metinsel açıklamalardır. Bu raporlar daha sonra hataları düzeltmek için atanan geliştirici tarafından incelenir. Hata düzeltme süreçlerinin otomatikleştirilmesi, belirli bir hata raporuna atanacak en uygun geliştiricinin belirlenmesini, hata düzeltme süresinin tahmin edilmesini, öncelik düzeyinin tahmin edilmesini vb. içerir. Bu tez, en son teknoloji sınıflandırma tekniklerini kullanarak otomatik yazılım hata raporu öncelik tespitine odaklanmaktadır. Oldukça başarılı olan dönüştürücü tabanlı kodlayıcı sınıflandırıcılar, açık kaynak veri kümeleri kullanılarak ince ayar eğitimi kullanılarak yazılım alanına uyarlanır. Öte yandan Büyük Dil Modelleri (LLM'ler), öncelik sınıfı tahmini için yapılandırılabilen, metin üretimi için özel olarak eğitilmiş, yakın zamanda popüler hale gelen dönüştürücü tabanlı kod çözücü ağlarıdır. LLM çıktısını istenen formatta doğru bir şekilde şekillendirmek için, ağı nihai sınıflandırma görevine ve etki alanına göre koşullandırmak için Bilgi İyileştirmeyle Geliştirilmiş Üretim (RAG) kullanılır. Vektör veritabanları, hata raporlarındaki metin içeriğinin kosinüs benzerliğine göre saklanmasına ve çıkarım sırasında ilgili örneklerin alınmasına yardımcı olur.
Özet (Çeviri)
Software development processes include many challenges that require human effort and time investment. In time, many tools and techniques are developed to address these challenges and automate parts of software development and maintenance. Software bug reports are textual descriptions, often accompanied by code snippets and error logs, written by users or developers documenting operational failures of programs. These reports are later examined by the assigned developer to fix the bug. Automating the bug fixing pipeline helps determine the most suitable developer to assign to a given bug report, predict the bug fix time, estimate a priority level an so on. This thesis focuses on automated software bug report priority detection using state-of-the-art classification techniques. Widely successful transformer-based encoder classifiers are adapted to software domain via fine-tuning using open source datasets. Large Language Models (LLMs), on the other hand, are recently popularized transformer decoder networks specifically trained for text generation, which can be configured for priority class prediction. In order to accurately shape LLM output into desired format, Retrieval Augmented Generation (RAG) is used to condition the network to the downstream task and domain. Vector databases help store textual content in the bug reports according to cosine similarity and retrieve related instances during inference.
Benzer Tezler
- Çevik yazılım test süreçlerinde risk analizi çalışması
Risk analysis study in agile software test processes
IŞILAY PAMUK CANDAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. TÜLAY KORKUSUZ POLAT
- Joint server and route selection in SDN networks
SDN ağlarda ortak yol ve sunucu seçimi
HASAN ANIL AKYILDIZ
Yüksek Lisans
İngilizce
2017
Mühendislik Bilimleriİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN ALİ ÇIRPAN
- Devre bağlaşmalı telefon şebekesi için yönlendirme yazılımı tasarımı
Software design of routing for circuit switched telephone network
TAHİR GÜN
Yüksek Lisans
Türkçe
1992
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiYRD. DOÇ. DR. ÜMİT AYGÖLÜ
- 8031 Mikrodenetleyici konrolünün biyomedikalde uygulamaları EKG aritmi detektörü
Applications of 8031 microcontroller in biomedical engineering-ECG arrhythmia detector
SELİM DİLMAÇ
Yüksek Lisans
Türkçe
1992
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiDOÇ.DR. MEHMET KÖRÜREK
- Kamu sektörü konut projelerinde ihale aşaması planlama sürecine yönelik bir model önerisi
A model proposal for the tender stage planning process in public sector housing projects
HAKAN TIRATACI