Leveraging file significance in bus factor estimation
Dosya öneminin otobüs faktörü tahminindeki rolü
- Tez No: 916138
- Danışmanlar: YRD. DOÇ. DR. ERAY TÜZÜN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
Yazılım projeleri, çeşitli nedenlerden dolayı geliştiricilerin ayrılmasıyla karşı karşıya kalır. Yazılım projelerinde geliştiriciler ana bilgi kaynaklarından biri olduğundan, onların yokluğu kaçınılmaz olarak belli bir düzeyde bilgi kaybına yol açmaktadır. Otobüs Faktörü (OF), bu bilgi kaybının projenin sürekliliğini nasıl etkileyebileceğini değerlendiren bir metriktir. Geleneksel olarak, OF, projeden ayrıldıklarında toplam bilginin yarısından fazlasını kaybettiren en küçük geliştirici kümesi olarak hesaplanır. Mevcut en son yaklaşımlar, geliştiricilerin bilgisini sürüm kontrol sistemi bilgilerini kullanarak yazılmış dosya sayısıyla ölçmektedir. Ancak, birçok çalışma yazılım projelerindeki dosyaların farklı öneme sahip olduğunu göstermiştir. Bu çalışmada, dosyaların önemine göre ağırlıklandırılmasının, iki yaygın BF tahmin algoritmasının performansına olan etkisi incelenmiştir. Önem skorları, projenin Bağımlılık Grafiğinden türetilen PageRank, Giriş-/ Çıkış-/Tüm-Derece ve Ara Merkezilik gibi beş iyi bilinen grafik metriği hesaplanarak elde edilmiştir. Ayrıca, yaklaşımın bir prototipi olan BFSig tanıtılmıştır. Son olarak, beş önde gelen GitHub deposundan yazılım uzmanlarıyla yapılan anketlerle toplanan BF skorlarını içeren yeni bir veri kümesi sunulmuştur. Sonuçlarımız, BFSig'un, Normalleştirilmiş Ortalama Mutlak Hata (NMAE) açısından %18'e kadar bir azalma sağlayarak, temel yaklaşımlardan daha iyi performans gösterdiğini göstermektedir. Ayrıca, BFSig, düşük BF ile ilişkili potansiyel riskleri belirlemede %18 daha az Yanlış Negatif üretmektedir. Bunun yanı sıra, BFSig'un esnekliğini projenin alt klasörlerinin BF'sini değerlendirme yeteneği doğrulanmıştır. Sonuç olarak, OF'nu yazarlık temelinde tahmin etmek için, daha yüksek öneme sahip yazılım bileşenlerine daha yüksek ağırlık verilmesi gerektiğine inanıyoruz.
Özet (Çeviri)
Software projects often face developer turnover for various reasons. Since developers are key sources of knowledge in these projects, their absence inevitably leads to some degree of knowledge loss. The Bus Factor (BF) is a metric used to assess the impact of this knowledge loss on a project's continuity. Traditionally, BF is defined as the smallest group of developers whose departure would result in a loss of more than half of the project's knowledge. Current state-of-the-art methods calculate developers' knowledge based on the number of files they have authored, using data from version control systems (VCS). However, numerous studies have highlighted that not all files in software projects hold the same level of significance. In this study, we investigate the impact of weighting files based on their significance on the performance of two widely used BF estimators. Significance scores are calculated using five established graph metrics derived from the project's Dependency Graph: PageRank, In-/Out-/All-Degree, and Betweenness Centralities. Additionally, we introduce BFSig, a prototype implementing our approach. Lastly, we present a new dataset featuring BF scores reported by software practitioners from five prominent GitHub repositories. Our findings show that BFSig surpasses the baseline methods, achieving up to an 18% reduction in Normalized Mean Absolute Error (NMAE). Additionally, BFSig reduces False Negatives by 18% when identifying potential risks linked to low BF. Furthermore, our respondents validated BFSig's versatility, highlighting its capability to evaluate the BF of individual project subfolders. In conclusion, we believe that when estimating BF from authorship, software components of greater significance should be given higher weight.
Benzer Tezler
- Kuzey Ege Kıyı bandının peyzaj mimarlığı bağlamındaki zamansal-mekansal değişimi
Spatio-temporal change of the North Aegean Coastal area in the context of landscape architecture
BİRSEN UZUN AYDIN
Yüksek Lisans
Türkçe
2024
Peyzaj Mimarlığıİstanbul Teknik ÜniversitesiPeyzaj Mimarlığı Ana Bilim Dalı
PROF. DR. FATMA AYÇİM TÜRER BAŞKAYA
- APT kaynaklı ataklara karşı dayanıklı etmen tabanlı ve ontolojik veri sızıntısı önleme sistemi
Agent based and ontological data leakage prevention system against advanced persistent threats
EMRAH KAYA
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM ÖZÇELİK
- Leveraging blockchain for intelligent predictive maintenance frameworks in the industrial internet of things
Endüstriyel nesnelerin internetinde akıllı öngörücü bakım çerçeveleri için blokzincir kullanımı
MONTDHER ALABADI
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ADIB HABBAL
- Flexigpt: Engaging with documents
Flexıgpt: Belgelerle etkileşim
ABDALRHMAN AL-QUAARY
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
PROF. DR. NUMAN ÇELEBİ
- Private search over big data leveraging distributed file system and parallel processing
Büyük veri üzerinde dağıtık dosya sistemi ve paralel işleme kullanarak mahremiyet korumalı arama
AYŞE SELÇUK
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. ERKAY SAVAŞ