Geri Dön

A mutation-based approach to alleviate the class imbalance problem in software defect prediction

Yazılım hata tahmininde sınıf dengesizlik problemini azaltmak için mutasyon tabanlı bir yaklaşım

  1. Tez No: 813137
  2. Yazar: DİNÇER GÜNER
  3. Danışmanlar: PROF. DR. ONUR DEMİRÖRS, DR. GÖRKEM GİRAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İzmir Yüksek Teknoloji Enstitüsü
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 129

Özet

Yüksek düzeyde dengesiz eğitim veri kümeleri, yazılım hatası tahmin edicilerinin performansını önemli ölçüde düşürür. Yazılım Hata Tahmini (SDP) veri kümelerinde genel olarak bulunan problem sınıf dengesizliğidir. Bu nedenle, Sınıf Dengesizliği Probleminin (CIP) getirdiği zorluğu hafifletmek için çeşitli yöntemler geliştirilmiştir. Bununla birlikte, veri örnekleme gibi klasik yöntemler, veri kümelerini SDP ile bir bağlantı kurmadan dengeler. Aşırı örnekleme teknikleri, az sayıda küçük sınıf örneğini genelleştiren ve daha az çeşitli örneklerle sonuçlanan sentetik küçük sınıf örnekleri üretirken, yetersiz örnekleme teknikleri, önemli bilgi kaybına neden olan büyük sınıf örneklerini ortadan kaldırır. Bu çalışmada, yazılım depolarını dengelemek için yazılım mutasyonlarını kullanan bir yaklaşım sunduk. Mutasyon Tabanlı Yaklaşım (MBA), mutantları hatasız örneklere enjekte ederek hatalı örneklere dönüşmelerine neden olur. Bu şekilde MBA, veri kümelerini mutasyon operatörleri tarafından üretilen çeşitli verilerle dengeler ve düşük örneklemede olduğu gibi örneklerde kayıp olmaz. Duyarlılık (recall) puanlarına göre, Çapraz Versiyon Hata Tahmini (IRDP) senaryosu için hemen hemen tüm yeniden dengeleme yöntemleri Baseline'dan daha iyi bir performans gösterirken yalnızca MBA, Çapraz Proje Hata Tahmini (CPDP) senaryosunda Baseline'dan daha iyi bir performans gösterdi. Duyarlılık puanlarındaki performans artışı daha fazla yanlış alarm üretilmesiyle sonuçlandı. AUC puanlarına göre MBA'nın Baseline'den ve beş aşırı örnekleme yönteminden daha iyi performans gösterdiğini genelleyemeyiz. Duyarlılık değerleri açısından; MBA, IRDP senaryosunda CPDP senaryosundan daha iyi performans gösterdi. Hem CPDP senaryosunda hem de IRDP senaryosunda, SMC (yazılım ölçülerindeki değişim yüzdesi) ile duyarlılık, ve SMC ile yanlış alarm aralarında anlamlı ve pozitif bir korelasyon mevcuttur ama SMC ile AUC arasında anlamlı ve pozitif bir korelasyon mevcut değildir.

Özet (Çeviri)

Highly imbalanced training datasets considerably degrade the performance of software defect predictors. Software Defect Prediction (SDP) datasets have a general problem, which is class imbalance. Therefore, a variety of methods have been developed to alleviate Class Imbalance Problem (CIP). However, these classical methods, like data-sampling, balance datasets without connecting any relation with SDP. Over-sampling techniques generate synthetic minor class instances, which generalize a small number of minor class instances and result in less diverse instances, whereas under-sampling techniques eliminate major class instances, resulting in significant information loss. In this study, we present an approach that uses software mutations to balance software repositories. Mutation-based Approach (MBA) injects mutants into defect-free instances, causing them to transform into defective instances. In this way, MBA balances datasets with diverse data produced by mutation operators, and there is no loss on instances as in under-sampling. For recall scores, almost all rebalancing methods outperformed Baseline in Inter-release Defect Prediction (IRDP) scenario but only MBA significantly outperformed Baseline in Cross-project Defect Prediction (CPDP) scenario. The performance increase in recall resulted in the production of more false alarms. We can not generalize that MBA outperforms Baseline and the five over-sampling strategies in terms of AUC scores. In terms of recall values, the MBA performed better in CPDP than IRDP. For both IRDP and CPDP scenarios, there were significant and positive correlations between SMC (the change percentage of software measures) and recall, and SMC and false alarm but there was no significant correlation between SMC and AUC.

Benzer Tezler

  1. A system based approach to understand human disorders using saccharomyces cerevisiae as a model organism

    Hastalıkların mayada sistem bazlı bir yaklaşım ile incelenmesi

    AYÇA CANKORUR ÇETİNKAYA

    Doktora

    İngilizce

    İngilizce

    2013

    BiyomühendislikBoğaziçi Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. BETÜL KIRDAR

  2. Exploiting model morphology for event-based testing

    Başlık çevirisi yok

    MUTLU BEYAZIT

    Doktora

    İngilizce

    İngilizce

    2014

    Elektrik ve Elektronik MühendisliğiUniversität Paderborn

    PROF. DR. FEVZİ BELLİ

    PROF. DR. REINER DUMKE

  3. A study on metaheuristic algorithms for solving sudoku puzzles

    Metasezgisel algoritmalar ile sudoku bulmacalarını çözmek üzerine bir çalışma

    KHORSHİD HAMZA

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AİŞE ZÜLAL ŞEVKLİ

  4. Developing a label propagation approach for cancer subtype identification problem

    Kanser alt tipi tanımlama problemi için bir etiket yayma yaklaşımı geliştirme

    PINAR GÜNER

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAbdullah Gül Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU GÜNGÖR

    DR. ÖĞR. ÜYESİ MUSTAFA COŞKUN

  5. A comprehensive study of K-Ras protein and its oncogenic mutations: A dynamic point of view

    K-Ras proteini ve onkojenik mutasyonları üzerine kapsamlı bir çalışma: Dinamik bir bakış açısı

    SEZEN VATANSEVER

    Doktora

    İngilizce

    İngilizce

    2017

    BiyofizikKoç Üniversitesi

    Biyomedikal Bilimler ve Mühendislik Ana Bilim Dalı

    PROF. DR. BURAK ERMAN