Tekrar eden veri analizini kullanarak yazılım geliştirme için iyileştirilmiş hata tahmini

A new improved defect prediction framework for software development using repeated data analysis

PDF İndir

Tez No: 427920
Yazar: MUHAMMED MARUF ÖZTÜRK
Danışmanlar: DOÇ. DR. AHMET ZENGİN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Hata tahmini, yazılım metrikleri, yazılım kalitesi, makine öğrenmesi, Defect prediction, Software Metrics, Software Quality, Machine Learning
Yıl: 2016
Dil: Türkçe
Üniversite: Sakarya Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 151

Özet

Yazılım hata tahmini, yoğun çaba gerektiren ve yazılım geliştirme maliyetlerini azaltmaya odaklanmış metotların geliştirildiği işlemleri içerir. Veri analizleri için istatistiksel ve makine öğrenmesi metotlarının sıklıkla kullanıldığı bu işlemler hata veri setlerindeki bozukluk veya eksikliklerden kaynaklanan yanlış sonuçları üretebilmektedir. Bunlara ek olarak sınıf dengesizliği (class imbalance) olarak adlandırılan hatalı verilerin sistemin belirli bölgelerinde yoğunlaşmasından kaynaklanan sorunlar da ortaya çıkmaktadır. Tahmin edici modellerin doğruluklarını arttırabilmek için hata veri setlerinin bir ön işlemeden geçmesi gereklidir. Ancak bu şekilde güvenilir veriler üzerinde çalışılabilir. SMOTE, rastgele örnekleme gibi yöntemlerle hata veri setleri üzerinde işlem yapılmaktadır. Bununla beraber hata veri setlerine yönelik özel bir örnekleme tekniği bulunmamaktadır. Tezin amacı büyük veri setlerinde hızlı çalışabilen ve tekrar eden verileri yüksek doğrulukla tespit edebilen bir ön-işleme algoritması geliştirmektir. Algoritma, metrik türetimi ile ilgili işlemleri kapsar. Bir diğer amaç ise algoritmanın makine öğrenmesi alanında kullanılabilecek hata veri setlerine yönelik özel bir yöntem geliştirmektir. Deney sonuçlarında gözlenen kesinlik değerleri literartüdeki diğer ön-işleme yöntemlerinden üstün olduğu takdirde makine öğrenmesi ikili sınıflandırma veri setlerinde de kullanılabilir. Hata kesinliği yöntemle birlikte arttığı için yazılım geliştirme maliyetlerinin azaltılmasına katkı sağlamaktadır. Veri madenciliği verilerinin temizlenmesi için geliştirilecek yöntemlere algoritmanın yön vermesi beklenmektedir. Yöntem, ANOVA, t-test, ki-kare gibi istatistik tabanlı metotlar kullanarak ikili sınıflandırma verilerinde tekrar eden verilerin ortadan kaldırılmasını sağlayan bir veri temizleme algoritmasını kapsar. Buna ek olarak düşük seviyeli metrik türetiminin öğrenme algoritmalarının başarısına etkisi gözlemlenmiştir. Kullanılan makine öğrenmesi yöntemleri ve istatistiksel işlemler ile önerilen ön-işleme algoritmasını da içeren bir yazılım çerçevesi C# programlama dili kullanılarak geliştirilmiştir. Bu çerçeve çeşitli formattaki hata veri setleri üzerinde ikili sınıflandırma performans analizlerini ve temel istatistiksel işlemleri de yapabilmektedir. Önerilen yöntem 15 endüstriyel ve 5 açık kaynak olmak üzere toplamda 20 adet yazılım proje veri seti üzerinde denenmiş eğrinin altında kalan alan (auc) ve kesinlik (precision) performans parametrelerinde algoritmanın etkisi dört farklı sınılandırıcı kullanılarak ölçülmüştür. Geliştirilen algoritma hata veri setlerinde tekrar eden veri setlerinin elenmesine yönelik geliştirilen ilk algoritmadır.

Özet (Çeviri)

Defect prediction includes processes which develop methods that are required intensive effort and focused on reducing software costs. These processes, which use statistical or machine learning based techniques, may produce misleading results caused by skewness or deficiencies in defect data sets. In addition, a particular issue namely class imbalance is that reveals because of the wrong distribution of defects which are more in a part of the system than the other parts. In order to increase the accuracy of the predictors, defect data sets should be exposed to preprocessing. Merely this way provides a reliable investigation on right data. Some preprocessing methods such as SMOTE and random sampling help practitioners to obtain balanced data. However, there is not any special technique for defect prediction data sets. The aim of this thesis is to develop a preprocessing algorithm which fast and gives high precision along with large-scale data especially in defect prediction data sets. The algorithm comprises the processes which are related to the deriving low level metrics. Another aim is to make this algorithm more suitable for other machine learning data sets. . If experimental results are more suitable than other preprocessing methods in literature, the method could be used in other binary classification data sets. Due to the increase of the precision in results, software development cost decreases remarkably by this way. The method is expected to led new alternate data mining cleansing methods. If proposed method is applied in industry, it helps to reduce the cost of testing process that accounts for roughly 50 percent of development process. The method comprises the cleansing algorithm using statistical methods such as ANOVA, t-test, chi-square in which the removing process is preceeded. Further, the effects of the deriving low level metrics in the success of learning algorithms were observed. A new framework including machine learning methods and statistical techniques is proposed in which developed using C# programming language. This framework is able to employ various data sets having different formats. Besides, proposed framework provides analyzing binary classification data and makes base statistical operation. The method was applied on 20 data sets including five open source and AUC and precision performance parameters. The algorithm, to the best of our knowledge, is first hybrid preprocessing method for defect prediction data sets.

Benzer Tezler

Tez No
856676
Roller bearing fault detection using rotary encoder
Açısal enkoder kullanarak bilyalı rulmanlarda hata tespiti
SAMET YALDIZ
Yüksek Lisans
İngilizce
2024
Makine Mühendisliği İstanbul Teknik Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
PROF. DR. KENAN YÜCE ŞANLITÜRK
Tez No
565069
Predicting software vulnerabilities using topic modeling with issues
Konu modelleme yöntemi ile yazılım güvenlik açıklarını tahmin etme
FATMA GÜL BULUT
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
İletişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE TOSUN
Tez No
846836
Assessment of urbanization history of Addis Ababa city, Ethiopia
Addıs Ababa cıty, Ethıopıa'nın kentleşme tarihinin değerlendirilmesi
ABDURAHMAN HUSSEN YIMER
Yüksek Lisans
İngilizce
2023
Şehircilik ve Bölge Planlama Mersin Üniversitesi
Şehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. ALİ CENAP YOLOĞLU
Tez No
895104
Implementing district-level retrofit strategies by utilizing the building information modelling-based modelling on a case study
Bir vaka analizi üzerinden bilgisayar destekli bina bilgi modellemesi kullanarak bölgesel düzeyde yeniden yapılandırma stratejilerinin uygulanması
HANIYEH KAMANEH AZARI
Yüksek Lisans
İngilizce
2024
Mimarlık İstanbul Teknik Üniversitesi
Enerji Bilim ve Teknoloji Ana Bilim Dalı
Prof. Dr. HATİCE SÖZER
Tez No
950068
Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity
Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini
AMMAR HOMAIDA
Doktora
İngilizce
2025
İstatistik Gazi Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. MERAL EBEGİL

Geri Dön