Geri Dön

Statistical comparison of classifiers using receiver operating characteristics information

Sınıflandırıcıların roc bilgisi kullanarak istatistiksel karşılaştırılması

  1. Tez No: 246260
  2. Yazar: ÖZLEM ASLAN
  3. Danışmanlar: PROF. ETHEM ALPAYDIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 95

Özet

Literatürdeki istatistiksel testler genelde hata oranını kullanırlar ve yanlış pozitifand yanlış negatiflerin maliyetlerinin aynı oldugunu varsayarlar. ROC eğrileri ve/veyaROC Eğrilerinin Altındaki Alan (AUC), çeşitli maliyet değerlerine göre sınıflandırıcılarınperformanslarını karşılaştırmak için kullanılabilir. Bir ROC eğrisi ve bir ROC eğrisininaltındaki alan genellikle bir öğrenme/sınama çiftinden hesaplanır ve verideki rastsallığınortalamasını almak için ve dağılım oturtabileceğimiz ve üzerinde hipotez testi yapabileceğimiz bir ROC eğrileri kümesi ve AUC değerleri oluşturmayı öneriyoruz. 15veri kümesi üzerinde 5 farklı sınıflandırma algoritması kullanılarak bulduğumuz deneyselsonuçlar gösteriyor ki bizim önerdiğimiz AUC testi hata oranını kullanan eşli ttestine göre daha üstündür¸cünkü AUC testi hata testinin fark edemeyeceği eşitlikve farklılıkları fark edebiliyor. ROC eğrileri için kullandığımız yaklaşım, Doğruluk-Anımsama eğrilerinin altında kalan alana k-kat¸capraz-geçerleme uygulayarak da kullanılabilir.Birden çok sınıflandırıcıyı bir veri kümesi veya birden çok veri kümesi üzerindekarşılaştırımak için Varyans Analizi (ANOVA) kullanabiliriz. Birden çok performansmetriği üzerinden karşılaştırma yapmak için, çok değişkenli ANOVA, MANOVA, kullanırız.ANOVA'nın performans metrikleri hata veya AUC olabilir. MANOVA'nınperformans metrikleri doğru pozitif, yanlış pozitif, doğru negatif ve yanlış negatifdeğerleridir. ANOVA'nın parametrik olmayan versiyonu olan Friedman testini deyapıyoruz. Çoklu sınıflandırıcıları çoklu veri kümeleri üzerinden karşılaştırırken İşarettesti uyguluyoruz. Birden çok performans metriği kullanmanın onların korelasyonlarınıiçerdiğini ve bu yüzden daha güvenilir sonuçlar ürettiğini gözlemliyoruz.

Özet (Çeviri)

Statistical tests in the literature mainly use error rate for comparison and assumeequal loss for false positives and negatives. Receiver Operating Characteristics (ROC)curves and/or the Area Under the ROC Curve (AUC) can also be used for comparingclassifier performances under a spectrum of loss values. A ROC curve and hence anAUC value is typically calculated from one training/test pair and to average overrandomness in folds, we propose to use k-fold cross-validation to generate a set ofROC curves and AUC values to which we can fit a distribution and test hypotheseson. Experiment results on 15 datasets using 5 different classification algorithms showthat our proposed test using AUC values is to be preferred over the usual paired t teston error rate because it can detect equivalences and differences which the error testcannot.The approach we use for ROC curves can also be applied to Precision-Recallcurves, used mostly in information retrieval by applying k-fold cross-validated test onthe area under the Precision-Recall curve.When multiple classifiers are to be compared over one dataset or multiple datasets,we can use Analysis of Variance (ANOVA). When we use more than one performancemetric, we use the multivariate ANOVA, that is, MANOVA. Performance metrics ofANOVA is error or AUC. Performance metrics of MANOVA are true positive, falsepositive, true negative and false negative rates. We also perform the nonparametricversion of ANOVA which is called Friedman test. We apply Sign test when we comparemultiple classifiers over multiple datasets. We observe that using more than one per-formance metric includes their correlation in the statistical test and therefore producesmore accurate results.

Benzer Tezler

  1. Neuro classifiers for condition and bearing health assessment of an electric motor

    Elektrik makinasında durum ve rulman sağlığı değerlendirmesi için nöro sınıflandırıcılar

    MINA GHORBAN ZADEH BADELI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DUYGU BAYRAM KARA

  2. Arazi örtüsü/arazi kullanımı simülasyonlarında konumsal doğrulama

    Locational validation of land cover/land use simulation

    AHMET EROĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. HANDE DEMİREL

  3. Meme kanserinin ftır ve kemometri tekniği kullanımı ile erken teşhisi

    Early diagnosis of breast cancer using ftir and chemometry technique

    HİDAYET BENGİSU GEDİKLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Kimya Mühendisliğiİstanbul Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAMAZAN KIZIL

  4. Bilgi sistemlerinde bilgi akışı modellemesi

    Başlık çevirisi yok

    DUYGU DERİNÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET FAHRİ ÖZOK

  5. İmalat sistemlerinin tasarlanması ve öncelik kurallarının belirlenmesinde yapay sinir ağlarının kullanılması

    Başlık çevirisi yok

    TARIK ÇAKAR

    Doktora

    Türkçe

    Türkçe

    1997

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. AYHAN TORAMAN