Geri Dön

Veri madenciliğine genel bakış ve Random Forests yönteminin incelenmesi: Sağlık alanında bir uygulama

An overview of data mining techniques and analysis of Random Forests method: An application on medical field

  1. Tez No: 247693
  2. Yazar: MUHAMMET AKMAN
  3. Danışmanlar: DR. YASEMİN GENÇ, HANDAN ANKARALI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoistatistik, Computer Engineering and Computer Science and Control, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2010
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Karar vericilere, eldeki verilerden yola çıkarak doğru ve etkin kararlar almasına yardımcı olmak amacıyla veri madenciği yapılmaktadır. Veri madenciliği, genel olarak tanımlayıcı ve tahmin edici olmak üzere iki ana başlıkta incelenmektedir. Özellikle tıp alanında veri madenciliği daha çok tahmin edici yönüyle kullanılmaktadır.Bu tez çalışmasında öncelikle veri madenciliği yöntemleri genel olarak tanıtılmış, veri madenciliğinde önemli yer tutan ve sınıflama modellerinden olan karar ağaçları anlatılmıştır. Ayrıca ağaç tabanlı yöntemlerden olan Random Forests (RF) yöntemi incelenmiş ve periodontoloji bilim dalından elde edilen bir veri seti üzerinde uygulaması yapılmıştır.RF yönteminde, karar ormanını oluşturan karar ağaçları orijinal veri setinden bootstrap yöntemiyle seçilen farklı örneklerden oluşturulmaktadır. Her karar ağacında veri setindeki tüm değişkenlerden rastgele seçilen az sayıda değişken kullanılmaktadır. Her ağaç bir sınıf için oy vermektedir ve orman sınıflayıcısı bütün ağaçların verdiği oyları toplayarak bir sınıf için son tahminini yapmaktadır. Bu özelliği sebebiyle RF yöntemi oldukça başarılı sonuçlar vermektedir.RF yöntemiyle % 95,4 oranında başarılı bir sınıflama yapılmıştır. Oluşturulan karar ormanının hata oranı ise % 3,33 olarak bulunmuştur. Aynı veri seti için Bagging ve CART yöntemi ile de sınıflama yapılmıştır. Bagging yöntemi ile hata oranı % 5,4 , CART yöntemi ile % 8,75 olarak bulunmuştur.RF yöntemi ile, veri setindeki değişken sayısı ve örnek sayısı ne kadar çok olursa olsun genellikle hata oranı düşük sınıflamalar yapılmaktadır. Hata oranının düşüklüğü ise bir topluluk yöntemi olmasından kaynaklanmaktadır. Özelikle çok sayıda değişkenin olduğu DNA veri seti gibi binlerce gen arasından önemli olanları tespit etmek için kullanılabilir.

Özet (Çeviri)

Data Mining is processed in order to help policy makers for giving valid and efficient decisions using the available data on the subject. In general, data mining has descriptive and predictive perspectives. In medicine, especially its predictive aspects are used.Within this thesis study, data mining techniques are introduced briefly. Further, decision trees, part of classification models, which has an important place in data mining are explained. Also, tree-based data mining method Random Forests (RF) is analyzed and applied on periodontology data set.In RF method, decision trees which form decision forest are created with different data sets. These data sets are bootstrapped samples from original data set. Also each decision tree is created with less randomly selected parameters from all of the predictors. Each decision tree votes for one class and forest aggregates votes from all trees, and makes final decision for the class. Using these properties RF gives fairly good results.Using RF method, 95,4 % of successful classification rate is achieved. Decision Forest?s error rate was found 3,33 % . Classification was made by Bagging method and CART method for the same data set and the error rates were found 5,4 % and 8,75 % respectively.Using RF method, even there exists many predictors and large amount of data, generally lower error rate of classification is achieved. As RF is an ensemble method it gives better results. It can be used for determining important ones from large amount of DNA data set which has thousands of predictors(genes)

Benzer Tezler

  1. Açık öğretim liseleri öğrencilerinin okul terki ve mezuniyet durumlarının eğitsel veri madenciliği ile incelenmesi

    Examining dropout and graduation status of open high school students using educational data mining

    AHMET POLAT

    Doktora

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimSakarya Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    PROF. DR. MEHMET BARIŞ HORZUM

  2. İlk yıl öğrencilerinin akademik performansına etki eden faktörlerin araştırılması ve bu faktörlere bağlı olarak başarılarının tahminine yönelik bir karar destek sistemi tasarımı

    A research on the factors effecting freshmen students performance and a decision support system design for predicting their academic achievement based on those factors

    TUĞRUL CABİR HAKYEMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Eğitim ve ÖğretimSakarya Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. ERMAN COŞKUN

  3. Resolving energy consumption issues and spectrum allocation for future broadband networks

    Başlık çevirisi yok

    SINAN NAJAMALDEEN AZZAH AZZAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMAD ILYAS

  4. Diagnosis of diseases through genes by using machine learning

    Başlık çevirisi yok

    ISRAA JIHAD ABED ABED

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilim ve TeknolojiAltınbaş Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ OGUZ KARAN

  5. A new WAP-Tree based sequential pattern mining algorithm for faster pattern extraction

    Hızlı örüntü çıkarımı için WAP-Ağacı tabanlı yeni bir dizisel örüntü madenciliği algoritması

    ÖNAL KEZBAN DİLEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PINAR ŞENKUL