Eksik değerleri en olası değer ile doldurmanın sınıflandırma algoritmaları üzerinden karşılaştırılması

Comparison of filling missing values with the best fit over classification algorithms

PDF İndir

Tez No: 459256
Yazar: ÇAĞDAŞ KEKLİK
Danışmanlar: YRD. DOÇ. DR. CENGİZ ÖRENCİK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2017
Dil: Türkçe
Üniversite: Beykent Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 102

Özet

Günümüz bilgi çağında gözümüze çarpan veri madenciliği en temel makine öğrenmesi yöntemlerinden biri olarak dikkat çekmektedir. Gün geçtikçe bilgisayarların devamlı ucuzlama durumu ve güç performansının dur durak bilmeden artışı, bilgisayarlarda çok fazla miktarlarda verinin saklanabilmesine olanak vermektedir. Veri madenciliği, bu büyük hacim ve çeşitlilikteki veriden anlamlı bilgi edinebilmenin hemen hemen tek çözüm yolu şeklinde bakılmaktadır. Bu sebepten ötürü çok miktarda verileri işleyebilen metotları kullanabilmek, hayati olabilecek bir öneme sahiptir. Veri madenciliğinin asıl amacı birçok veri içerisinde saklı durumda mevcut olan örüntü ve eğilimleri bulup çıkartma işlemidir. Çok büyük veri ambarlarının içinde tutulan veriler tek olarak kullanıldıklarında değersiz olarak görülebilseler de, bu veriler toparlanıp bir hedefe odaklı olarak kullanıldığı zaman anlamlı hale dönüşmektedirler. Asıl amaç veriyi uygun bilgiye çevirme işidir ve bu veri madenciliği ile gerçekleştirilmektedir. Veri madenciliğinde esas olan şey kısaca verilerin işlenmesi metodudur. Dünya üzerinde durmaksızın artış gösteren ve inanılmaz boyutlara ulaşan veriyi en yüksek performansı sağlayacak şekilde kullanmanın yolu veri madenciliğinden geçmektedir. Bu olay diğer alanlarda görüldüğü gibi tıp alanında da çok büyük ilgi odağı haline gelmiştir. Veri madenciliği yaparken karşılaşan en temel problemlerden biri üzerinde çalışılan verinin düzenlenmesidir. Verinin bazı satırları eksik değerler içerebilir. Bu değerlerin eksik olması o verinin işleme sokulmasını ve diğer değerler ile karşılaştırılmasını imkansız kılar. Bu tezde bu eksik değerlerin olası en uygun değerler ile doldurularak işleme sokulmasının sonuca etkileri analiz edilmiştir. Eksik değer içeren satırları toptan yok saymak, belli bir sınır değerden çok eksik veri içeren satırları yok sayıp kalan değerleri olası tahmini değerler ile doldurmak ve her türlü eksik veriyi olası en uygun değer ile doldurarak analize dahil etmek senaryoları ayrı ayrı test edilerek başarımları test edilmiş ve birbirlerine olan üstünlükleri değerlendirilmiştir. Bu analizlerimizde kanser verisi örnek test kümesi olarak seçilmiştir. Veri madenciliğinin tanımı ile başlayarak sonrasında veri madenciliği tekniklerinin ve algoritmalarının kullanılıp kanser hastalığının bu kapsamda irdelenmesi ve erken teşhisin çıkarılabilmesi ve ayrıca bu algoritmaların performanslarının weka adlı program kullanılarak elde edilen çıktılar doğrultusunda karşılaştırılması hedeflenmiş. Üzerinde çalışılacak olan Wisconsin veri setinde kanser verileri irdelenecektir. Karar ağacı algoritmalarından olan J48, Bayes ile sınıflandırma yapılan algoritmalarından biri olan Naive – Bayes, regresyon esasında olan algoritmalardan biri olan lojistik şekilde olan regresyon ve örnek tabanlı şekilde sınıflandırma algoritmalarından biri olan KStar biçiminde olan algoritmaları dikkate alınarak oluşan modeller ortaya getirilmiş ayrıca oluşturulan modellerin başarım dereceleri birbirleri arasında karşılaştırılmıştır.

Özet (Çeviri)

In the era of information age, data mining is notable as one of the most fundamental machine learning methods. The continuous increase in the computation power and storage capacities of computers leads an increased development in data analytics and data mining resulting several research and methods on the field. The main aim of data mining is to extract valuable knowledge from large amounts of diverse data that can be used in decision making. Data mining can be used in different areas such as predicting future events, describing interesting patterns or clustering similar data elements which gives knowledge that can be used in the decision making process. While individual data elements have little or no value, when large amounts of data collected together it becomes quite valuable. Valuable information and goal-oriented knowledge can be extracted from this large data through data mining methods. The continuous rise of data production in the world requires efficient data mining tools to control on the huge amounts of data. Therefore, data mining has become one of the most essential parts in medical researches as also occurred in several other fields. One of the fundamental problems in data mining is to prepare and preprocess the data for the mining operation. In this concept, missing values is an important issue. The collected data may contain some missing fields. As the data contains null values, it is impossible to make any comparison with those values. A possible solution is to fill those missing values with the best fitting value. In this theses, we compare three scenarios where, in the first one we omit all the lines that contains any missing value, in the second one we omit the lines that have missing values larger than a threshold and fill the rest with best fitting values, and in the third case we fill all the missing values with the best fit. We then compare the success rates of those scenarios using different algorithms and different success metrics. During those analyses we use a cancer database as test set. Starting from the definition of data mining, we explain some well-known data mining algorithms. Next, we apply those techniques on a publicly available health record data to predict cancer related diseases and provide analysis and comparison of the performances of different methods utilizing a software program named Weka. In this thesis, the breast cancer related data of the Wisconsin data set is used as the publicly free health record data. For the algorithms, we select J48 algorithm as a decision tree based approach, the Naive - Bayesian method as a Bayesian classification approach, logistic regression method and the K-star algorithm as a sample based classification method. The performance of each test scenario is compared according to accuracy and efficiency metrics.

Benzer Tezler

Tez No
782325
Optimization of deep neural network architectures for the forest fire detection
Orman yangini tespitinde derin sinir aği mimarilerinin optimizasyonu
BERRİN SAVDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MÜŞTAK ERHAN YALÇIN
PROF. DR. HAZIM KEMAL EKENEL
Tez No
886831
Marketing campaign management using machine learning techniques: An uplift modeling approach
Makine öğrenimi teknikleri kullanılarak pazarlama kampanyası yönetimi: Artımlı modelleme yaklaşımı
MELTEM SANİSOĞLU
Doktora
İngilizce
2024
İşletme İstanbul Teknik Üniversitesi
İşletme (İngilizce) Ana Bilim Dalı
PROF. DR. HURİYE ŞEBNEM BURNAZ
Tez No
817791
Dishormonogenezli konjenital hipotirodi hastalarında yeni nesil dizi analizi ile genetik etiyoloji değerlendirilmesi
Evaluation of genetic etiology with a new generation sequence analysis in congenital hypothrody patients with dishormonogenesis
ÜMRAN POTA
Tıpta Uzmanlık
Türkçe
2023
Çocuk Sağlığı ve Hastalıkları Pamukkale Üniversitesi
Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı
PROF. DR. SELDA AYÇA ALTINCIK
PROF. DR. GÖKHAN OZAN ÇETİN
Tez No
709913
Interaction between magnetized stars and disks
Manyetik yıldızlar ve diskler arasındaki etkileşim
MURAT METEHAN TÜRKOĞLU
Doktora
İngilizce
2021
Astronomi ve Uzay Bilimleri İstanbul Teknik Üniversitesi
Fizik Mühendisliği Ana Bilim Dalı
PROF. DR. KAZIM YAVUZ EKŞİ
Tez No
633678
Sensor fault tolerant control of a quadrotor uav
Dört rotorlu insansız bir hava aracının sensör arızalarına toleranslı kontrolü
MEHMET GÖKBERK PATAN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. FİKRET ÇALIŞKAN

Geri Dön