Veri madenciliği yöntemleriyle hayvan hastalıklarında teşhis, prognoz ve risk faktörlerinin belirlenmesi
Determination of diagnosis, prognosis and risk factors in animal diseases using by data mining methods
- Tez No: 495349
- Danışmanlar: PROF. DR. OYA KALIPSIZ, DOÇ. DR. ERHAN GÖKÇE
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 101
Özet
İstatistik bilimi veri analizinde yüzyıllardan beri kullanılmaktadır. Ancak veri miktarındaki devasa artış, geçmiş veri içerisinden ilgi çekici (önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı) bilginin gelecekteki eğilimini kestirmek ya da sonraki aşamalarda analiz etme ihtiyacı, temeli istatistiğe dayanan veri madenciliği kavramını ortaya çıkarmıştır. Veterinerlik alanındaki çalışmalarda hayvanlardan elde edilen veri setleri genellikle istatistiksel yöntemlerle analiz ediliyor olsa da veri madenciliği, veri analizinde gün geçtikçe popülerliğini ve işlevini arttıran bir alan olarak karşımıza çıkmaktadır. Veri madenciliği, bilgilerin analiz edilmesi ve yorumlanacak bilgiler edinmeyi sağlayan bir süreçtir. Veri yığınları içinde açık olmayan fakat anlamlı gizli örüntüleri ve işe yarar bilgileri bulmak bu yöntemler ile gerçekleştirilir. Bu tez çalışmasında, veri madenciliği yöntemleriyle hayvan hastalıklarında teşhis, prognoz ve risk faktörlerinin belirlenmesi amaçlanmaktadır. Veri setindeki eksik değerleri tamamlamak için en başarılı eksik değer tamamlama yöntemi belirlenmiştir. Bunun için ortalama, ortanca, k en yakın komşu, mice, missforest ve geliştirilen yapay arı koloni (YAK) yöntemleri ortalama karesel hatanın karekökü (OKHK) sonuçlarına göre karşılaştırılmıştır. Karşılaştırma sonucunda en başarılı yöntem YAK olarak belirlenmiştir. Verilerin normalizasyonu aşamasında; minimum-maksimum, ondalık ölçeklendirme, z-değeri ve sigmoid normalizasyon yöntemleri karşılaştırılmıştır. K-ortalama kümeleme sonucunda 0.735 saflık ve 0.86 entropi ile en başarılı yöntemin sigmoid olduğu tespit edilmiştir. Verilerin sınıflandırılması aşamasında; karar ağaçları (KA), saf bayes (SB), k-en yakın komşu (KEYK), yapay sinir ağları (YSA) ve rastgele orman (RO) algoritmaları karşılaştırılmıştır. Doğruluk=0.8427, dengeli doğruluk=0.7132, seçicilik=0.91, duyarlılık=0.5164, kappa=0.4304 sonuçlarıyla en başarılı yöntemin Saf bayes olduğu belirlenmiştir. Ayrıca 0.765 eğri altında kalan alan (EAKA) değeriyle yine en başarılı yöntemin saf beyes olduğu görülmüştür. Bilgi kazancı yöntemi ile özellik seçimi yapıldıktan sonra, özellik sayısı 14'den 4'e düşürüldüğünde sınıflandırma başarısının %4 yükseldiği görülmüştür. Ortak bilgi yöntemine göre neonatal dönemde ölümler için eşik seviyesi immunoglobulin-G (IgG) < 500, Gamma-Glutamyl transferase (GGT) < 500, Lactoferrin (LT) 1201-1600, Total Protein (TP) 31-40 ve Albümin (ALB) < 35 olarak belirlenmiştir. Ayrıca veteriner hekime yardımcı mobil ve masaüstü uygulama geliştirilmiştir.
Özet (Çeviri)
Statistics has been used for centuries in data analysis. But the increase in the amount of data reveals, to predict the future trend of interesting information (Insignificant, hidden, unknown, potentially useful) from past data or to analyze at a later stage, the concept of data mining which is based on statistics, was found. In the field of veterinary research, data sets obtained from animals are often analyzed using statistical methods, regardless of data mining field's day by day increasing popularity and function in data analysis. Data mining is a process that allows information to be analyzed and acquired. Finding the hidden secret patterns and information which are not clear in data stacks is carried out using these methods. The aim of this thesis is to determine the diagnosis, prognosis and risk factors in animal diseases using data mining methods. In order to complete missing values in the data set, the most successful missing value imputation method has been determined. For this purpose; mean, median, nearest neighbors, mice, missForest and developed artificial bee colony (ABC) imputation methods were compared according to the root mean square error (RMSE). According to the conducted comparison results, ABC method with the lowest RMSE was determined as the most successful method. During the normalization of the data; min-max, decimal scaling, z-values, and sigmoid normalization methods are compared. It is determined that the most successful method is sigmoid normalization method with 0.735 purity and 0.86 entropy. In the process of classifying the data; decision trees (DT), naive bayes (NB), k-nearest neighbors (KNN), artificial neural networks (ANN) and random forest (RF) algorithms are compared. It was determined that the most successful method was NB with 0.8427 accuracy, 0.7132 balanced accuracy, 0.91 specificity, 0.5164 sensitivity, 0.5226 f-measure and a 0.4304 for kappa. It was also found that the most successful method with a value of 0.765 AUC is naive bayes. After conducting feature selection using information gain method, the classification accuracy increased when the number of features was reduced from 14 to 4. According to the Mutual Information method, the threshold level for deaths in the neonatal period was determined as immunoglobulin-G (IgG) < 500, Gamma-Glutamyl transferase (GGT) < 500, Lactoferrin (LT) 1201-1600, Total Protein (TP) 31-40 and Albumin (ALB) < 35. In addition, an application for both mobile and desktop platforms have been developed for veterinary medicine.
Benzer Tezler
- Veri madenciliği yöntemleriyle sosyal medya duygu analizi
Social media sentiment analysis with data mining techniques
BATUHAN CEM ÖĞE
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATİH KAYAALP
- Veri madenciliği yöntemleriyle gübre talep tahminleme
Başlık çevirisi yok
SEMRA YALÇINTEPE
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgi Teknolojileri Ana Bilim Dalı
DOÇ. DR. MEHMET ALPER TUNGA
- Veri madenciliği yöntemleriyle paslanmaz çelik sektöründe satış tahmini
Forecasting the sales volumes at stainless steel sector by using data mining methods
ORHAN ECEMİŞ
- Veri madenciliği yöntemleriyle müşteri kaybı analizi: Yazılım sektörü
Customer churn analysis with data mining methods: Software as a service(SAAS) industry
SENA KASIM
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ LEVENT ÇALLI
- Veri madenciliği yöntemleriyle depremlerin analizi
Analysis of earthquakes by means of data mining methods
ÖZAL YILDIRIM
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GALİP AYDIN