Sınıflandırma problemlerinde lojistik regresyon ile makine öğrenmesi algoritmalarının performanslarının karşılaştırılması: veterinerlik alanında bir uygulama
Comparison of the performance of logistic regression and machine learning algorithms in classification problems: An application in the field of veterinary medicine
- Tez No: 798724
- Danışmanlar: DR. ÖĞR. ÜYESİ HARUN YONAR
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Selçuk Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Veterinerlik Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
Bu çalışmada, buzağılara ait veriler kullanılarak oluşturulan iki farklı modelde, buzağı ishalinin tespit edilmesinde lojistik regresyon, Boosting, K En Yakın Komşu (KNN), Lineer Diskriminant ve Random Forest (RF) makine öğrenmesi sınıflandırma algoritmalarının performansları karşılaştırıldı. Çalışmada, toplam 220 buzağıya ait klinik bulgu, kan gazı ölçümleri, hematolojik ve biyokimyasal 14 değişkene ait veriler kullanıldı. Buzağı ishalinde etkili olduğu düşünülen 14 değişken modelde iken lojistik regresyon analizinde enter yöntemi kullanılarak analizler gerçekleştirildi. Ardından stepwise yöntemi ile en uygun değişkenlerin bulunduğu model oluşturuldu. Her iki modelde bulunan değişkenler makine öğrenmesi algoritmaları için ayrı ayrı uygulandı. Lojistik regresyon ile makine öğrenmesi algoritmalarının tahmin performansları doğruluk, AUC, duyarlılık, seçicilik ve F ölçüsü metrikleri kullanılarak karşılaştırıldı. Klinik bulgu, kan gazı ölçümleri, hematolojik ve biyokimyasal verilere ait 14 değişken kullanılarak oluşturulan modelde doğruluk değerleri; lojistik regresyon için %89,1, Boosting için %88,2, KNN için %85, Lineer Diskriminant için %84,1 ve RF için %95,5 olarak elde edildi. Stepwise yöntemi ile oluşturulan 7 değişkenli modelde ise doğruluk değerleri lojistik regresyon için %90,5, Boosting için %89,1, KNN için %87,3, lineer diskriminant için %86,8 ve RF için %97,7 olarak elde edildi. RF algoritmasının her iki modelde hem lojistik regresyondan hem de diğer sınıflandırma algoritmalarından daha yüksek doğruluk değerine sahip olduğu tespit edildi. Bu çalışmada öncelikle makine öğrenmesi algoritmalarının sağlık ve veterinerlik alanında yapılacak modelleme çalışmalarında kullanılabilirliği incelenmiştir. Ayrıca modelleme çalışmalarında karşılaşılabilecek değişkenlerin istatistiksel yöntemlerden kaynaklı dışlanma sorununun ortadan kaldırılabileceği ve makine öğrenmesi algoritmalarının modellemede katkı sağlayacağı öngörülmektedir.
Özet (Çeviri)
In this study, the performances of logistic regression, Boosting, K Nearest Neighbor (KNN), Linear Discriminant and Random Forest (RF) machine learning classification algorithms in detecting calf diarrhea were compared in two different models created using data from calves. In the study, clinical findings, blood gas measurements, hematological and biochemical data of 14 variables of 220 calves were used. While 14 variables thought to be effective in calf diarrhea were in the model, analyzes were performed using the enter method in logistic regression analysis. Then, the model with the most suitable variables was created with the stepwise method. The variables in both models were applied separately for machine learning algorithms. The prediction performances of logistic regression and machine learning algorithms were compared using the metrics of accuracy, AUC, sensitivity, selectivity, and F measure. Accuracy values in the model created by using 14 variables of clinical findings, blood gas measurements, hematological and biochemical data; 89,1% for logistic regression, 88,2% for Boosting, 85% for KNN, 84,1% for Linear Discriminant and 95,5% for RF. In the 7 variable model created by the Stepwise method, the accuracy values were 90,5% for logistic regression, 89,1% for Boosting, 87,3% for KNN, 86,8% for linear discriminant and 97,7% for RF. It was determined that the RF algorithm had higher accuracy than both logistic regression and other classification algorithms in both models. In this study, first of all, the usability of machine learning algorithms in modeling studies in the field of health and veterinary medicine have been examined. In addition, it is predicted that the exclusion problem of variables that may be encountered in modeling studies can be eliminated from statistical methods and machine learning algorithms will contribute to modeling.
Benzer Tezler
- Machine learning applications in portfolio optimization
Portföy optimizasyonunda makine öğrenmesi uygulamaları
FİRDEVS NUR UYKUN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiFinansal Matematik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BÜŞRA ZEYNEP TEMOÇİN
- Sınıflandırma problemlerine destek vektör regresyon tabanlı doğrusal olmayan yeni bir yaklaşım
A new nonlinear approach based on support vector regression to classification problems
ESRA BETÜL KINACI
- Makine öğrenmesi teknikleriyle mobil ödemede sahtekarlık tespiti
Fraud detection in mobile payment with machine learning methods
ÖZLEM GÜVEN
Yüksek Lisans
Türkçe
2021
EkonometriDokuz Eylül ÜniversitesiEkonometri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERKAN ARAS
- Veri madenciliği ile otizm belirlenmesi
Autism diagnosis with data mining
ELİF ÖZTAD
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ PARVANEH SHAMS
- Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL