Geri Dön

Türkiye'de ingiliz yarış atlarının kazanç durumlarına etkili faktörlerin sınıflamaya dayalı bazı makine öğrenmesi algoritmaları ile incelenmesi

Investigation of the factors affecting the earning status of thoroughbreds in Türkiye with some machine learning algorithms based on classification

  1. Tez No: 927510
  2. Yazar: VOLKAN TÜRKMEN
  3. Danışmanlar: DOÇ. DR. DOĞUKAN ÖZEN
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Veteriner Hekimliği, Biostatistics, Veterinary Medicine
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Veterinerlik Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 176

Özet

At yarışı endüstrisi, yarattığı ekonomik kazanç ve istihdam ile birlikte oldukça önemli bir sanayi dalıdır. Endüstrinin sürdürülebilirliği ve büyümesi, yarış atı yetiştiriciliğinin gelişmesi ve iyi safkanların yetiştirilmesine bağlıdır. Yarış atlarının kazançları, yarış endüstrisinde bir atın başarı seviyesinin en önemli göstergelerinden biridir. Bir atın kazancı, sadece o atın yarış kariyerini değil, aynı zamanda yetiştiriciliğinden sağlanan ekonomik getirileri de doğrudan etkiler. Bu durum, yarış endüstrisinde yatırım kararlarından seleksiyon stratejilerine kadar geniş bir yelpazede önemli sonuçlar doğurma potansiyelindedir. Bu çalışmada, sınıflandırmaya dayalı k-EYK, C5.0, RO ve GAM makine öğrenmesi (MÖ) algoritmaları yardımı ile Türkiye'deki safkan İngiliz atlarının yarış hayatı boyunca elde ettiği kazanca etkili olabilecek faktörleri belirlemek ve bu faktörleri içeren bir tahmin modeli geliştirmek amaçlanmıştır. Bu amaçla iki ve üç sınıflı kazanç değişkenini içeren iki farklı veri seti ile iki farklı veri bölme tekniği kullanılmıştır. Araştırmanın materyalini Türkiye Jokey Kulübü'nün düzenli olarak tutmuş olduğu kamuya açık kayıtlar oluşturmuştur. Çalışmada her bir at bağımsız bir birey olarak kabul edilmiştir. 2007-2020 yılları aralığında doğup 30 Haziran 2022 tarihi itibariyle yarış hayatı sonlanmış ve bu tarihe kadar düzenlenen yarışlara en az bir kez katılan 14.233 adet safkan İngiliz yarış atı çalışmaya dahil edilmiştir. Yapılan çalışmada, üç sınıflı kazanç değişkeni, hem orijinal, hem de rastgele aşırı örnekleme yöntemi (RAÖ) kullanılarak dengelenmiş hali ile; iki sınıflı kazanç değişkeni ise orijinal hali ile modele alınmış ve %70-%30, %75-%25 ve %80-%20 eğitim ve test veri setlerine bölünmüştür. Veri setleri 10 katlı çapraz doğrulama yöntemi 10 tekrarlı olarak yürütülerek algoritmalar için hiper parametre en iyilemesi yapılmıştır. Ayrılan test veri seti ile tahmin modeli test edilmiştir. Çalışmada performans değerlendirme ölçütü olarak, doğruluk, dengeli doğruluk, seçicilik ve negatif tahmin değeri ortalaması ile kesinlik, anma ve F1 skorunun makro ortalaması, MKK/ÇSMKK, G-ortalama ve EAKA kullanılmıştır. Çalışma sonucunda karşılaştırılan modellerin içerisinde en yüksek doğruluk oranı %80-20 eğitim test veri seti ayrımı ile gerçekleşmiştir. İki sınıflı ve üç sınıflı dengelenmiş test veri setlerinde en yüksek doğruluk oranları sırasıyla GAM ve RO algoritmaları ile elde edilmiştir. Çalışmada elde edilen sınıflandırma tahmin modellerinde, farklı önem derecelerinde“Yarışa Başlama Yaşı”,“Koşu Sayısı”,“Koşu Parkuru”,“Baba Kazanç Durumu”,“Anne Kazanç Durumu”,“Sahiplik Durumu”ve“Cinsiyet”özniteliklerinin yarış hayatı boyunca elde edilen kazanca etki eden önemli birer faktör oldukları belirlenmiştir. Bu çalışma, aynı zamanda iki sınıflı sınıflandırıcıların üç sınıflılara göre daha iyi tahmin performansı sergilediklerini, RAÖ ile dengelenmiş verilerin dengelenmemişlerden birçok performans ölçütü yönünden daha iyi performans sergilediğini göstermiştir. Çok sınıflı tahmin problemlerinin çözümünde hızlı ve etkili çözümler sunan k-EYK algoritmasının kullanımının etkinliği görülmüştür. Dengeli ve dengesiz veri setlerinde çok sınıflı sınıflandırıcı performansını değerlendirirken doğruluk oranlarının yanında, F1 skoru, G-ortalama ve ÇSMKK değerleri ile karışıklık matrisinin de beraber düşünülmesi gerektiği ancak EAKA ölçütünün kullanımında daha dikkatli olunması gerektiği görülmüştür.

Özet (Çeviri)

The horse racing industry represents a significant contributor to the national economy, providing substantial economic benefits and employment opportunities. The long-term viability and expansion of the industry depend on the advancement of racehorse breeding and the production of high-quality Thoroughbreds. The earnings of racehorses serve as a primary indicator of a horse's success within the racing industry. A horse's earnings have a direct impact on not only its racing career but also the economic returns derived from its breeding. This has the potential to have significant implications for a multitude of issues within the racing industry, including investment decisions and selection strategies. This study was carried out with the help of classification-based k-EYK, C5.0, RO and GAM machine learning (ML) algorithms to determine the factors that may affect the earnings of thoroughbred British horses in Türkiye throughout their racing life and to develop a prediction model that includes these factors. In order to achieve this goal, two different data sets containing two and three classes of earnings variables and two different data division techniques were used. The material of the study consisted of public records maintained by the Turkish Jockey Club on a regular basis. Each horse was regarded as an independent subject in the study. The study included 14,233 Thoroughbred racehorses born between 2007 and 2020 and whose racing careers ended by June 30, 2022. These horses had participated in at least one race organized until this date. In this study, the three-class earning variable is modeled in both its original and balanced forms by employing a random oversampling method. Additionally, the two-class earning variable is modeled in its original form and divided into training and test data sets with varying proportions, including 70%-30%, 75%-25%, and 80%-20%. The data sets were subjected to 10-fold cross-validation with 10 repetitions, and hyper-parameter optimization was performed for the algorithms. The prediction model was tested with the separated test data set. The performance of the model was evaluated using a range of metrics, including accuracy, balanced accuracy, specificity, negative predictive value, precision, recall, F1 score, MCC/MMCC, G-mean, and AUC. The highest accuracy rate among the models compared in the study was achieved with an 80-20% training-test data set separation. In two-class and three-class balanced test datasets, the highest accuracy rates were obtained with the GBM and RF algorithms, respectively. In the classification prediction models obtained in the study, it was determined that the“Age at Race Start,”“Number of Runs,”“Track Type,”“Father's Earnings Status,”“Mother's Earnings Status,”“Ownership Status,”and“Gender”attributes are important factors affecting the earnings obtained during the racing life, with varying degrees of importance. The findings of this study indicate that two-class classifiers exhibit superior prediction performance compared to three-class classifiers. Additionally, data that has been balanced using the ROS method demonstrates enhanced performance across a range of metrics when compared to non-balanced data. The efficacy of the KNN algorithm, which offers rapid and effective solutions for addressing multi-class prediction challenges, has been substantiated. When assessing the performance of multiclass classifiers on balanced and unbalanced datasets, it is essential to consider additional metrics beyond accuracy rates, such as F1 score, G-mean and MMCC values, and a confusion matrix. However, greater caution should be exercised when utilising the AUC criterion.

Benzer Tezler

  1. İngiliz yarış atlarında metakarpal kemik lezyonlarının radyografik olarak incelenmesi

    Radiographic investigation of metacarpal bone lesions of thoroughbred racehorses

    ANIL KARAMAZI

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Veteriner HekimliğiAnkara Üniversitesi

    Cerrahi (Veterinerlik) Ana Bilim Dalı

    PROF. DR. ALİ BUMİN

  2. İstanbul ilindeki safkan yarış atlarının trakeal yıkama sıvılarında inflamatuvar solunum yolu hastalığının etiyolojisinde rol oynayan mycoplasma türlerinin varlığının araştırılması

    Investigation of the presence of mycoplasma species as the etiologic agents of inflammatory airway diseases in thoroughbred racehorses in Istanbul province

    ALPER METE

    Doktora

    Türkçe

    Türkçe

    2015

    Mikrobiyolojiİstanbul Üniversitesi

    Mikrobiyoloji (Veterinerlik) Ana Bilim Dalı

    PROF. DR. NACİYE YAKUT ÖZGÜR

  3. Türkiye'de bazı kurumlarda yarış atlarının beslenme yöntemleri üzerinde bir inceleme

    An Investigation on nutritional methods of race horses raised at some establishements in Turkey

    ZUHAL ERDOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    1993

    Veteriner HekimliğiAnkara Üniversitesi

    Zootekni Ana Bilim Dalı

    DOÇ. DR. MURAT ZİNCİRLİOĞLU

  4. Türkiye'deki yarış atlarının solunum yollarından izole edilen streptococcus SPP ve staphylococcus SPP etkenlerinde antibakteriyel ilaçlara direncin tespit edilmesi

    Antimicrobial resistance of streptococcus SPP. and staphylococcus SPP. isolated from respiratory tract of race horses in Turkey

    MEHMET DİRİ

    Doktora

    Türkçe

    Türkçe

    2018

    Veteriner HekimliğiAnkara Üniversitesi

    Farmasötik Toksikoloji Ana Bilim Dalı

    PROF. DR. ENDER YARSAN

  5. İngiliz ve arap atlarında ırk, cinsiyet, yaş ve yarış tipinin; yarış performansı ile kandaki miyostatin, irisin, eritropoetin düzeyleri üzerine etkisi

    The effect of breed, sex, age and race type on racing performance and blood myostatin, irisin, erythropoietin levels in thoroughbred and arabian horses

    ZAHİDE DEDEOĞLU

    Doktora

    Türkçe

    Türkçe

    2025

    Veteriner HekimliğiAydın Adnan Menderes Üniversitesi

    Zootekni (Veterinerlik) Ana Bilim Dalı

    PROF. DR. HÜSNÜ ERBAY BARDAKÇIOĞLU