Geri Dön

TIMSS 2019 fen ve matematik başarısının makine öğrenmesi modelleriyle incelenmesi

Investigation of TIMSS 2019 science and mathematics achievement with machine learning models

  1. Tez No: 875482
  2. Yazar: FURKAN DEVECİ
  3. Danışmanlar: PROF. DR. FATİH SEZEK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Eğitim ve Öğretim, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Atatürk Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik ve Fen Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Fen Bilgisi Eğitimi Bilim Dalı
  13. Sayfa Sayısı: 67

Özet

Bu çalışmada TIMSS 2019 8. Sınıf Türkiye örneklemine ait öğrencilerin okul, fen bilimleri ve matematik veri setleri kullanılarak öğrencilerin başarıları ve başarı sınıfları makine öğrenmesi modelleriyle incelenmiştir. Ayrıca kurulan makine öğrenmesi modelleri sonucunda fen bilimleri ve matematik veri setlerindeki önemli değişkenlere ulaşılmıştır. Makine öğrenmesi sürecinin uygulandığı bu çalışmada veri ön-işleme aşamasında okul veri seti fen ve matematik veri setleriyle ayrı ayrı birleştirildi. Fen ve matematik başarı puanı TIMSS tarafından dört düzeye ayrılmaktadır. Belirli puan aralıklarına göre belirlenen bu düzeylerin altında öğrencilerin olduğu görülmüş ve bu öğrenciler için yeni bir sınıf oluşturularak toplam beş sınıf üzerinden çoklu sınıflandırma modelleri kurulmuştur. Daha sonra veri setlerindeki boş değerler medyan yöntemi ile doldurulmuş öznitelik seçim işlemi gerçekleştirilmiştir. Nümerik değişkenler için Özyinelemeli Öznitelik Eliminasyonu (Recursive Feature Elimination - RFE), kategorik değişkenler için Ki-kare (Chi-Squared) yöntemleri kullanılarak modellerin daha iyi performans verecek öznitelikler seçilmiştir. Veri seti %80 eğitim %20 test seti olacak şekilde bölünmüş ve 10 katlı çapraz doğrulama(cross validation) yöntemi ile modeller kurulmuştur. Kurulan modeller sonucunda regresyon ve çoklu sınıflandırma algoritmalarından Çoklu Doğrusal Regresyon(Multiple Lineer Regression - MLR), Lojistik Regresyon(Logistic Regression - LR), Rastgele Ağaç(Random Forest - RF), Gradyan Arttırıcı Makine(Gradient Boosting Machine - GBM), Hafif Gradyan Arttırıcı Makine(Light Gradient Boosting Machine - LGBM), Ekstra Ağaç(ExtraTree - ET), Kategori Arttırıcı(Category Boosting - CatBoost) algoritmalar kullanılmıştır. Performansın değerlendirilmesinde regresyon problemi için Hata Kareler Ortalaması (Mean Squared Error – MSE), Hata Kareler Ortalaması Karekökü (Root Mean Squared Error – RMSE), Ortalama Mutlaka Hata (Mean Absolute Error – MAE), Ortalama Mutlak Yüzde Hata (Mean Absolute Percantage Error – MAPE) ve R-Kare (R-Squared - R2) değerlerine, sınıflandırma probleminde ise Doğruluk(accuracy), Kesinlik(precision), Hassasiyet(recall) ve F1-Skor (F1-Score) metriklerine bakılmıştır. Fen Bilimleri veri setine ait regresyon problemi sonucunda MLR, RF, GBM, LGBM ve CatBoost modellerinde MSE değeri 0.03 ile 0.04, RMSE değeri 0.16 ile 0.19, MAE değeri 0.12 ile 0.15, MAPE değeri 0.79 ile 0.99 arasında değer alırken, R2 değeri 0.96 ile 0.97 değerini aldığı görülmüştür. Matematik veri setine ait regresyon problemi sonucunda MSE değeri 0.02 ile 0.03, RMSE değeri 0.14 ile 0.17, MAE değeri 0.11 ile 0.13, MAPE değeri 0.43 ile 0.51 değerini aldığı görülmüştür. Fen Bilimleri veri setine ait çoklu sınıflandırma sonuçlarına bakıldığında RF, LGBM ve CatBoost modellerinde bütün başarı metrikleri %99 olarak bulunmuştur. Matematik veri setinde çoklu sınıflandırma sonuçlarında ise CatBoost modeli bütün başarı metriklerinde %99 olarak bulunurken LGBM modelinde %100 olarak bulunmuştur. Ayrıca fen veri setinde ve matematik veri setinde ortak değişkenlerin başarı üzerinde önemli değişkenler olduğu sonucuna varılmıştır. Bu değişkenlerin bilişsel alan, öğrenme alanı ve öğrencilerin fen ve matematik dersine yönelik tutumların içeren değişkenlerin olduğu görülmüştür.

Özet (Çeviri)

In this study, the achievements and achievement levels of students in the TIMSS 2019 8th grade Turkey sample were analyzed using machine learning models, with data sets from school, science, and mathematics. Additionally, significant variables within the science and mathematics data sets were identified through the machine learning models established. During the data preprocessing stage of this study, the school data set was separately merged with the science and mathematics data sets. The science and mathematics achievement scores are divided into four levels by TIMSS. It was observed that some students scored below these levels, and a new class was created for these students, leading to the establishment of multi-class classification models over a total of five classes. Subsequently, missing values in the data sets were filled using the median method, and feature selection was performed. Recursive Feature Elimination (RFE) was used for numerical variables, while Chi-Squared methods were employed for categorical variables to select features that would enhance model performance. The data set was split into 80% training and 20% test sets, and models were built using the 10-fold cross-validation method. The algorithms used in the resulting models included Multiple Linear Regression (MLR), Logistic Regression (LR), Random Forest (RF), Gradient Boosting Machine (GBM), Light Gradient Boosting Machine (LGBM), Extra Tree (ET), and Category Boosting (CatBoost). For performance evaluation, the regression problem was assessed using Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE), and R-Squared (R2) values. For the classification problem, Accuracy, Precision, Recall, and F1-Score metrics were examined. In the regression problem for the Science data set, the MSE values ranged from 0.03 to 0.04, RMSE values ranged from 0.16 to 0.19, MAE values ranged from 0.12 to 0.15, MAPE values ranged from 0.79 to 0.99, and R2 values ranged from 0.96 to 0.97 for the MLR, RF, GBM, LGBM, and CatBoost models. In the regression problem for the Mathematics data set, the MSE values ranged from 0.02 to 0.03, RMSE values ranged from 0.14 to 0.17, MAE values ranged from 0.11 to 0.13, and MAPE values ranged from 0.43 to 0.51. In the multi-class classification results for the Science data set, all success metrics for the RF, LGBM, and CatBoost models were found to be 99%. In the multi-class classification results for the Mathematics data set, all success metrics for the CatBoost model were found to be 99%, while they were found to be 100% for the LGBM model. Additionally, it was concluded that common variables in both the science and mathematics data sets were significant variables for success. These variables were found to include cognitive domain, learning domain, and students' attitudes towards science and mathematics courses.

Benzer Tezler

  1. Makine öğrenmesi yöntemleri ve eğitim verisi üzerine bir uygulama: uluslararası matematik ve fen eğilimleri araştırması 2015 türkiye örneği

    Machine learning methods and an application on educational data: the trends in international mathematics and science study 2015 Turkey case

    ENES FİLİZ

    Doktora

    Türkçe

    Türkçe

    2019

    İstatistikYıldız Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. ERSOY ÖZ

  2. Makine öğrenmesi yöntemleri kullanılarak uluslararası matematik ve fen eğilimleri araştırması Türkiye örneğinin değerlendirilmesi

    Evaluation of the trends in international mathematics and science study using machine learning methods: Turkey sample

    AYDAN BAYRAK BEKTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikYıldız Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. ERSOY ÖZ

  3. Investigation of student achievement in science, teaching strategies, and instructional clarity regarding to certain varibles by TIMSS 2019

    TIMSS 2019'da fen başarısı, öğretim uygulamaları ve öğretimin netliğinin birtakım değişkenler bağlamında incelenmesi

    BEKİR ANIL PALA

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Eğitim ve ÖğretimOrta Doğu Teknik Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    PROF. DR. ÖMER GEBAN

    PROF. DR. EREN CEYLAN

  4. Ortaokul 8. sınıf öğrencilerinin matematik dersi akademik başarısı ile fen dersi akademik başarısı arasındaki ilişkinin yapısal eşitlik modeli ile incelenmesi

    Secondary school 8th grade students investigation of the relationship between mathematics academic success and science academic success with structural equation model

    HAVA ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimMersin Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÜN BİNZET

  5. Sekizinci sınıf öğrencilerinin TIMSS fen sonuçlarının 21.yy beceri düzeyleri ve bazı değişkenler açısından incelenmesi

    Examination of eight grade students' TIMSS science results in terms of 21st century skills and some variables

    ESRA DİKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimMarmara Üniversitesi

    İlköğretim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HATİCE MERTOĞLU