Geri Dön

PISA başarısını tahmin etmede kullanılan veri madenciliği yöntemlerinin incelenmesi

Investigation of data mining methods used for estimating PISA success

  1. Tez No: 515513
  2. Yazar: GÖKHAN AKSU
  3. Danışmanlar: DOÇ. DR. NURİ DOĞAN
  4. Tez Türü: Doktora
  5. Konular: Eğitim ve Öğretim, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Ölçme ve Değerlendirme Bilim Dalı
  13. Sayfa Sayısı: 162

Özet

Bu çalışmada veri madenciliği ve makine öğrenme yaklaşımının eğitim alanında kullanılması ve bu algoritmalara dayalı olarak elde edilen sonuçların güvenirlik ve geçerlik değerlerinin ne düzeyde olduğu belirlenmeye çalışılmıştır. PISA 2015 Türkiye ortalamasına göre öğrencilerin başarılı ve başarısız olarak sınıflandığı çalışmada farklı öğrenme yöntemleri kullanılarak fen okuryazarlığı bakımından öğrencilerin hangi sınıfta yer alacağı tahmin edilmiş ve bu aşamada elde edilen sonuçların güvenirlik ve geçerlik ölçütleri incelenmiştir. Bunun yanında WEKA programının sahip olduğu tüm algoritma ve yöntemler farklı koşullar altında karşılaştırılarak hangi makine öğrenme yönteminin hangi durumlarda avantajlı veya dezavantajlı olduğu belirlenmiştir. Araştırmada elde edilen sonuçlar doğrultusunda PISA Fen okuryazarlığını yordamak amacıyla kullanılacak değişken sayısının 29 olması sebebiyle ilk olarak farklı algoritmalar yardımıyla en iyi özellikler belirlenmeye çalışılmıştır ve 10 katlı çapraz geçerleme yöntemiyle her katmanda başarılı olan 12 değişken yardımıyla PISA 2015 fen okuryazarlığı başarıları tahmin edilmiştir. Sonrasında çalışma kapsamında ele alınan 8 farklı öğrenme yönteminden doğru sınıflama sayısı, doğru sınıflama oranı, kappa istatistiği, karekök hata ve göreceli karekök hata değerleri bakımından en iyi sonuçların Random Forest yöntemiyle elde edilirken Ridge lojistik regresyon, Lojistik model ve Hoefding tree yöntemlerinin en başarılı diğer yöntemler olduğu belirlenmiştir. Çapraz geçerleme yöntemi kullanılmadan tüm veri setinin eğitim ve test veri seti olarak ayrılması durumunda Lojistik model, Random Forest ve Ridge Regresyon yöntemlerinin farklı büyüklükteki test verilerinde en düşük hata değerlerini verirken Random Tree ve J.48 yönteminlerinin en yüksek hata değerlerine sahip olduğu belirlenmiştir. Ridge regresyon, Random forest ve Lojistik model tarafından elde edilen hata değerlerinin de farklı yüzdelikteki test verilerinde oldukça tutarlı olduğu sonucuna ulaşılmıştır. Farklı yöntemler yardımıyla elde edilen ölçme sonuçlarının veri setini test ve eğitim verisi olarak ayırmayıp aynı veri seti üzerinden hem öğrenme yöntemini eğitip hem de test ettiğimiz taktirde özellikle Random tree ve J.48 öğrenme yöntemlerinin gerçek performanslarından daha yüksek doğru sınıflama oranına sahip oldukları belirlenmiştir.

Özet (Çeviri)

In this study, it was tried to determine the use of data mining and machine learning approach in the field of education and the level of reliability and validity of the results obtained based on these algorithms. In the study that students were classified as successful and unsuccessful according to the Turkey's PISA average, it was predicted that in which class the students will take place in terms of science literacy using different learning methods, and the reliability and validity criteria of the results obtained at this stage were examined. Besides, all the algorithms and methods of Weka program were compared under different conditions, and it was determined that which learning method is advantageous or disadvantageous in which situations. In the study, the best results in terms of correct classification number, correct classification ratio, kappa statistic, square root error and relative square root error were obtained from Random Forest method, and It was identified that Ridge logistic regression, logistic model and Hoefding tree methods are the most successful other methods It was also determined that in case the whole data set is separated as training and test data set without using the cross validation method, the Logistic model, Random Forest and Ridge Regression methods gave the lowest error values in test data with different size, and Random Tree and J.48 methods have the highest error values. It was concluded that the error values obtained by the Ridge regression, Random forest and Logistic model were quite consistent in test data.in different percentile. It was determined that if we do not allocate the data set of the measurement results obtained by different methods as test and training data and we train and test the learning method through the same data set, especially Random tree and J.48 learning methods have a higher correct classification rate than real performances.

Benzer Tezler

  1. PISA 2022 Türkiye örnekleminde bilgi ve iletişim teknolojisi kaynakları kullanımının okuma performansını yordama durumunun veri madenciliği teknikleriyle incelenmesi

    Examining the predictive status of information and communication technology resources use on reading performance in PISA 2022 Turkey sample with data mining techniques

    BARIŞ ŞAYBAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimBursa Uludağ Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    DOÇ. DR. SALİH BİRİŞÇİ

  2. PİSA başarısını tahmin etmede genetik algoritma yaklaşımı

    Genetic algorithm approach to estimate PISA success

    YASEMİN YETKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimVan Yüzüncü Yıl Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÜROL ZIRHLIOĞLU

  3. PISA 2003'de genel lise öğrencileri ve Kanuni Lisesi öğrencilerinin matematik başarısını etkileyen faktörlerin incelenmesi

    Analysis of factors which effects the mathematics achievements in PISA 2003 high school students and Kanuni High School students

    FATMA ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Eğitim Bilimleri Bölümü

    DOÇ. DR. SELAHATTİN GELBAL

  4. A comparative analysis of machine learning techniques to explore factors affecting mathematics success in developing countries: Turkey, Mexico, Thailand and Bulgaria case studies

    Gelı̇şmekte olan ülkelerde matematı̇k başarısını etkı̇leyen faktörlerı̇n araştırılmasında makı̇ne öğrenme teknı̇klerı̇nı̇n kullanılması: Türkı̇ye, Meksı̇ka, Tayland ve Bulgarı̇stan örneğı̇

    TUBA ARPA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Yönetim Bilişim SistemleriKadir Has Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MAHMUT ÇAVUR

  5. PISA 2022 öğrenci anket verileri ile okuma başarısı ve matematik başarısının tahmin edilmesi

    Predicting reading achievement and mathematics achievement with PISA 2022 student survey data

    SEHER YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBartın Üniversitesi

    Bilişim Sistemleri ve Teknolojileri Ana Bilim Dalı

    PROF. DR. FATMA GİZEM KARAOĞLAN YILMAZ