PISA başarısını tahmin etmede kullanılan veri madenciliği yöntemlerinin incelenmesi
Investigation of data mining methods used for estimating PISA success
- Tez No: 515513
- Danışmanlar: DOÇ. DR. NURİ DOĞAN
- Tez Türü: Doktora
- Konular: Eğitim ve Öğretim, Education and Training
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Eğitim Bilimleri Enstitüsü
- Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
- Bilim Dalı: Ölçme ve Değerlendirme Bilim Dalı
- Sayfa Sayısı: 162
Özet
Bu çalışmada veri madenciliği ve makine öğrenme yaklaşımının eğitim alanında kullanılması ve bu algoritmalara dayalı olarak elde edilen sonuçların güvenirlik ve geçerlik değerlerinin ne düzeyde olduğu belirlenmeye çalışılmıştır. PISA 2015 Türkiye ortalamasına göre öğrencilerin başarılı ve başarısız olarak sınıflandığı çalışmada farklı öğrenme yöntemleri kullanılarak fen okuryazarlığı bakımından öğrencilerin hangi sınıfta yer alacağı tahmin edilmiş ve bu aşamada elde edilen sonuçların güvenirlik ve geçerlik ölçütleri incelenmiştir. Bunun yanında WEKA programının sahip olduğu tüm algoritma ve yöntemler farklı koşullar altında karşılaştırılarak hangi makine öğrenme yönteminin hangi durumlarda avantajlı veya dezavantajlı olduğu belirlenmiştir. Araştırmada elde edilen sonuçlar doğrultusunda PISA Fen okuryazarlığını yordamak amacıyla kullanılacak değişken sayısının 29 olması sebebiyle ilk olarak farklı algoritmalar yardımıyla en iyi özellikler belirlenmeye çalışılmıştır ve 10 katlı çapraz geçerleme yöntemiyle her katmanda başarılı olan 12 değişken yardımıyla PISA 2015 fen okuryazarlığı başarıları tahmin edilmiştir. Sonrasında çalışma kapsamında ele alınan 8 farklı öğrenme yönteminden doğru sınıflama sayısı, doğru sınıflama oranı, kappa istatistiği, karekök hata ve göreceli karekök hata değerleri bakımından en iyi sonuçların Random Forest yöntemiyle elde edilirken Ridge lojistik regresyon, Lojistik model ve Hoefding tree yöntemlerinin en başarılı diğer yöntemler olduğu belirlenmiştir. Çapraz geçerleme yöntemi kullanılmadan tüm veri setinin eğitim ve test veri seti olarak ayrılması durumunda Lojistik model, Random Forest ve Ridge Regresyon yöntemlerinin farklı büyüklükteki test verilerinde en düşük hata değerlerini verirken Random Tree ve J.48 yönteminlerinin en yüksek hata değerlerine sahip olduğu belirlenmiştir. Ridge regresyon, Random forest ve Lojistik model tarafından elde edilen hata değerlerinin de farklı yüzdelikteki test verilerinde oldukça tutarlı olduğu sonucuna ulaşılmıştır. Farklı yöntemler yardımıyla elde edilen ölçme sonuçlarının veri setini test ve eğitim verisi olarak ayırmayıp aynı veri seti üzerinden hem öğrenme yöntemini eğitip hem de test ettiğimiz taktirde özellikle Random tree ve J.48 öğrenme yöntemlerinin gerçek performanslarından daha yüksek doğru sınıflama oranına sahip oldukları belirlenmiştir.
Özet (Çeviri)
In this study, it was tried to determine the use of data mining and machine learning approach in the field of education and the level of reliability and validity of the results obtained based on these algorithms. In the study that students were classified as successful and unsuccessful according to the Turkey's PISA average, it was predicted that in which class the students will take place in terms of science literacy using different learning methods, and the reliability and validity criteria of the results obtained at this stage were examined. Besides, all the algorithms and methods of Weka program were compared under different conditions, and it was determined that which learning method is advantageous or disadvantageous in which situations. In the study, the best results in terms of correct classification number, correct classification ratio, kappa statistic, square root error and relative square root error were obtained from Random Forest method, and It was identified that Ridge logistic regression, logistic model and Hoefding tree methods are the most successful other methods It was also determined that in case the whole data set is separated as training and test data set without using the cross validation method, the Logistic model, Random Forest and Ridge Regression methods gave the lowest error values in test data with different size, and Random Tree and J.48 methods have the highest error values. It was concluded that the error values obtained by the Ridge regression, Random forest and Logistic model were quite consistent in test data.in different percentile. It was determined that if we do not allocate the data set of the measurement results obtained by different methods as test and training data and we train and test the learning method through the same data set, especially Random tree and J.48 learning methods have a higher correct classification rate than real performances.
Benzer Tezler
- PISA 2022 Türkiye örnekleminde bilgi ve iletişim teknolojisi kaynakları kullanımının okuma performansını yordama durumunun veri madenciliği teknikleriyle incelenmesi
Examining the predictive status of information and communication technology resources use on reading performance in PISA 2022 Turkey sample with data mining techniques
BARIŞ ŞAYBAK
Yüksek Lisans
Türkçe
2024
Eğitim ve ÖğretimBursa Uludağ ÜniversitesiBilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
DOÇ. DR. SALİH BİRİŞÇİ
- PİSA başarısını tahmin etmede genetik algoritma yaklaşımı
Genetic algorithm approach to estimate PISA success
YASEMİN YETKİN
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimVan Yüzüncü Yıl ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜROL ZIRHLIOĞLU
- PISA 2003'de genel lise öğrencileri ve Kanuni Lisesi öğrencilerinin matematik başarısını etkileyen faktörlerin incelenmesi
Analysis of factors which effects the mathematics achievements in PISA 2003 high school students and Kanuni High School students
FATMA ÖZDEMİR
Yüksek Lisans
Türkçe
2010
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Bölümü
DOÇ. DR. SELAHATTİN GELBAL
- A comparative analysis of machine learning techniques to explore factors affecting mathematics success in developing countries: Turkey, Mexico, Thailand and Bulgaria case studies
Gelı̇şmekte olan ülkelerde matematı̇k başarısını etkı̇leyen faktörlerı̇n araştırılmasında makı̇ne öğrenme teknı̇klerı̇nı̇n kullanılması: Türkı̇ye, Meksı̇ka, Tayland ve Bulgarı̇stan örneğı̇
TUBA ARPA
Yüksek Lisans
İngilizce
2023
Yönetim Bilişim SistemleriKadir Has ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MAHMUT ÇAVUR
- PISA 2022 öğrenci anket verileri ile okuma başarısı ve matematik başarısının tahmin edilmesi
Predicting reading achievement and mathematics achievement with PISA 2022 student survey data
SEHER YILMAZ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBartın ÜniversitesiBilişim Sistemleri ve Teknolojileri Ana Bilim Dalı
PROF. DR. FATMA GİZEM KARAOĞLAN YILMAZ