Geri Dön

Derin öğrenme algoritmaları kullanarak öğrenci akademik performansının erken tahmini

Early prediction of student academic performance using deep learning algorithms

  1. Tez No: 947390
  2. Yazar: AHMET KALA
  3. Danışmanlar: PROF. DR. ORHAN TORKUL, DR. ÖĞR. ÜYESİ TUĞBA YILDIZ
  4. Tez Türü: Doktora
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Sakarya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 189

Özet

Eğitim, bireylerin yaşam kalitesini artıran ve sosyo-ekonomik kalkınmayı destekleyen temel bir süreçtir. Ancak akademik başarısızlık, yalnızca öğrencilerin mezuniyet süreçlerini geciktirmekle kalmaz, aynı zamanda bireysel ve kurumsal düzeyde verimlilik kaybına yol açar. Bu durum, özellikle risk altındaki öğrencilerin erken dönemde tespit edilmesini kritik bir gereklilik haline getirmektedir. Araştırmalar, bir sınıfın genel akademik başarısının, en çok düşük performans gösteren öğrencilerin durumundan etkilendiğini ortaya koymaktadır. Dolayısıyla, bu öğrencilerin gelişimi, eğitim süreçlerinin etkinliğinin değerlendirilmesinde önemli bir gösterge olarak kabul edilir. Bununla birlikte, yüksek başarısızlık oranları ve sonucunda ortaya çıkan ders tekrarı gereksinimi, öğrenci motivasyonunu olumsuz etkilemekte ve eğitim kaynaklarının verimsiz kullanımına neden olmaktadır. Bu nedenle, veriye dayalı proaktif stratejilerin geliştirilmesi hem eğitim kalitesinin yükseltilmesi hem de toplumsal kalkınmanın sağlanması açısından büyük önem taşımaktadır. Bu çalışma, akademik dönem başında öğrenci başarısını tahmin ederek potansiyel risk grubundaki bireyleri belirlemeyi ve eğitimcilere erken müdahale imkânı sunmayı amaçlayan yenilikçi bir hibrit model önermektedir. Modelin geliştirilmesinde, Derin Sinir Ağları (DNN) ile Parçacık Sürüsü Optimizasyonu (PSO) algoritması entegre edilmiştir. Derin sinir ağları, karmaşık ve çok boyutlu veri setlerinde yüksek doğruluklu öğrenme sağlayabilen güçlü bir yöntem olmakla birlikte, performansları hiperparametre optimizasyonunun etkinliğine bağlıdır. Bu noktada, PSO algoritması etkili bir optimizasyon aracı olarak devreye girmekte ve modelin tahmin başarısını önemli ölçüde artırmaktadır. Araştırma, bir devlet üniversitesinin mühendislik fakültesinde öğrenim gören 1268 öğrencinin verileri üzerinde gerçekleştirilmiştir. Veri seti, demografik özellikler, akademik performans göstergeleri ve lise ile yükseköğretim giriş sınavı sonuçları olmak üzere üç ana kategoride toplanmıştır. Toplamda 12 öngörücü değişken üniversite performansını yansıtırken, 50 değişken lise dönemindeki akademik becerileri temsil etmektedir. Başarı durumu, öğrencilerin belirli bir dersi geçme veya kalma durumuna göre“geçti”ve“kaldı”olarak sınıflandırılmıştır. Ayrıca çalışma öğrencilerin lise ve yükseköğretim giriş sınavı sonucu performanslarına dayalı olarak akademik başarılarını tahmin etmeyi, dönem içi performans verilerinin etkisini incelemeyi ve en etkili öznitelikleri belirlemeyi de amaçlamaktadır. Bu çalışmada, öğrencilerin akademik başarılarının erken dönemde tahmin edilebilmesi amacıyla sekiz temel aşamada çalışma gerçekleştirilmiştir. İlk aşamada, model eğitimi öncesinde veri setinde yer alan gereksiz, düşük bilgi değerine sahip veya yüksek derecede birbiriyle ilişkili değişkenlerin elenmesi amacıyla korelasyon temelli bir özellik seçimi yöntemi olan Pearson korelasyon analizi uygulanmıştır. Belirlenen 0.95 eşik değeri doğrultusunda birbirleriyle yüksek korelasyona sahip özellik çiftleri tespit edilmiş ve GPA ile düşük korelasyon gösteren bir özellik gereksiz olarak değerlendirilmiş ve veri setinden çıkarılarak özellik seçimi gerçekleştirilmiştir. Bu kapsamda,“Diploma Notu”,“Yerleştirme Puanı”,“TYT Puanı”,“SAY Puanı”,“TYT Başarı Sıralama Yüzdesi”ve“SAY Başarı Sıralama Yüzdesi”özellikleri analiz dışı bırakılmıştır. İkinci aşamada, bağımsız değişkenlerin GPA üzerindeki etkilerini değerlendirmek ve en yüksek tahmin gücüne sahip değişkenleri belirlemek amacıyla lojistik regresyon analizi uygulanmıştır. Bu analizle, modelin açıklayıcı gücünü en çok artıran öznitelikler istatistiksel olarak değerlendirilmiştir. GPA en güçlü etkiye sahip değişkenin, -0,811 B katsayısıyla negatif yönde etkili olan“Ders Tekrarı Sayısı”olduğu tespit edilmiştir. Bunun yanı sıra,“Hazırlık Programında Geçirilen Dönem Sayısı”,“Dersi Alan Öğrenci Sayısı”,“Ders Tekrarı Sayısı”,“Lise Başarı Puanı”ve“Fizik Doğru Sayısı”gibi öznitelikler %5 anlamlılık düzeyinde modelde istatistiksel olarak anlamlı bulunmuştur. Üçüncü analizde, DPH verileri (demografik bilgiler +akademik performans + lise ve yükseköğretim giriş sınavı sonuçları) kullanılarak, geliştirilen hibrit PSO-DNN modeli, geleneksel makine öğrenmesi ve klasik DNN yöntemleriyle dönem başında karşılaştırılmıştır. Yapılan deneyler, PSO-DNN modelinin en yüksek doğruluk (%63,3), F1 skoru (%56,1), kesinlik (%63,8) ve duyarlılık (%63,3) değerlerine ulaştığını göstermiştir. Özellikle“Kaldı”sınıfının tahmininde PSO-DNN modeli, daha yüksek doğruluk ve duyarlılık değerleri elde etmiştir. Sonuç olarak, PSO-DNN modeli, dönem başında öğrenci başarısını tahmin etmede genel performans açısından güçlü ve etkili bir yöntem olarak öne çıkmaktadır. Dördüncü aşamada, dönem başında veri gruplarının ayrı ayrı ve birlikte kullanıldığı veri kombinasyonlarının, öğrenci başarısını tahmin etme etkinliği incelenmiştir. En yüksek doğruluk değeri %65,4 ile önerilen PSO-DNN modeli ve P (akademik) veri grubunda elde edilmiştir. Önerilen model, DPH kombinasyonuyla %63,3 doğruluk, %56,1 F1 skoru, %63,8 kesinlik ve %63,3 duyarlılık değerleri elde etmiştir. Bu değerler, özellikle lise başarı puanları ve üniversiteye giriş sınav sonuçlarının tahmin gücünü artırdığını göstermektedir. Genel olarak PSO-DNN modeli, doğruluk açısından diğer modellerden daha iyi performans göstermiştir. Karşılaştırmalı olarak en yakın sonuçları Rasgele Orman modeli vermiştir; Karar Ağaçları ise en düşük başarıyı göstermiştir. Bu sonuçlar, karmaşık yapılı modellerin daha fazla değişkenle daha başarılı tahminler yapabildiğini göstermektedir. Beşinci analizde, ara sınav, kısa sınav, ödev ve proje çalışması gibi dönem içi değişkenler modele eklenerek, tahminlerin dönem başı, ara sınav öncesi ve final öncesi olmak üzere farklı zaman dilimlerinde değerlendirilmesi sağlanmıştır. En yüksek başarıyı dönem başında ve ara sınav öncesinde PSO-DNN modeli, final öncesinde ise RF modeli gerçekleştirmiştir. Final öncesinde tüm modellerin doğruluk, F1 skoru, kesinlik ve hatırlama değerlerinde önemli iyileşmeler kaydedilmiş, bu da daha fazla verinin tahmin performansını artırdığını göstermiştir. Altıncı analizde, modelin genelleştirilebilirliğini test etmek amacıyla, yaygın kullanılan xAPI-Edu-Data veri seti kullanılmıştır. Bu veri seti ile yapılan testlerde önerilen PSO-DNN modeli sürü boyutu, maksimum iterasyon ve gizli katman sayısı gibi belirli sınırlamalara rağmen en yüksek performans gösteren iki modele yakın diğer modellerden ise daha iyi doğruluk değeri elde etmiştir. Yedinci analizde ise SHAP (SHapley Additive exPlanations) ve LIME (Local Interpretable Model-agnostic Explanations) gibi açıklanabilir yapay zeka (XAI) teknikleri uygulanarak modelin karar mekanizması şeffaflaştırılmıştır. Bu analizler,modelin tahminlerinde en etkili olan öznitelikleri ortaya koymuş;“Dersi Alan Öğrenci Sayısı”,“Lise Başarı Puanı”,“Ders Tekrar Sayısı”ve“TYT Yerleştirme Puanı”gibi değişkenlerin etkili olduğu anlaşılmıştır. Son aşama olan duyarlılık analizinde XAI bulguları, t-testi ve ANOVA sonuçlarıyla karşılaştırılmış ve yüksek derecede tutarlılık göstererek modelin istatistiksel açıdan güvenilirliğini desteklemiştir. Yapılan analizler, modelin belirli özelliklere karşı yüksek duyarlılık gösterdiğini ortaya koymuştur. Özellikle sınıf mevcudunun az olmasının başarı üzerinde olumlu etki yarattığı, dengeli dağıtılmış ders yükünün akademik performansı artırdığı, hazırlık eğitiminin istatistiksel açıdan anlamlı faydalar sağladığı ve STEM alanlarındaki başarının genel akademik sonuçlara önemli katkı sunduğu gözlemlenmiştir. Çalışmanın sınırlılıkları arasında, tek bir üniversite ve dersle sınırlı olması, hiperparametre optimizasyonunda teknik kısıtlamalar ve hesaplama maliyetleri yer almaktadır. Gelecek çalışmalar için, modelin farklı eğitim kurumları ve disiplinlerde test edilmesi, optimizasyon tekniklerinin çeşitlendirilmesi, XAI yöntemlerinin derinleştirilmesi ve bulut tabanlı uygulamalarla yaygınlaştırılması önerilmektedir. Ayrıca, veri güvenliği ve gizliliğinin sağlanmasına yönelik çalışmaların artırılması, modelin pratik uygulamalarda daha etkin kullanılmasını sağlayacaktır. Sonuç olarak, bu çalışma, eğitim alanında veriye dayalı karar alma süreçlerine önemli katkılar sunmaktadır. Geliştirilen PSO-DNN modeli, öğrencilerin akademik performanslarını erken dönemde tahmin ederek, eğitimcilere ve politika yapıcılara rehberlik etme potansiyeli taşımaktadır. Modelin açıklanabilirliği ve şeffaflığı, eğitim ortamlarında yapay zekâ tabanlı sistemlere olan güveni artırabilir. Gelecekte, bu tür modellerin yaygınlaşmasıyla, kişiselleştirilmiş eğitim stratejilerinin geliştirilmesi ve öğrenci başarısının küresel ölçekte artırılması mümkün olacaktır.

Özet (Çeviri)

Education is a fundamental process that enhances individuals' quality of life and supports socio-economic development. However, academic failure not only delays students' graduation but also leads to productivity losses at both individual and institutional levels. This situation makes it critically necessary to identify at-risk students at an early stage. Research shows that the overall academic success of a class is most affected by the performance of low-achieving students. Therefore, the progress of these students is considered a key indicator in evaluating the effectiveness of educational processes. Moreover, high failure rates and the resulting need for course repetition negatively impact student motivation and lead to inefficient use of educational resources. For this reason, developing data-driven proactive strategies is of great importance in terms of improving educational quality and ensuring societal development. This study proposes an innovative hybrid model aimed at predicting student success at the beginning of the academic term and identifying individuals in potential risk groups, thereby offering educators the opportunity for early intervention. The model integrates Deep Neural Networks (DNN) with the Particle Swarm Optimization (PSO) algorithm. While DNNs are powerful methods capable of high-accuracy learning in complex and multidimensional datasets, their performance highly depends on effective hyperparameter optimization. At this point, the PSO algorithm serves as an efficient optimization tool and significantly enhances the model's predictive performance. The research was conducted using data from 1,268 students enrolled in the engineering faculty of a public university. The dataset is categorized into three main groups: demographic characteristics, academic performance indicators, and results from high school and higher education entrance exams. A total of 12 predictor variables represents university performance, while 50 variables reflect academic skills acquired during high school. Success status was classified as“pass”or“fail”based on students' ability to pass a specific course. Additionally, the study aims to predict academic success based on high school and entrance exam performance, evaluate the impact of in-term performance data, and identify the most influential attributes. The study was conducted in eight main stages to enable early prediction of students' academic performance. In the first stage, Pearson correlation analysis was applied as a correlation-based feature selection method to eliminate redundant, low-information, or highly interrelated variables from the dataset before model training. Based on a threshold of 0.95, highly correlated variable pairs were identified, and variables with low correlation to GPA were considered unnecessary and removed. Accordingly,“Diploma Grade”,“Placement Score”,“TYT Score”,“SAY Score”,“TYT Success Ranking Percentage”, and“SAY Success Ranking Percentage”were excluded from the analysis. In the second stage, logistic regression analysis was conducted to assess the impact of independent variables on GPA and to identify the most powerful predictors. Through this analysis, features that significantly increased the explanatory power of the model were evaluated statistically. The variable with the strongest impact on GPA was identified as“Number of Course Repeats”, which had a negative effect with a B coefficient of -0.811. Additionally, variables such as“Number of Semesters in Preparatory Program”,“Number of Students Taking the Course”,“Number of Course Repeats”,“High School Achievement Score”, and“Physics Correct”were found to be statistically significant at the 5% level. In the third analysis, using the DPH dataset (demographics + academic performance + entrance exam results), the proposed hybrid PSO-DNN model was compared with traditional machine learning and classic DNN methods at the beginning of the term. Experiments showed that the PSO-DNN model achieved the highest accuracy (63.3%), F1 score (56.1%), precision (63.8%), and recall (63.3%). Especially for the“fail”class, the PSO-DNN model yielded higher accuracy and recall. Thus, the PSO-DNN model stands out as a robust and effective approach for early prediction of student performance. In the fourth stage, the effectiveness of different data combinations—used separately and together—on predicting student success at the beginning of the term was examined. The highest accuracy of 65.4% was achieved using the academic (P) data group with the proposed PSO-DNN model. Using the full DPH combination, the model reached 63.3% accuracy, 56.1% F1 score, 63.8% precision, and 63.3% recall. These results indicate that high school grades and entrance exam scores significantly improve prediction accuracy. Overall, the PSO-DNN model outperformed other models in terms of accuracy. The closest results came from the Random Forest model, while Decision Trees showed the lowest performance. These findings highlight that complex model can make better predictions when using more variables. In the fifth analysis, in-term variables such as midterms, quizzes, assignments, and projects were added to the model to evaluate predictions at different times: start of term, before midterms, and before finals. The PSO-DNN model performed best at the start of term and before midterms, while the RF model performed best before finals. Notably, all models showed significant improvements in accuracy, F1 score, precision, and recall before finals, demonstrating that more data improves prediction performance. In the sixth analysis, the model's generalizability was tested using the widely used xAPI-Edu-Data dataset. Despite certain limitations such as swarm size, maximum iterations, and number of hidden layers, the PSO-DNN model achieved performance close to the top two models and better than others in terms of accuracy. In the seventh analysis, explainable artificial intelligence (XAI) techniques such as SHAP (SHapley Additive exPlanations) and LIME (Local Interpretable Model-agnostic Explanations) were applied to make the model's decision-making process transparent. These analyses identified the most influential features in predictions, including“Number of Students Taking the Course”,“High School Achievement Score”,“Number of Course Repeats”, and“TYT Placement Score”. In the final stage, a sensitivity analysis was conducted by comparing XAI findings with t-test and ANOVA results, which showed high consistency, supporting the model's statistical reliability. The analysis revealed that the model is highly sensitive to certain features. Specifically, smaller class sizes had a positive effect on success, axxix balanced course load improved academic performance, preparatory education had statistically significant benefits, and success in STEM subjects contributed significantly to overall academic outcomes. The study's limitations include being limited to one university and one course, technical constraints in hyperparameter optimization, and computational costs. For future work, testing the model in different institutions and disciplines, diversifying optimization techniques, deepening the use of XAI methods, and expanding with cloud-based applications are recommended. Additionally, enhancing data security and privacy will allow for more effective use of the model in practical applications. In conclusion, this study provides significant contributions to data-driven decision-making processes in education. The developed PSO-DNN model has the potential to guide educators and policymakers by predicting students' academic performance at an early stage. Its explainability and transparency can enhance trust in AI-based systems in educational environments. In the future, the widespread adoption of such models may enable the development of personalized education strategies and globally improve student success.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Modeling educational data with machine learning methods

    Eğitim verilerinin makine oğrenmesi algoritmaları kullanılarak modellenmesi

    AYŞE İLKNUR DİLEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür Üniversitesi

    Matematik ve Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET FATİH UÇAR

  3. Pandemi sürecinde uzaktan eğitimde senkron, asenkron ve hibrit yapılmış derslerde veri madenciliği ile öğrenci performansı analizi

    Student performance analysis with data mining in distance education synchronous, asynchronous and hybrid courses in the pandemic process

    MEHMET YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce Üniversitesi

    Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERDAR KIRIŞOĞLU

  4. Yeni nesil yapay zekâ teknolojisi üretken ön eğitimli dönüştürücü üzerine bir inceleme

    A review on the new generation technology artificial intelligence generative pre-trained transformer

    NAZİF AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN AYHAN ERDEM

  5. Derin öğrenme kullanılarak geleneksel Türk halk dansları figür tespiti: Harmandalı örneği

    Traditional turkish folk dance figure detection using deep learning: The case of Harmandalı

    ERDEM BÜYÜKGÖKOĞLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIsparta Uygulamalı Bilimler Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SİNAN UĞUZ