Modeling educational data with machine learning methods
Eğitim verilerinin makine oğrenmesi algoritmaları kullanılarak modellenmesi
- Tez No: 737877
- Danışmanlar: DR. ÖĞR. ÜYESİ MEHMET FATİH UÇAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
- Anahtar Kelimeler: Makine ̈Ögrenmesi, Derin ̈Öğrenme, Yapay zeka, Yapay sinir a ̆gları, Çoklu Lineer regresyon, Polinomsal regresyon, Lojistik regresyon, Lasso and Ridge regresyonları, Karar a ̆gacı, Rastgele Orman, Destek VektÖr Makinaları, En yakın K kom ̧suları, Yapay sinir agları, K ortalama algoritmaları, Topluluk ögrenmesi, Machine Learning, Deep Learning, Artificial intelligence, Artificial Neural Networks, Multiple linear regression Polynomial regression, Logistic regression, Lasso and Ridge regressions, Decision tree, Random Forest, Support Vector Machine, Artifical Neural Network, Bagging, XgBoost, AdaBoost
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Kültür Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Matematik ve Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Matematik ve Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 852
Özet
Çalışmanın amacı Ülkemizde akademik basarının ̈onemi her gecen gün artmakla birlikte akademik basarıyı etkileyen faktörler ̧cesitlilik göstermektedir. Bu cesitlilik; farklı alanlarda, farklı faktörlerle olmakla birlikte bu değişkenlerin bir arada değerlendirilmesinin ve bunun sonucunda tahmin algoritmaları kullanılarak akademik başarıyı yordayan değişkenlerin kendi içlerinde birbir- lerini etkileme ve hedef değişken olan akademik başarıyı etkileme gücü problemin konusunu oluşturmuştur. Bu ̧calışmada amaç ; Lise ̈öğrencilerinde akademik başarıyı etkileyen de- mografik, sosyoekonomik, tutum, sosyal aktivite, motivasyon, sağlık ve spor, akademik başarı kategorilerinde yer alan anket soruları yardımı ile akademik başarının calışmanın büyük coğunluğunda hedef değişken olarak yer alması ve bu faktörlerin akademik başarı hedef değişkenini etkileme derecesinin tespit edilip hangi makine ̈oğrenmesi modellerinin bu gücü anlamlı bir sekilde yorumlayabildiği değerlendirilmesi amaçlanarak bu ̧calışmanın sonu- cunda akademik başarıyı etkileyen faktörlerin ve etkileme derecelerinin belirlenerek eğitim sistemine, ̈ozellikle ̈oğrenciye, katkı getirmesi amaçlanmışır. Araştırma Soruları Akademik başarıyı etkilediği varsayılan faktörler olan demografik, sosyoekonomik, tutum, motivasyon, sosyal aktivite, sağlık ve spor kategorisinde yer alan soruların kendi kategorisi içerisinde her birinin akademik başarıyı etkileme gücü, etkileme derecesi nedir? Akademik başarıyı etkileyen faktörlerin birbirlerini etkileme derecelerini hesaplayınız? Denetimli ̈oğrenme modellerinden olan Regresyon ̧ce ̧sitlerinden Multilineer Regresyon, Ridge ve Lasso regresyon- larının başarı oranları ve değerlendirilmesi nedir? Denetimli ̈Öğrenme modellerinden Sınıflandırma algoritması modellerinden olan Karar ağacı, Rastgele orman, En yakın Kom ̧sular, Destek vektör makinaları algoritmalarından hangileri başarılıdır, başarı oranları nelerdir, değerlendirilmesi nedir? Kolektif oğrenme modellerinin başarı oranları nelerdir, değerlendirilmesi nedir? Derin ̈Öğrenme modellerinden olan Yapay sinir ağları modelini değerlendiriniz. Akademik başarının artırılmasına yönelik ̧calışmalar her geçen gün artmakla birlikte teknolojinin gelişmesi ile birlikte bilgisayar bilimleri, akademik başarıyı etkileyen faktörlerin değerlendirilmesinde büyük katkılar sağlamaktadır. Makine ̈oğrenmesi algoritmaları kul- lanılarak eğitim verilerinin modellendirilmesi ve veri madenciliği ve Yapay zekanın birleşimiyle verilerin sınıflandırma, tahmin ve kümeleme ̧calışmaları yapılmaktadır. Çalışmaların ulusal ve uluslararası düzeyde sürekli gelişerek artması bu konudaki akademik araştırmaların niteli ve niceligini geliştirerek bilgiye kolay ulaşılabilinmesine de katkıda bu- lunmuştur. Bu ̧calışma yapılırken Ulusal tez merkezi, uluslararası düzeydeki tezler, ̧ceşitli branşlarda olmak ̧sartıyla makaleler (ozellikle sosyal bilimlerdeki makaleler ̧cok fazlasıyla taranmıstır.).Dergide yayınlanan makaleler, dergi k ̈o ̧se yazıları incelenmiştir. Kütüphane zi- yaretleri yapılarak kaynaklara direkt ula ̧sım sağlanılmakla birlikte online yayınlar ve online makalelere, ̧cevrimdışı verilere uzaktan eğitim kapsamında erisim sağlanılmıştır. Konu ile ilgili adı gecen sozcukler detaylı bir sekilde incelenmistir. Aşağıda incelenen tezler arasında konu kapsamı, icerik, kullanılan algoritmalar açısından bu ̧calışmaya benzer 3 calışmadan bahsedilmistir. Turkiye'de Yalova ilinde 3 farklı ortaokulda uygulanan anket sonucunda ̈oğrencilere demografik, sosyaekonomik, sağlık, spor, sosyal, aktivite, not başarı durumları ile ilgili sorular yöneltilmiş. Türkçe, Matematik ve dönem sonu not ortalamaları hedef değişken alınarak sınıflandırma ve regresyon kullanılarak tahmin algoritmaları sonucunda yordama gücü ̈oznitelik se ̧ciminin de uygulanması ile birlikte anlamlı sonuçlar elde edilmiştir. (Makine Ögrenmesi yöntemleri ̇ile Akademik Başarının Tahmin Edilmesi Murat G ̈OK1, * 1Yalova Universitesi, Muhendislik Fak ̈ultesi, Bilgisayar Mühendisliği Bölümü, 77100, YALOVA) Portekizde, 2005 2006 yılları arasında, iki devlet okulunda yapılan arastırmada ̈ogrenci dagılımı 9 yıllık temek egitim sonrasındaki gruptur. Matematik ve Portekizce notları ̈ulkedeki egitim sistemleri 3 asamada de ̆gerlendirilmi ̧s olup G1,G2,G3 olarak isimlendirilmi ̧stir.G3 final notudur. Bu degiskenler hedef degisken olmakla birlikte Karar agacları ,Rastgele Orman ,ya- pay sinir agları ve Destek Faktor makinaları olmak ̈uzere farklı sınıflandırma algoritmaları kullanılmı ̧s tahmin yapılmı ̧stır. ̈Ozellikler arasında kullanılan algoritmalarla anlamlı tah- minler ̧cıkarılabilmekle birlikte daha az etkileyen degiskenlerin var olduguda gozlenmistir. Ayrıca ANN ve SVM y ̈ontemlerinin gurultulu girdilere, aykırı degerlere degiskenlerine karsı daha hassas yontemler oldukları gozlenmistir. Incelenen ̈ucuncu ̧calısma Kaggle platformundan hazır data kullanmıs ve Karar agacı, Rastgele orman ile sadece Lojistik regresyon kullanarak tahmin ̧calısmaları yapmıstır. Bu calısmada 395 ve 245 ̈ogrenci sayıları olmak ̈uzere iki farklı veri seti kullanılmıstır. Tum ozellikler bu veri seti icin aynıdır. En iyi dogruluk oranı Karar Agacı algoritmasına aittir. Data setleri ayrı ayrı degerlendirilmekle birlikte 649 ̈ogrenci total olarak da degerlendirilmi ̧s.3 farklı veri seti seti kullanıldıgı zaman ise en fazla sayıda ̈ogrenci sayısıyla en yuksek dogruluk degeri yine Karar agacına aittir. Yontem Bu ̧calısmada ̈ogrenmeyi etkileyen faktorler farklı kategorilerde olmak kosulu ile ayrıntılı bir ̧sekilde acıklanmıstır. Makine ̈ogrenme modellerinden Denetimli, Denetimsiz, ̈ogrenme kavramları a ̧cıklanmı ̧stır. Makine ̈ogrenmesi Denetimli ̈ogrenme modellerinde sınıflandırma algoritmaları olan Karar A ̆gacı,Rassal Orman,K-en yakın komsular,Lojistik regresyon ,Destek vektor makinaları,Regresyon algoritmaları olan Multilineer regresyon ,Ridge ve Lasso re- gresyonları ,Kolektif ̈ogrenme modelleri ve Derin ̈ogrenme modellerinden yapay sinir agları modelleri acıklanmıstır Kaggle'dan edinilen veri ilk ̈once kullanılabilir olacak ̧sekilde hazır hale getirilmistir. Makine ̈ogrenme algoritmaları ile Denetimli ̈ogrenme modellerinden olan Sınıflandırma, Re- gresyon,Kolektif ̈ogrenme modelleri uygulanmıs ve basarılı sonuclar elde edilmistir. De- rin ̈ogrenme modeli olan Yapay Sinir Agları modelleri veri setine uygulanmıstır. Tahmin, sınıflandırma ve k ̈umeleme ̧calı ̧smaları sonucunda model performansı sınıflandırma algo- ritmaları i ̧cin do ̆gruluk de ̆gerleri ve ̧ce ̧sitleri, Roc e ̆grisi, karma ̧sıklık matrisi kullanılarak degerlendirilmistir. Regresyon modelleri olan Multilineer regresyon, Ridge ve Lasso re- gresyon modelleri egitim ve test seti sonu ̧clarına g ̈ore de ̆gerlendirildi ̆ginde sonu ̧c de ̆gerlerinin aynı oldugu gozlemekle birlikte Ortalama kareler hata katsayısına g ̈ore de ̆gerlendirildi ̆ginde en iyi ̧calısan regresyon modelinin Ridge Regresyon oldu ̆gu kararına varılmı ̧stır. . Derin ogrenme algoritması olan Yapay sinir ag modelinde perceptron kulanılarak basarılı bir sonuc elde edilmistir . Sonu ̧c ve De ̆gerlendirme: Regresyon modelleri kendi i ̧cerisinde, sınıflandırma model- leri kendi i ̧cerisinde de ̆gerlendirilerek en iyi performansla ̧calı ̧san modeller de ̆gerlendirildi ̆ginde; Regresyon modelleri i ̧cerisinde Multilineer Regresyon, Lasso Regresyon ,Ridge Regresyon modelllerinin e ̆gitim ve test sonu ̧cları (her ̈u ̧c ̈un ̈un de aynı ) sırasıı ile 0.87 ve 0.77 dir. Orta- lama kareler hata katsayısı de ̆gerleri incelendi ̆ginde i ̧cerisinde Multilineer Regresyon 6.40, Ridge Regresyon 6.41, Lasso Regresyon 6.39 ortalama kareler hata katsayısına sahiptir. Regresyon modellerinde de ̆gerlendirme yapıldı ̆gında di ̆gerlerinden a ̧cık ara fark olmamak uzere skorlar de ̆gerlerine bakılarak en iyi performansla ̧calısan sınıflandırma modeli Lasso Regresyon olmu ̧stur. Sınıflandırma modelleri kendi iclerinde degerlendirildiginde; Karar Agacı algoritması degerlendirildiginde Dogruluk degeri : 0.89 Roc egrisi altında kalan alan degeri :0.97 Rassal Orman algoritması degerlendirildiginde Dogruluk degeri : 0.91 Roc egrisi altında kalan alan degeri :0.97 Destek Vek ̈or Makinası algoritması degerlendirildiginde Dogruluk degeri : 0.92 Roc egrisi altında kalan alan degeri :0.97 XgBoost algoritması degerlendirildiginde Dogruluk degeri : 0.90 Roc egrisi altında kalan alan degeri :0.97 AdaBoost algoritması degerlendirildiginde Dogruluk degeri : 0.86 Roc egrisi altında kalan alan degeri :0.95 Bagging algoritması degerlendirildiginde Dogruluk değeri : 0.92 Roc egrisi altında kalan alan degeri :0.97 Lojistik regresyon algoritması degerlendirildiginde Dogruluk degeri : 0.94 Roc egrisi altında kalan alan degeri : 0.97 K- En yakın komsular algoritması degerlendirildiginde Dogruluk degeri : 0.80 Roc egrisi altında kalan alan degeri :0.84 sonuclarına ulasılmıstır. Yapay Sinir Agları algoritması degerlendirildiginde Dogruluk degeri : 0.94 Roc egrisi altında kalan alan degeri :0.89 Bu ̧calısmanın sonunda ; T ̈urkiye'de farklı okul turleri, farklı sınıf ̈uzeyleri, farklı bolgel- erden olusan genis bir ̈orneklemle ̈ogrenmeyi etkileyen faktörler farklı kategorilerde ve genis bir ̧sekilde yer almak ̧sartı ile , ̈ogrenmeyi etkileyen faktörlerin basarılı algoritmalar ve mod- eller ile birlikte toplanan veri setine uygulanması ve bu calışmada anlamlı sonuçlar veren gelistirdigimiz model ve algoritmaları uygulayarak ̈ulkemizde egitime katkı sağlamaktır.
Özet (Çeviri)
In our country, the effect of the academic success of the student, especially in the secondary education period, on the stage of choosing the profession he will have in the future and on the academic career goal is an undeniable reality. Academic success is affected not only by the data belonging to the academy, but also by many different categories. It is affected by many factors, especially methodological, and this diversity increases with individual differences. Regression and Classification from supervised learning models and Clustering algorithms from unsupervised learning models were applied to the data set. Multiple linear regression, polynomial regression, Lasso and Ridge regressions,Decision Tree, Random Forest, Support Vector Regression as regression methods, Decision Tree, Random Forest, Support Vector Machine, Logistic regression, K Nearest Neighbors methods were used as classification methods. As Clustering methods we are used K means algorithms, hierarchical method as unsupervised learning methods. In addition Artifical Neural Network, a deep learning algorithm, were applied to the data set. In the study, these factors and sub-factors were evaluated categorically and machine learning was used. Various determinations were made with estimation algorithms by establishing relations that predict the academic achievement target variable . By evaluating the data results, it is aimed to determine which factors affecting success are significant according to the sample group studied, which variables affect success individually and categorically, and the degree of influence, and as a result, it is aimed to contribute to education.
Benzer Tezler
- Makine öğrenmesi yöntemleri ve eğitim verisi üzerine bir uygulama: uluslararası matematik ve fen eğilimleri araştırması 2015 türkiye örneği
Machine learning methods and an application on educational data: the trends in international mathematics and science study 2015 Turkey case
ENES FİLİZ
- İmalat sistemlerinin tasarlanması ve öncelik kurallarının belirlenmesinde yapay sinir ağlarının kullanılması
Başlık çevirisi yok
TARIK ÇAKAR
Doktora
Türkçe
1997
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. AYHAN TORAMAN
- Yapay zekâya dayalı anlamsal video işleme yöntemlerinin tıpta kullanılabilirliğinin araştırılması
Investigation of usability of artificial intelligence semantic video processing methods in medicine
HASAN UCUZAL
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİnönü ÜniversitesiBiyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMEK GÜLDOĞAN
- Lise giriş sınavında öğrenci başarılarının makine öğrenmesi teknikleri ile analizi
Analysis of student achievement in high school entrance exam with machine learning techniques
MEHMET ŞENLİGİL
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin ÜniversitesiElektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SELİM BUYRUKOĞLU
- Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders
Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi
AKRAM M.M. RADWAN
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE