Eğitimde kayıp verilerin kümeleme analizine etkisi

Impact of missing data on cluster analysis in education

PDF İndir

Tez No: 932915
Yazar: FERHAN KORKMAZ
Danışmanlar: DOÇ. DR. ALPER SİNAN
Tez Türü: Yüksek Lisans
Konular: Eğitim ve Öğretim, İstatistik, Education and Training, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Akdeniz Üniversitesi
Enstitü: Eğitim Bilimleri Enstitüsü
Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
Sayfa Sayısı: 105

Özet

Çalışma yapılan araştırmada örneklemi oluşturan en az bir verinin elde edilemediği durumda kayıp veri sorunu ortaya çıkmaktadır. Kayıp veri oluşumu aşamasında veriyi elde etme şekli, zamanın yetersizliği, bilerek soruyu cevaplamama gibi nedenlerle kayıp veri sorunu meydana gelmiş olabilir. Yapılan araştırmaların neredeyse bu koşullarda tümünde kayıp veriler oluşabilmektedir. Oluşan bu kayıp(eksik) veriler araştırmanın sonucunu büyük oranda etkileyebilmektedir. Farklı istatistiksel yöntemlerle bu kayıp verilerin etkileri azaltılmaya çalışılmaktadır. Kayıp veri ile baş etme yöntemleri arasında veri silme, yerine atama yöntemleri en çok kullanılan yöntemlerdir. Yapılan çalışmada veri atama yöntemleri kullanılarak kümeleme analizi yapabilmek için veriler MEB (2023) ve TÜİK (2023) tarafından illere göre sınıflara ayrılmış şekilde yayımlanan verilerden elde edilmiştir. Veriler seçilirken yaşam endeksleri ve eğitim endeksleri tercih edilmiştir. Verilerin %8'i rastgele seçilerek kayıp veri seti elde edilmiştir. Kümeleme analizi yapılırken ilk olarak kayıp veri olmadan analiz yöntemleri kullanılmıştır. Kümeleme analizi yöntemlerinden gruplar içi ortalama bağıntı yöntemi, ward yöntemi, k-ortalama yöntemi ve iki adımlı kümeleme yöntemi kullanılmıştır. Uzaklık ölçüsü olarak Öklid uzaklığı tercih edilmiştir. Analizin yapılması aşamasında SPSS 22.0 programı kullanılmıştır. Kullanılan kümeleme analizi yöntemlerinde oluşan kümelerin değiştiği ve uç değerler oluştuğu görülmüştür. Kayıp veri oluşması durumunda uç değerlerden etkilenmediği için medyan atama yönteminin en çok tercih edilebilecek yöntem olduğu anlaşılmıştır. Diğer yöntemler uç değerlerden etkilendiği için kümelenme sonuçları farklılık göstermiştir. Elde edilen analiz sonuçları çalışmada yer almaktadır.

Özet (Çeviri)

In the research conducted, when at least one of the data forming the sample cannot be obtained, the problem of missing data arises. The issue of missing data may have occurred due to reasons such as the way data was obtained, insufficient time, or intentionally not answering the question. In almost all of the studies conducted under these conditions, missing data can occur. The resulting missing (incomplete) data can largely affect the outcome of the research. Different statistical methods are used to reduce the effects of these missing data. Among the methods of dealing with missing data, data deletion and imputation methods are the most commonly used methods. In the conducted study, data imputation methods were used to perform cluster analysis using data obtained from data published by the Ministry of National Education (2023) and the Turkish Statistical Institute (2023) classified by provinces During data selection, living indices and education indices were preferred. 8% of the data was randomly selected to obtain the missing data set. Initially, analysis methods without missing data were used during the clustering analysis. Among the cluster analysis methods, within-group mean correlation method, ward method, k-means method, and two-step clustering method were used. Euclidean distance was preferred as the distance measure. The SPSS 22.0 program was used during the analysis process. It was observed that the clusters changed and outliers occurred in the cluster analysis methods used. It was understood that the median imputation method is the most preferred method because it is not affected by outliers in case of missing data. Since other methods were affected by outliers, the clustering results showed variations. The results of the analysis are included in the study.

Benzer Tezler

Tez No
827860
Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
Tez No
722124
PISA 2018 Türkiye örnekleminde okuma okuryazarlık düzeylerinin farklı veri madenciliği sınıflandırma yöntemleri ile incelenmesi
Examination of reading literacy levels in PISA 2018 Turkey sample with different data mining classification methods
EMRAH BÜYÜKATAK
Doktora
Türkçe
2022
Eğitim ve Öğretim Hacettepe Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. DUYGU ANIL
Tez No
732696
Ortaokul 5. sınıf öğrencilerinin dinlediğini anlama başarısı ile dinlemeye yönelik tutum ve üstbilişsel farkındalıkları arasındaki ilişkiler
The relationship between listening comprehension achievement and listening attitude and metacognitive awareness of 5th grade secondary students
MENEKŞE BAĞDADİOĞLU
Yüksek Lisans
Türkçe
2022
Eğitim ve Öğretim Ankara Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖMER KUTLU
Tez No
516383
Spectral Clustering of Economic Data
Ekonomik Verilerin Spektral Kümeleme
FARAG HAMED ALI KUWIL
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Altınbaş Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OĞUZ BAYAT
Tez No
557624
Mimari tasarımda yapay zeka: Evrişimli yapay sinir ağlarının vaziyet planı tasarımında kullanımı
Artificial intelligence in architectural design: The use of convolutional neural networks in site plan design
MUSTAFA KEMAL KAYIŞ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Gayrimenkul Geliştirme Ana Bilim Dalı
PROF. DR. HAKAN YAMAN

Geri Dön