Geri Dön

Exploring the effectiveness of different data cleaning techniques for improving data quality in machine learning

Makine öğreniminde veri kalitesini artırmak için farklı veri temizleme tekniklerinin etkinliğinin araştırılması

  1. Tez No: 850476
  2. Yazar: MOHAMMED HELAL ALI ALREYASHI
  3. Danışmanlar: PROF. DR. ALİ OKATAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: veri temizleme, veri etkinliği, veri teknikleri, veri iyileştirme, data cleaning, data effectiveness, data technics, data improvement
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Aydın Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka ve Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 44

Özet

Makine öğrenimi modelinin doğru ve güvenilir olması için kaliteli veri elde etmek esastır. Ancak, gerçek dünyada elde edilen veri kümeleri genellikle yanlış değerler, eksik veriler, aykırı değerler veya veri gürültüleri gibi ciddi sorunlar içerir. Bu durum, yanlış makine öğrenimi algoritmalarının üretilmesine yol açabilir. Bu araştırma, makine öğrenimi çalışmaları için veri kalitesini iyileştirmede farklı veri temizleme tekniklerinin etkinliğini araştırmaktadır. Araştırma, eksik değerlerin ele alınması, aykırı değer tespiti ve giderilmesi, veri normalizasyonu ve özellik ölçeklendirmesi gibi veri temizleme tekniklerinin farklı yollarını karşılaştırır ve bu tekniklerin performansını değerlendirir. Farklı veri kümelerini karşılaştırarak ve davranışlarını gözlemleyerek, araştırma her tekniğin veri kümeleri üzerindeki etkisini ve makine öğrenimi modelindeki sonraki etkisini analiz eder. Bu araştırmanın sonucu, veri bilimcilerin makine öğrenimi modeli için veri setleri hazırlarken daha iyi bir tasarım yapma sürecine katkıda bulunacaktır. Doğru veri temizleme tekniklerine adanarak, dünya makine öğrenimi modellerinin güvenilirliğini ve tutarlılığını artırabilir, bu da temelde farklı alanlarda karar verme sürecinin iyileştirilmesine yol açacaktır.

Özet (Çeviri)

Good quality data is an essential part for the purpose of reaching an accurate and trusted machine learning model , However the present gained datasets in the real world usually contains some serious issues like wrong values , missing data , outliers or data noises , which can lead to the problem of producing wrong machine learning algorithms . the research explore the effectiveness of different data cleaning techniques in improving data quality for machine learning works . the research compares and estimate the vary ways for data cleaning technics and their performance such as handling missing values, outlier detection and removal, data normalization, and feature scaling. Through comparing between different datasets and observing their behavior , the research analyses the effect of each technics in the datasets and the subsequent impact in the production in the machine learning model. The result of this research is going to contribute and assets data scientists in the process of making a better design when preparing datasets for a machine learning model . by dedicating the correct data cleaning technics , the world can improved the reliability and the consistency of a machine learning models which fundamentally will lead to the improvement of decision making in a different ranges

Benzer Tezler

  1. Yükseköğretim kurumlarındaki öğrenci terkini tahmin etmeye yönelik makine öğrenmesi modellerinin incelenmesi ve açıklanabilirliği

    Analysis and explainability of machine learning models for predicting student dropout in higher education

    ESRA SİLER KARABACAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  2. Ağ trafiğinde etkili olan özniteliklerin tespiti ve yapay sinir ağları ile trafiklerin izin tahmini

    Detection of features that are effective in network traffic and permission estimation of traffic with artifical neural network

    MUHAMMED ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN ESKİ

  3. Ortaöğretim dokuzuncu sınıf İngilizce dersinde okuma öncesi etkinliklerde sözcük bulutu kullanımının sözcük öğrenmeye etkisi

    The effect of using word cloud at pre-reading activities in the ninth grade English course on vocabulary learning

    AYŞE DAĞ GÜLCAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Eğitim ve ÖğretimKocaeli Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    YRD. DOÇ. BELGİN TANRIVERDİ

  4. Ortaokul yedinci sınıf İngilizce dersinde okuma öncesi etkinliklerde sözcük bulutu kullanımının kelime öğrenmeye etkisi

    The effect of word cloud on learning vocabulary at pre-reading activities in the seventh grade English course

    DENİZ YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Eğitim ve ÖğretimAfyon Kocatepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. MUSTAFA ERGÜN

  5. Experiences and reflections of first-year teachers in a professional development program based on Community of Inquiry framework

    Sorgulama Topluluğu modeli unsurlarına göre tasarlanmış aday dil öğretmenlerine yönelik bir mesleki gelişim programının tasarımı, uygulanması ve doğrulanması

    YEŞİM NALKESEN AKIN

    Doktora

    İngilizce

    İngilizce

    2023

    Eğitim ve ÖğretimBahçeşehir Üniversitesi

    Eğitim Ana Bilim Dalı

    PROF. DR. TUFAN ADIGÜZEL