Geri Dön

Machine learning algorithms implementation and evaluation on Apache Spark Pyspark

Apache Spark Pyspark üzerinde makine öğrenmesi algoritmalarının uygulanması ve değerlendirilmesi

  1. Tez No: 675114
  2. Yazar: MERT İNANIR
  3. Danışmanlar: DR. ÖĞR. ÜYESİ TAMER UÇAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

Bu çalışmada Apache Spark Platformunda Python Programlama dili PySpark kullanılarak makine öğrenmesi sınıflandırma analizleri yapılmıştır. Uygulama üzerinde perakende sektöründen 1968 olay örneklemi, 8 değişken içeren bir data set kullanılmıştır aşamalarla incelenmiş olup bu aşamalar verinin analizler için ön hazırlığı, veri keşif analizi, makine öğrenmesinin uygulanması ve sonuçlarının değerlendirilmesidir. Bu projenin amacı perakende sektöründe iptal ve iade ürünlerden kaynaklanan maliyetler hakkında öncül bir tahminleme sağlamaktır. Bu önemli bir maliyet kalemi olup, bu maliyeti düşürecek aksiyonlar alınmaya çalışılmaktadır. Python programlama dili ve Apache Spark Platformu datanın görsellenmesi ve makine öğrenmesi için kütüphaneler barındırmaktadır. RDD imkânı vermesi, SQL ile yüksek uyumluluk göstermesi, Spark ve Python Data Frame'e olan desteği programın güçlü yönleridir. Bu çalışmada sınıflandırma analizi yapılmış olup 5 farklı algoritma denemiştir, bu algoritmalar logistic regression, decision tree, random forest, gradient boosted tree and naïve bayes olarak sıralanmıştır. Sonuçlar, tahmin başarısı ve ROC değerleri ile değerlendirilmiş, algoritmaların en iyi sonuçları vermesini sağlayan farklı parametreler kullanılmıştır.

Özet (Çeviri)

This study is conducted on Apache Spark in programming language Python which is called PySpark for the purpose of a classification analysis using machine learning algorithms. Using the application, a dataset of 1968 instances, 8 features and 1 label from retailer sector has been analyzed in stages, including data preparation, data exploration, machine learning algorithms implementation and prediction results evaluation. The purpose of this project is to give pre-information about financial and operational losses for retail companies stemming from cancelled and returned products. Companies try to pre-estimate and reduce this cost pillar in order to increase their financial status. Data set has Spark has data visualization and machine learning algorithms with available libraries, provide high-performance processing opportunities with RDD capability, have compliance with SQL as Spark. SQL and support for data frames for Spark and Python. The algorithms were used starting from Logistic Regression, Decision Tree, Random Forest, Gradient Boosted Tree and Naïve Bayes. Algorithms included a couple of parameters to increase the prediction capabilities in terms of Accuracy and ROC. Parameters available in algorithms change the execution times, while it improves the results for label prediction.

Benzer Tezler

  1. FLAGS framework and decentralized federated learning under device volatility

    FLAGS platformu ve cihaz dalgalanması durumunda merkeziyetsiz federe öğrenme

    AHNAF HANNAN LODHI

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZNUR ÖZKASAP

    YRD. DOÇ. DR. BARIŞ AKGÜN

  2. Makine öğrenmesi tabanlı iç ortam sıcaklık kontrolü için bir simülatör yazılımı tasarımı

    Design of a simulator software for machine learning-based indoor temperature control

    AYDIN BOSTANCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. DEVRİM AKGÜN

  3. Elektrik pano yangınlarına karşı nesnelerin interneti destekli algılama sisteminin geliştirilmesi

    Development of an internet of things supported detection system against electric panel fires

    MUHAMMED FATİH PEKŞEN

    Doktora

    Türkçe

    Türkçe

    2024

    Mühendislik BilimleriSakarya Üniversitesi

    Yangın ve Yangın Güvenliği Anabilim Dalı

    PROF. DR. YILMAZ UYAROĞLU

  4. Yapay zekâ tabanlı elektrokardiyografi sinyali ile kan basıncı tespiti

    AI-based blood pressure detection with electrocardiography signal

    DERYA KANDAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik MühendisliğiSakarya Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUHAMMED KÜRŞAD UÇAR

  5. Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi

    Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method

    İLKER İLTER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SAFİYE SENCER