Machine learning algorithms implementation and evaluation on Apache Spark Pyspark
Apache Spark Pyspark üzerinde makine öğrenmesi algoritmalarının uygulanması ve değerlendirilmesi
- Tez No: 675114
- Danışmanlar: DR. ÖĞR. ÜYESİ TAMER UÇAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 63
Özet
Bu çalışmada Apache Spark Platformunda Python Programlama dili PySpark kullanılarak makine öğrenmesi sınıflandırma analizleri yapılmıştır. Uygulama üzerinde perakende sektöründen 1968 olay örneklemi, 8 değişken içeren bir data set kullanılmıştır aşamalarla incelenmiş olup bu aşamalar verinin analizler için ön hazırlığı, veri keşif analizi, makine öğrenmesinin uygulanması ve sonuçlarının değerlendirilmesidir. Bu projenin amacı perakende sektöründe iptal ve iade ürünlerden kaynaklanan maliyetler hakkında öncül bir tahminleme sağlamaktır. Bu önemli bir maliyet kalemi olup, bu maliyeti düşürecek aksiyonlar alınmaya çalışılmaktadır. Python programlama dili ve Apache Spark Platformu datanın görsellenmesi ve makine öğrenmesi için kütüphaneler barındırmaktadır. RDD imkânı vermesi, SQL ile yüksek uyumluluk göstermesi, Spark ve Python Data Frame'e olan desteği programın güçlü yönleridir. Bu çalışmada sınıflandırma analizi yapılmış olup 5 farklı algoritma denemiştir, bu algoritmalar logistic regression, decision tree, random forest, gradient boosted tree and naïve bayes olarak sıralanmıştır. Sonuçlar, tahmin başarısı ve ROC değerleri ile değerlendirilmiş, algoritmaların en iyi sonuçları vermesini sağlayan farklı parametreler kullanılmıştır.
Özet (Çeviri)
This study is conducted on Apache Spark in programming language Python which is called PySpark for the purpose of a classification analysis using machine learning algorithms. Using the application, a dataset of 1968 instances, 8 features and 1 label from retailer sector has been analyzed in stages, including data preparation, data exploration, machine learning algorithms implementation and prediction results evaluation. The purpose of this project is to give pre-information about financial and operational losses for retail companies stemming from cancelled and returned products. Companies try to pre-estimate and reduce this cost pillar in order to increase their financial status. Data set has Spark has data visualization and machine learning algorithms with available libraries, provide high-performance processing opportunities with RDD capability, have compliance with SQL as Spark. SQL and support for data frames for Spark and Python. The algorithms were used starting from Logistic Regression, Decision Tree, Random Forest, Gradient Boosted Tree and Naïve Bayes. Algorithms included a couple of parameters to increase the prediction capabilities in terms of Accuracy and ROC. Parameters available in algorithms change the execution times, while it improves the results for label prediction.
Benzer Tezler
- FLAGS framework and decentralized federated learning under device volatility
FLAGS platformu ve cihaz dalgalanması durumunda merkeziyetsiz federe öğrenme
AHNAF HANNAN LODHI
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZNUR ÖZKASAP
YRD. DOÇ. DR. BARIŞ AKGÜN
- Makine öğrenmesi tabanlı iç ortam sıcaklık kontrolü için bir simülatör yazılımı tasarımı
Design of a simulator software for machine learning-based indoor temperature control
AYDIN BOSTANCI
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. DEVRİM AKGÜN
- Elektrik pano yangınlarına karşı nesnelerin interneti destekli algılama sisteminin geliştirilmesi
Development of an internet of things supported detection system against electric panel fires
MUHAMMED FATİH PEKŞEN
Doktora
Türkçe
2024
Mühendislik BilimleriSakarya ÜniversitesiYangın ve Yangın Güvenliği Anabilim Dalı
PROF. DR. YILMAZ UYAROĞLU
- Yapay zekâ tabanlı elektrokardiyografi sinyali ile kan basıncı tespiti
AI-based blood pressure detection with electrocardiography signal
DERYA KANDAZ
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiSakarya ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED KÜRŞAD UÇAR
- Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi
Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method
İLKER İLTER
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri MühendisliğiSakarya ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SAFİYE SENCER