Makine öğrenmesi algoritmalarında kullanılan paralel hesaplama yaklaşımlarının zaman ve bellek performanslarının kıyaslanması
Comparison of time and memory performance of parallel computing approaches used in machine learning algorithms
- Tez No: 751962
- Danışmanlar: DOÇ. DR. ÇİĞDEM ACI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Mersin Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 61
Özet
Destek Vektör Makinesi (DVM) yöntemi, yüksek doğruluk sağladığı için popüler makine öğrenme algoritmalarından biridir. K En Yakın Komşu (K Nearest Neighbor, KNN) yöntemi de basitliği nedeniyle en çok kullanılan makine öğrenme algoritmalarından biridir. Ancak, çoğu makine öğrenimi algoritmasında olduğu gibi, DVM ve KNN algoritmalarının zaman ve bellek (Random Access Memory, RAM) açısından kaynak tüketimi, veri kümesi büyüdükçe doğrusal olarak artar. Bu çalışmada iki farklı paralel makine öğrenmesi yaklaşımı ele alınmıştır. İlk olarak, TUKNN ve GPU-SME-KNN algoritmalarının, performansları 520, 5110, 32.560 ve 319.797 örnek içeren veri kümeleri kullanılarak (yani, Diyabet, İnme Tahmini, Yetişkinler, Kalp Hastalığı) seri KNN algoritmasıyla karşılaştırılmıştır. Bu veri kümeleri üzerinde çalıştırılan algoritmaların sonuçlarına göre, sırasıyla TUKNN ve GPU-SME-KNN algoritmalarının seri KNN algoritmasından ortalama olarak 7,8 kat ve 506 kat daha hızlı olduğu gözlemlenmiştir. TUKNN'nin ortalama RAM tüketimi %1,19'dur. GPU-SME-KNN algoritmasının ortalama RAM tüketimi %5,1 oranında artmaktadır. İkinci olarak, ele alınan DVM algoritmasında da ağırlık maliyet hesaplamasını optimize etmek için, Sıralı Minimal Optimizasyon (SMO) ile Stokastik Gradyan İniş (Stochastic Gradient Descent, SGD) algoritmalarını birleştiren paralel hibrit bir algoritma önerilmiştir. Önerilen hibrit SVM-SMO-SGD algoritmasının performansı, Diyabet, İnme Tahmini, Yetişkinler, Kalp Hastalığı veri kümeleri kullanılarak klasik SMO ve Hesaplamalı Birleşik Cihaz Mimarisi (Compute Unified Device Architecture, CUDA) tabanlı yaklaşımlarla karşılaştırılmıştır. Sonuçlara göre seri SVM-SMO-SGD, klasik SMO algoritmasına göre zaman açısından 5,09 kat, RAM tüketimi açısından da 1,04 kat daha verimlidir. Paralel SVM-SMO-SGD algoritması ise zaman açısından klasik SMO algoritmasından 127,75 kat daha hızlıdır. Ayrıca RAM tüketiminde 1,9 kat daha verimlidir. Tüm algoritmaların genel doğruluğu, diyabet veri kümesinde %87, inme tahmini veri kümesinde %95, yetişkinler veri kümesinde %82 ve kalp hastalığı veri kümesinde %92'dir.
Özet (Çeviri)
The Support Vector Machine (SVM) method is one of the popular machine learning algorithms as it provides high accuracy. Due to its simplicity, the K Nearest Neighbor (KNN) method is also one of the most used machine learning algorithms. However, as with most machine learning algorithms, the resource consumption of SVM and KNN algorithms in terms of time, and Random Access Memory (RAM) increase linearly as the dataset grows. In this study, two different machine learning methods are discussed. First, the performances of TUKNN and GPU-SME-KNN algorithms are compared with the serial KNN algorithm using datasets containing 520, 5110, 32,560 and 319,797 samples (Diabetes, Stroke Prediction, Adults, Heart Disease). According to the results of the algorithms run on these datasets, it has been observed that the TUKNN and GPU-SME-KNN algorithms are on average 7.8 times and 506 times faster than the sequential KNN algorithm, respectively. TUKNN's average RAM consumption is 1.19%. Average RAM consumption of GPU-SME-KNN algorithm increases by 5.1%. In another discussed SVM algorithm, a parallel-hybrid algorithm combining Sequential Minimal Optimization (SMO) and Stochastic Gradient Descent (SGD) algorithms is proposed to optimize the calculation of weight costs. The performance of the proposed SVM-SMO-SGD algorithm was compared with classical SMO and Compute Unified Device Architecture (CUDA) based approaches using Diabetes, Stroke Prediction, Adults and Heart Disease. According to the results, sequential SVM-SMO-SGD is 5.09 times more efficient in terms of time and 1.04 times more efficient in RAM, than the classical SMO algorithm. The parallel SVM-SMO-SGD algorithm is 127.75 times faster than the classical SMO algorithm in terms of time. It is also 1.9 times more efficient in RAM consumption. The overall accuracy of all algorithms is 87% in the diabetes dataset, 95% in the healthcare stroke prediction dataset, 82% in the adults dataset, and 92% in the heart disease dataset.
Benzer Tezler
- Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
- Development of application specific transport triggered processors for post-quantum cryptography algorithms
Post-kuantum kriptografi algoritmaları için uygulamaya özel taşıma tetiklemeli işlemcilerin geliştirilmesi
LATİF AKÇAY
Doktora
İngilizce
2022
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. SIDDIKA BERNA ÖRS YALÇIN
- Using co-training to empower active learning
Aktif öğrenmeyi güçlendirmek için eş-öğrenme kullanılması
PAYAM VAKILZADEH AZAD
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YUSUF YASLAN
- Text categorization based on semantic similarity with word2vector
Word2vector ile semantik benzerliğe dayanan metin kategorizasyonu
ATHER ABDULRAHEM MOHAMMEDSAED ALSAMURAI
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR
- Konumlandırma ve haritalama algoritmalarında makine öğrenmesi ve parçacık filtrelerinin kullanılması
Localization and mapping algorithms using machine learning and particle filters
HALİT ÖRENBAŞ
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHARREM MERCİMEK