Geri Dön

Paralel programlama ve dağıtık hesaplama sıstemleri kullanarak büyük veri analitiği

Big data analitics using parallel programming and distributed computing systems

  1. Tez No: 641158
  2. Yazar: NAPO TIYADJA TCHEDRE
  3. Danışmanlar: PROF. DR. HAMZA EROL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Büyük veri, Dağıtık sistem, Paralel programlama, Makine öğrenmesi, Python dili, Big data, Distributed system, Parallel programming, Machine learning, Python language
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Mersin Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 185

Özet

Bu tez çalışması üç aşamalı katmandan oluşmaktadır. Birinci katmanda bilgisayar sisteminin işlemcisindeki çekirdekler dağıtık sistem yapısı olarak alınır ve paralel programlama kullanarak büyük veri analitiğini gerçekleştirme hızı arttırılır. İkinci katmanda büyük veri analitiğini gerçekleştirmek için bir yazılım hesaplama ortamı oluşturmak için bilgisayar mimarisine sistem yazılımı yüklenir. Üçüncü katmanda sistem yazılımı yüklenen bilgisayar mimarisi üzerinde büyük veri analitiği gerçekleştirilir. Büyük veri analitiği için veri seti eğitim seti ve test seti olarak iki parçaya bölünür. Araştırmada Excel ile oluşturulan csv formatında veri kümeleri kullanılır. Herhangi bir makine öğrenme modelinde yapılması gereken işlem veri kümesini eğitim seti ve test seti olacak şekilde iki farklı sete ayırmaktır. Bunun nedeni makinenin işlemi öğrenmesine odaklanılmasıdır. Burada tahmin etme işlemi veya makine öğrenme işlemi hedeflerini gerçekleştirmek için algoritmanın verilerden öğrenmesidir. Makine öğrenme modeli, veri kümesindeki bazı korelasyonları anlayarak veri kümesinden bir şeyler yapmayı öğrenecek ve veri kümesinde çok fazla şey öğrenen makine modeli oluşturacaktır. Makine öğrenmesi çok fazla korelasyon içeren veri setini işleyerek performansı arttırmak için farklı korelasyona sahip yeni bir veri kümesine dönüştürecektir. Makine öğrenmesinin bir veri kümesinde oluşturulmasından sonra makine öğrenme modelinin oluşturduğu veri kümesinden biraz farklı olacak yeni bir veri kümesi test edilir. Bu nedenle, makine öğrenme modelini kullanarak oluşturulan bir eğitim seti ve makine öğrenme modelinin performansını test ettiğimiz bir test seti olmak üzere iki farklı set oluşturmak zorunludur. Test setindeki performans, eğitim setindeki performanstan farklı olmamalıdır. Makine öğrenme modelinin korelasyonu iyi anladığı ve yeni bir sete uyum sağlayabilmesi için onları ezbere öğrenmediği kontrol edilmelidir. Bu işlemler Anaconda ortamında Python programlama dili kullanılarak gerçekleştirilecektir.

Özet (Çeviri)

This thesis study consists of three stages. In the first layer, the cores in the processor of the computer system are taken as a distributed system structure and the speed of performing big data analytics is increased by using parallel programming. In the second layer, system software is loaded into the computer architecture to create a software computing environment to perform big data analytics. In the third layer, big data analytics are performed on the computer architecture with system software installed. For big data analytics, the data set is divided into two parts as training set and test set. In the research, datasets in csv format created with Excel are used. In any machine learning model, it is necessary to divide the process dataset into two sets, the training set and the test set. This is because the machine focuses on learning the process. Here, the algorithm learns from the data to achieve the prediction or machine learning process goals. The machine learning model will learn to do something from the dataset by understanding some correlations in the dataset, and will create a machine model that learns too much in the dataset. Machine learning will process a dataset with a lot of correlations and transform it into a new dataset with different correlations to improve performance. After machine learning is created in a dataset, a new dataset is tested, which will be slightly different from the dataset created by the machine learning model. Therefore, it is imperative to create two different sets, a training set created using the machine learning model and a test set in which we test the performance of the machine learning model. The performance in the test set should not differ from the performance in the training set. It should be checked that the machine learning model understands correlation well and does not learn them by heart to adapt to a new set. These operations will be carried out using the Python programming language in the Anaconda environment.

Benzer Tezler

  1. Short term electricity load forecasting with deep learning

    Derin öğrenme ile kısa dönemli elektrik yük talep tahmini

    İBRAHİM YAZICI

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA

  2. Parallel analysis of blockchain transaction graphs

    Blokzincir işlem çizgelerinin paralel analizi

    BARAN KILIÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CAN ÖZTURAN

  3. Reducing in-vehicle communication overload and enhancing efficiency in autonomous and electrical vehicles

    Otonom ve elektrikli araçlarda araç içi iletişim yükünü azaltma ve etkinliğini artırma

    YUNUS KAĞAN ÖZDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET CANSIZ

  4. Sanal alışverişte algılanan riskin tüm kanallı (omni-channel) perakendecilik modellerinde hizmet kalitesi, müşteri memnuniyeti ve sanal satın alma niyeti açısından incelenmesi

    The examination of perceived risk of online shopping in omni-channel retailing types with regards to service quality, customer satisfaction and online purchase intention

    ELİF TÜRK

    Doktora

    Türkçe

    Türkçe

    2023

    İşletmeGalatasaray Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. ÖZGÜR ÇENGEL

  5. Sensitivity analysis of expected shortfall by means of a second-order approximation

    İkinci derece yaklaştırım yoluyla beklenen kayıp hassaslık analizi

    GÜVEN GÜL POLAT

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    PROF. DR. BURÇ ÜLENGİN