Geri Dön

Büyük veri analizi için yeni algoritmalar

New algorithms for big data analysis

  1. Tez No: 653525
  2. Yazar: BURAK GÜLMEZ
  3. Danışmanlar: PROF. DR. SİNEM KULLUK
  4. Tez Türü: Doktora
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 149

Özet

Günümüzde veri toplamak, veri depolamak geçmişe göre daha kolay ve basit bir işlemdir. Veri miktarının büyük olması veri üzerinden elde edilen bilgileri ve analizleri daha sağlıklı bir hale getirmektedir, fakat büyük veri ile baş edebilmek zorlaşmaktadır. Geleneksel veri madenciliği yöntemleriyle büyük veri analizi hem teknik olarak hem de süre olarak imkânsız bir hale gelmektedir. Bu probleme çözüm olarak veriyi parçalamak ve veri parçaları üzerinde paralel işlemler yapmak gerekmektedir. Bunun için genellikle Apache Hadoop ve Apache Spark kullanılmaktadır. Apache Spark, Hadoop'a göre hız ve kapsam bakımından üstünlük sağlamaktadır. Büyük veriler üzerinde analiz için Spark'ın kendi içerisinde makine öğrenme kütüphanesi bulunmaktadır. Bu tez çalışmasında büyük veri analizi için iki yeni algoritma önerilmiştir. Bu algoritmalar Spark Hibrit (SH) ve Yapay Sinir Ağı – Karar Ağacı (YSA-KA) algoritmalarıdır. Bu yeni algoritmaların performansı, hem Pokerhand, Susy, Higgs, Hepmass, Wisdm ve Census literatür sınıflandırma veri kümeleri ile, hem de gerçek hayat verisi olan üretim ve ikinci el araba veri kümeleri üzerinde test edilmiştir. Önerilen algoritmalarla elde edilen sonuçlar Spark içerisindeki makine öğrenme algoritmaları ve literatürde önerilen algoritma sonuçlarıyla karşılaştırılmıştır. İstatistiksel analizler ile algoritmaların sonuçları arasındaki farkların anlamlı olup olmadığı istatistiksel olarak test edilmiş ve yorumlanmıştır. Tez çalışmasında önerilen algoritmalardan YSA-KA algoritması Spark'taki ve literatürde son yıllarda yapılan çalışmalardaki algoritmalara göre genel olarak daha iyi sonuç vermiştir. SH algoritması ise diğer algoritmalarla rekabet edebilecek düzeydedir.

Özet (Çeviri)

Today, collecting and storing data is an easier and simpler process than in the past. The big amount of data makes the knowledge and analysis obtained through the data more accurate, but it becomes difficult to cope with big data. With traditional data mining methods, big data analysis becomes impossible both technically and in terms of time. As a solution to this problem, it is necessary to split the data and perform parallel operations on the data splits. Generally, Apache Hadoop and Apache Spark are used for this. Apache Spark outperforms Hadoop in terms of speed and scope. Spark has its own machine learning library for analysis on big data. In this thesis, two new algorithms are proposed for big data analysis. These algorithms are Spark Hybrid (SH) and Artificial Neural Network-Decision Tree (ANN-DT) algorithms. The performance of these new algorithms has been tested on both Pokerhand, Susy, Higgs, Hepmass, Wisdm, and Census literature classification datasets, as well as production and secondhand car real-life datasets. The results obtained with the proposed algorithms were compared with the machine learning algorithms in Spark and the algorithms suggested in the literature. whether the differences between the results of the compared algorithms were significant was tested and interpreted statistically, using statistical analysis. One of the algorithms suggested in the thesis study, the ANN-DT algorithm has generally yielded better results than the algorithms in Spark and the algorithms in the recent studies in the literature. The SH algorithm is able to compete with other algorithms.

Benzer Tezler

  1. Novel machine learning-based approaches for customer segmentation and data analysis

    Müşteri segmentasyonu ve veri analizi için yeni nesil makine öğrenmesi yaklaşımları

    NUR DİYABİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı

    DOÇ. DR. ÖMER MELİH GÜL

  2. Büyük veride çizge teorisiyle temerrüt tahmini ve makine öğrenmesi modellerinin yorumlanması

    Default prediction with graph theory in big data and interpretation of machine learning models

    MUSTAFA YILDIRIM

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SUAT ÖZDEMİR

  3. Optimizing packed string matching on AVX2 platform

    AVX2 platformu üzerinde paketlenmiş dizgi eşleştirme ve optimizasyonu

    MEHMET AKİF AYDOĞMUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DOÇ. DR. MUHAMMED OĞUZHAN KÜLEKCİ

  4. Efficient machine learning models for cancer biology

    Kanser biyolojisi için etkin yapay öğrenme modelleri

    AYYÜCE BEGÜM BEKTAŞ

    Doktora

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiKoç Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET GÖNEN

  5. A high performance CPU-GPU database for streaming data analysis

    Akış veri analizi için yüksek başarımlı CPU-GPU veritabanı yönetim sistemleri

    ANES ABDENNEBI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KAMER KAYA