Büyük veri analizi için yeni algoritmalar
New algorithms for big data analysis
- Tez No: 653525
- Danışmanlar: PROF. DR. SİNEM KULLUK
- Tez Türü: Doktora
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Erciyes Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 149
Özet
Günümüzde veri toplamak, veri depolamak geçmişe göre daha kolay ve basit bir işlemdir. Veri miktarının büyük olması veri üzerinden elde edilen bilgileri ve analizleri daha sağlıklı bir hale getirmektedir, fakat büyük veri ile baş edebilmek zorlaşmaktadır. Geleneksel veri madenciliği yöntemleriyle büyük veri analizi hem teknik olarak hem de süre olarak imkânsız bir hale gelmektedir. Bu probleme çözüm olarak veriyi parçalamak ve veri parçaları üzerinde paralel işlemler yapmak gerekmektedir. Bunun için genellikle Apache Hadoop ve Apache Spark kullanılmaktadır. Apache Spark, Hadoop'a göre hız ve kapsam bakımından üstünlük sağlamaktadır. Büyük veriler üzerinde analiz için Spark'ın kendi içerisinde makine öğrenme kütüphanesi bulunmaktadır. Bu tez çalışmasında büyük veri analizi için iki yeni algoritma önerilmiştir. Bu algoritmalar Spark Hibrit (SH) ve Yapay Sinir Ağı – Karar Ağacı (YSA-KA) algoritmalarıdır. Bu yeni algoritmaların performansı, hem Pokerhand, Susy, Higgs, Hepmass, Wisdm ve Census literatür sınıflandırma veri kümeleri ile, hem de gerçek hayat verisi olan üretim ve ikinci el araba veri kümeleri üzerinde test edilmiştir. Önerilen algoritmalarla elde edilen sonuçlar Spark içerisindeki makine öğrenme algoritmaları ve literatürde önerilen algoritma sonuçlarıyla karşılaştırılmıştır. İstatistiksel analizler ile algoritmaların sonuçları arasındaki farkların anlamlı olup olmadığı istatistiksel olarak test edilmiş ve yorumlanmıştır. Tez çalışmasında önerilen algoritmalardan YSA-KA algoritması Spark'taki ve literatürde son yıllarda yapılan çalışmalardaki algoritmalara göre genel olarak daha iyi sonuç vermiştir. SH algoritması ise diğer algoritmalarla rekabet edebilecek düzeydedir.
Özet (Çeviri)
Today, collecting and storing data is an easier and simpler process than in the past. The big amount of data makes the knowledge and analysis obtained through the data more accurate, but it becomes difficult to cope with big data. With traditional data mining methods, big data analysis becomes impossible both technically and in terms of time. As a solution to this problem, it is necessary to split the data and perform parallel operations on the data splits. Generally, Apache Hadoop and Apache Spark are used for this. Apache Spark outperforms Hadoop in terms of speed and scope. Spark has its own machine learning library for analysis on big data. In this thesis, two new algorithms are proposed for big data analysis. These algorithms are Spark Hybrid (SH) and Artificial Neural Network-Decision Tree (ANN-DT) algorithms. The performance of these new algorithms has been tested on both Pokerhand, Susy, Higgs, Hepmass, Wisdm, and Census literature classification datasets, as well as production and secondhand car real-life datasets. The results obtained with the proposed algorithms were compared with the machine learning algorithms in Spark and the algorithms suggested in the literature. whether the differences between the results of the compared algorithms were significant was tested and interpreted statistically, using statistical analysis. One of the algorithms suggested in the thesis study, the ANN-DT algorithm has generally yielded better results than the algorithms in Spark and the algorithms in the recent studies in the literature. The SH algorithm is able to compete with other algorithms.
Benzer Tezler
- Novel machine learning-based approaches for customer segmentation and data analysis
Müşteri segmentasyonu ve veri analizi için yeni nesil makine öğrenmesi yaklaşımları
NUR DİYABİ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBüyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
DOÇ. DR. ÖMER MELİH GÜL
- Büyük veride çizge teorisiyle temerrüt tahmini ve makine öğrenmesi modellerinin yorumlanması
Default prediction with graph theory in big data and interpretation of machine learning models
MUSTAFA YILDIRIM
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SUAT ÖZDEMİR
- Optimizing packed string matching on AVX2 platform
AVX2 platformu üzerinde paketlenmiş dizgi eşleştirme ve optimizasyonu
MEHMET AKİF AYDOĞMUŞ
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
DOÇ. DR. MUHAMMED OĞUZHAN KÜLEKCİ
- Efficient machine learning models for cancer biology
Kanser biyolojisi için etkin yapay öğrenme modelleri
AYYÜCE BEGÜM BEKTAŞ
Doktora
İngilizce
2022
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET GÖNEN
- A high performance CPU-GPU database for streaming data analysis
Akış veri analizi için yüksek başarımlı CPU-GPU veritabanı yönetim sistemleri
ANES ABDENNEBI
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KAMER KAYA