Büyük veri problemlerinde performans arttırmaya yönelik özellik seçimi ve boyut indirgeme optimizasyonu

Feature selection and dimensionality reduction optimization to improve performance in big data problems

PDF İndir

Tez No: 606428
Yazar: BURHAN ERDOĞDU BEYAZIT
Danışmanlar: PROF. CEVRİYE GENCER
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Bilişim Enstitüsü
Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 76

Özet

Teknolojik gelişmeler ile veri boyutu, çeşitliliği ve akışında meydana gelen değişimler, BigData (Büyük veri) kavramın ve veriden bilgi elde etme sürecinde verinin toplanması, dönüştürülmesi, işlenmesi, saklanması ve sunulması gibi yeni bir paradigmanın ortaya çıkmasına neden olmuştur. Yeni paradigma veri toplama, işleme, saklama, bileşenleriyle, sıradan donanımlar üzerine kurulabilen, hata toleranslı, yatay genişleyebilen Hadoop ekosistemidir. Hadoop üzerinde paralel işlem çatısı olarak Apache Spark veri işleme süreçlerinde makine öğrenmesi kabiliyetlerini veri bilimcilerin kullanımına sunmaktadır. Günümüzde büyük veri kavramı ile bilgi keşfinin anlık olarak yapılabilmesi önemli bir ihtiyaç haline gelmiştir. Bu noktada büyük veri sistemleri üzerinde makine öğrenmesi ile veriden bilgi keşfi süreçlerinin otomatikleştirilmesi fikri ortaya çıkmıştır. Ancak literatürde tartışmalı bir husus olan otomatikleştirme fikirleri, için öncelikle çözüm bulunması gereken konuların başında özellik seçimi ve boyut azaltma işlemlerinin, en az alan bilgisi ve yüksek performans ile gerçekleştirilebilmesi gelmektedir. Bu çalışmada ülkemizde bir internet hizmet sağlayıcıdan elde edilen veriler ve açık kaynaklı telekomünikasyon veri seti ile Apache Spark makine öğrenmesi kütüphanesi kullanılarak özellik seçme ve boyut azaltma uygulaması gerçekleştirilmiştir. Özellik seçimi için Filter (Filtre), Embedded (Gömülü) ve Wrapper (Sarmalayıcı) metotlar, boyut azaltma için Principal Component Analysis (PCA) uygulanmıştır. F1- measure, Precision, Recall ve Accuracy başarım kriterlerine göre yapılan denemelerde Filter metotların bu kapsamda kullanışlı bir seçenek oldukları görülmüştür.

Özet (Çeviri)

Technological developments and changes in volume, variety and velocity of data have led to define both new concept of Big data, and new paradigm in the process of acquiring information from data. The new paradigm is a fault-tolerant, scalable, built for commodity hardware, Hadoop ecosystem with data collection, data processing, data warehousing components. As a parallel processing framework on Hadoop, Apache Spark offers to the data scientists the ability of using machine learning libraries in easy way. In present, with the concept of big data, it has become an important necessity to make discovery of information instantaneously. The idea of automatizing information discovery based on machine learning on big data systems has been introduced. However, for automation ideas, which is a controversial issue in the literature, the first of the issues that need to be resolved is that feature selection and dimensionality reduction operations can be performed with minimum field knowledge and high performance. In this study feature selection and dimensionality reduction application were performed using Apache Spark machine learning library on the data obtained from an internet service provider and the open source telecommunication data set. The Filter, Embedded and Wrapper methods for Feature Selection were applied and Principal Component Analysis is used for dimensionality reduction. According to the tests measured by F1- measure, Precision, Recall Accuracy, filter methods have been seen to be a useful option in this context.

Benzer Tezler

Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
Tez No
876522
Assessing the impact of super-resolution on enhancing the spatial quality of historical aerial photographs
Tarihi hava fotoğraflarının mekansal kalitesini artırmada süper-çözünürlüğün etkisinin irdelenmesi
ABDULLAH HARUN İNCEKARA
Doktora
İngilizce
2024
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
Geomatik Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
Tez No
683909
Gri kurt optimizasyon algoritmasının veri madenciliği problemlerine uygulanması
Application of gray wolf optimization algorithm to data mining problems
İHTİSAM AKTO
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Necmettin Erbakan Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ONUR İNAN
Tez No
895348
Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators
Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi
MAHMUT SAMİ SİVRİ
Doktora
İngilizce
2023
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
Tez No
961113
An efficient multi-neural network ensemble model for image classification
Görüntü sınıflandırması için verimli bir çoklu-sinir ağ topluluğu modeli
VELİ NAKÇİ
Yüksek Lisans
İngilizce
2025
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA ALTUN

Geri Dön