Geri Dön

Büyük veri problemlerinde performans arttırmaya yönelik özellik seçimi ve boyut indirgeme optimizasyonu

Feature selection and dimensionality reduction optimization to improve performance in big data problems

  1. Tez No: 606428
  2. Yazar: BURHAN ERDOĞDU BEYAZIT
  3. Danışmanlar: PROF. CEVRİYE GENCER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

Teknolojik gelişmeler ile veri boyutu, çeşitliliği ve akışında meydana gelen değişimler, BigData (Büyük veri) kavramın ve veriden bilgi elde etme sürecinde verinin toplanması, dönüştürülmesi, işlenmesi, saklanması ve sunulması gibi yeni bir paradigmanın ortaya çıkmasına neden olmuştur. Yeni paradigma veri toplama, işleme, saklama, bileşenleriyle, sıradan donanımlar üzerine kurulabilen, hata toleranslı, yatay genişleyebilen Hadoop ekosistemidir. Hadoop üzerinde paralel işlem çatısı olarak Apache Spark veri işleme süreçlerinde makine öğrenmesi kabiliyetlerini veri bilimcilerin kullanımına sunmaktadır. Günümüzde büyük veri kavramı ile bilgi keşfinin anlık olarak yapılabilmesi önemli bir ihtiyaç haline gelmiştir. Bu noktada büyük veri sistemleri üzerinde makine öğrenmesi ile veriden bilgi keşfi süreçlerinin otomatikleştirilmesi fikri ortaya çıkmıştır. Ancak literatürde tartışmalı bir husus olan otomatikleştirme fikirleri, için öncelikle çözüm bulunması gereken konuların başında özellik seçimi ve boyut azaltma işlemlerinin, en az alan bilgisi ve yüksek performans ile gerçekleştirilebilmesi gelmektedir. Bu çalışmada ülkemizde bir internet hizmet sağlayıcıdan elde edilen veriler ve açık kaynaklı telekomünikasyon veri seti ile Apache Spark makine öğrenmesi kütüphanesi kullanılarak özellik seçme ve boyut azaltma uygulaması gerçekleştirilmiştir. Özellik seçimi için Filter (Filtre), Embedded (Gömülü) ve Wrapper (Sarmalayıcı) metotlar, boyut azaltma için Principal Component Analysis (PCA) uygulanmıştır. F1- measure, Precision, Recall ve Accuracy başarım kriterlerine göre yapılan denemelerde Filter metotların bu kapsamda kullanışlı bir seçenek oldukları görülmüştür.

Özet (Çeviri)

Technological developments and changes in volume, variety and velocity of data have led to define both new concept of Big data, and new paradigm in the process of acquiring information from data. The new paradigm is a fault-tolerant, scalable, built for commodity hardware, Hadoop ecosystem with data collection, data processing, data warehousing components. As a parallel processing framework on Hadoop, Apache Spark offers to the data scientists the ability of using machine learning libraries in easy way. In present, with the concept of big data, it has become an important necessity to make discovery of information instantaneously. The idea of automatizing information discovery based on machine learning on big data systems has been introduced. However, for automation ideas, which is a controversial issue in the literature, the first of the issues that need to be resolved is that feature selection and dimensionality reduction operations can be performed with minimum field knowledge and high performance. In this study feature selection and dimensionality reduction application were performed using Apache Spark machine learning library on the data obtained from an internet service provider and the open source telecommunication data set. The Filter, Embedded and Wrapper methods for Feature Selection were applied and Principal Component Analysis is used for dimensionality reduction. According to the tests measured by F1- measure, Precision, Recall Accuracy, filter methods have been seen to be a useful option in this context.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Assessing the impact of super-resolution on enhancing the spatial quality of historical aerial photographs

    Tarihi hava fotoğraflarının mekansal kalitesini artırmada süper-çözünürlüğün etkisinin irdelenmesi

    ABDULLAH HARUN İNCEKARA

    Doktora

    İngilizce

    İngilizce

    2024

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER

  3. Gri kurt optimizasyon algoritmasının veri madenciliği problemlerine uygulanması

    Application of gray wolf optimization algorithm to data mining problems

    İHTİSAM AKTO

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ONUR İNAN

  4. Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators

    Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi

    MAHMUT SAMİ SİVRİ

    Doktora

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP ÜSTÜNDAĞ

  5. Security/privacy analysis of biometric hashing and template protection for fingerprint minutiae

    Biyometrik kıyım için güvenlik/mahremiyet analizi ve parmak izi olay noktaları için şablon koruma

    BERKAY TOPÇU

    Doktora

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAKAN ERDOĞAN