Geri Dön

Bulut üzerinde dağıtık doküman sınıflandırma ve kümeleme

Distributed document classification and clustering on cloud

  1. Tez No: 424203
  2. Yazar: SELEN GÜRBÜZ
  3. Danışmanlar: YRD. DOÇ. DR. GALİP AYDIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Büyük Veri, Dağıtık Hesaplama, Bulut Bilişim, Big Data, Distributed Computing, Cloud Computing
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 65

Özet

Büyük veriler geleneksel sistemlerin işleyemeyeceği kadar yüksek hacimli ve karmaşık veriler olup bunların bilinen veri tabanı veya dosya sistemleri üzerinde saklanması ve geleneksel algoritmalarla işlenmesi zordur. Dolayısıyla büyük verileri işlemek ve saklamak için geleneksel hesaplama yöntemleri yerine yeni teknolojiler kullanılmaktadır. Farklı kaynaklar tarafından üretilen çok büyük sayıda dokümanın içerikleri ile ilgili otomatik çıkarsamaların yapılması, alan ve konularının belirlenmesi, özetlerinin çıkarılması veya örüntü keşfi gibi doküman analizi konuları bilim insanlarının çözmeye çalıştığı konulardır. Bu tez çalışmasında Türkçe bilimsel makalelerden oluşan bir veri seti üzerinde çalıştırılan dağıtık sınıflandırma ve kümeleme algoritmaları ile Büyük Veri analizleri yapılmaya çalışılmıştır. Dağıtık Makine Öğrenmesi algoritmaları çalıştırabilmek için Apache Mahout ve Apache Spark kullanılmıştır. Dağıtık doküman sınıflandırma ve kümeleme yapılabilmesi için gerekli olan sunucular Google Cloud, Amazon AWS ve Microsoft Azure bulut altyapıları üzerinde çalıştırılmıştır.

Özet (Çeviri)

Big data is described as large and complex data sets which can not be stored and processed using traditional databases, file systems and algorithms.Therefore new technologies are being utilized to store and process these big data sets. Automatic content extraction, field and topic discovery, summarization or pattern recognition over very large document sets which are produced by various sources are the subjects of many current research. In this thesis, Big Data analysis, namely distributed classification and clustering algorithms are applied to a large data sets consisting Turkish scientific articles, To be able to run distributed Machine Learning algorithms Apache Mahout and Apache Spark are used. The servers needed for distributed classification and clustering algorithms are deployed on the Google Cloud, Amazon AWS and Microsoft Azure cloud computing infrastructures.

Benzer Tezler

  1. Hadoop mapreduce algoritmasının analizi ile performansa etki eden parametrelerin tespiti ve hadoop üzerinde başarım artımı

    With analysis of hadoop mapreduce algorithm finding parameters affecting performance and using optimized parameters increasing throughput on hadoop cluster

    HÜSEYİN ŞARKIŞLA

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HAYRETTİN EVİRGEN

  2. A decentralized bim document management system with blockchain and IPFS integration for construction project delivery

    İnşaat proje teslimleri için blokzinciri ve IPFS entegrasyonlu merkeziyetsiz BIM doküman yönetim sistemi

    FURKAN KOÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgi ve Belge YönetimiOrta Doğu Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. RİFAT SÖNMEZ

  3. İçel ili Merkez ilçesinin beşeri ve iktisadi coğrafyası

    The Human and economic geograohy of the central district of İçel province

    ERSİN KAYA SANDAL

    Doktora

    Türkçe

    Türkçe

    2002

    CoğrafyaAnkara Üniversitesi

    Beşeri ve İktisadi Coğrafya Ana Bilim Dalı

    PROF. DR. HAMDİ KARA

  4. Private search over big data leveraging distributed file system and parallel processing

    Büyük veri üzerinde dağıtık dosya sistemi ve paralel işleme kullanarak mahremiyet korumalı arama

    AYŞE SELÇUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. ERKAY SAVAŞ

  5. Web uygulamaları için bulut ve konteyner tabanlı test otomasyon hizmeti

    Cloud and container based test automation service for web applications

    MEHMET EMİN KÜÇÜKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. KÜRŞAT AYAN