Geri Dön

Parallel point classification into geographical regions

Noktaların coğrafi bölgelere paralel sınıflandırılması

  1. Tez No: 539175
  2. Yazar: SANVER TARMUR
  3. Danışmanlar: PROF. DR. CAN ÖZTURAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Sosyal medya, sosyal ağlar ve blokzincir türevi dağıtık platformlar tarafından üretilen veri miktarı son yıllarda hissedilir seviyede artmıştır. Veri miktarının bu derecede artması ile, toplanan verinin analiz edilmesi ve işlenmesi ile ilgili uygulamalar ortaya çıkmıştır. Bu uygulamalardan bir tanesi coğrafi olarak etiketlenmiş olan verinin hangi coğrafi bölgeye ait olduğunun efektif ve hızlı bir biçimde bulunmasıdır. Bu çalışmada, coğrafi noktaları coğrafi alanlar üzerine paralel sınıflandıran bir metod önerilip, bir yazılım aracı olarak kodlanmıştır. Kodlanan yazılımı test etmek amacıyla Twitter üzerinden, nüfus yoğunluğunu hesaba katarak Türkiye'nin en yoğun bölgelerinin beşinden veri toplanmıştır. Coğrafi sınıflandırma performansını etkileyen en önemli faktörler kullanılan coğrafi endeks ve parallelleştirme stratejisidir. Uygulamamız, Hierarchical Triangular Mesh (HTM) ve R-Tree coğrafi endekslerden ve açık kaynak kodlu, dinamik veri miktarina göre uygulama ihtiyaçlarına cevap veren Apache Spark ve Kafka platformlarından faydalanılarak ölçeklenebilir ve dağıtık yapıda geliştirilmiştir. Microsoft SQL Server'in sunduğu coğrafi endeks ve Kondor et al. tarafından HTM ile SQL Server'da geliştirilen metod, önerdiğimiz metod ile performans yönünden karşılaştırılmıştır. Uygulamamız, veri akımlarını hafıza üzerinde işleyen Spark üzerine inşa edildiği için, akımları efektif olarak işleyemeyen İlişkisel Veri Yönetim Sistemi bağımlı yaklaşımlara göre yüksek performans göstermektedir. Geliştirdiğimiz metod ile sorgu kümesinin büyüklüğüne bağlı olarak sınıflandırma süresi 1.6 ila 4.5 kat arasında hızlanma göstermiştir. Ayrıca tasarladığımız sistem, ölçeklenebilir mimarisi sayesinde milyarlar mertebesinde veriyi işleme olanağı sunmaktadır. Metodumuz performans artırmanın yanında maliyeti azaltmaktadır. Zira üç saat gibi kısa bir sürede bulut üzerinde bir aylık Twitter verisini çok düşük maliyet ile sınıflandırır.

Özet (Çeviri)

The amount of data generated by social media, social networks and distributed platforms such as blockchain, have reached quite high levels. There are various use-cases to process this huge amount of data. One is to classify the geo-tagged data which is produced by social networks into geographical regions. We propose an efficient parallel classification approach and implement a classifier tool which is capable of processing huge geographical point data in parallel. Twitter data from five major cities of Turkey is used as classification test set considering the density of the regions. There are important factors effecting the classification performance such as spatial indexing and parallelization strategy. Hierarchical Triangular Mesh (HTM) and R-Tree spatial indexes are used for indexing regions and open-source Apache Spark and Kafka platforms are used to implement our classification application in a distributed and scalable environment. The mentioned platforms are designed to handle huge data streams and quickly respond varying volume of data traffic. Benchmarks are provided in thesis to show effectiveness of our approach against built-in spatial index of Microsoft SQL Server and approach of Kondor et al. in which HTM is applied on SQL Server. Our method has significant advantage since it is built upon Apache Spark platform which is crafted for processing chunks of data stream in real-time, however other approaches are based on SQL Server which cannot efficiently process massive streaming data. 1.6-4.5 fold speed-ups have been obtained in classification performance. The speed-up factor may change according to the query set size. Since our system has a scalable architecture it is possible to expand query set to billions of records. Apart from improved performance, our method is cost-effective since Twitter data collected over a month can be processed on cloud in around 3 hours with a small cost.

Benzer Tezler

  1. Türkiye ile Körfez ülkeleri arasında dış ticaret ilişkisinin incelenmesi -Çekim modeli yaklaşımı-

    An investigation on trade relations between Turkey and Gulf countries - Gravity model approach

    OSMAN ERK

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    EkonometriGalatasaray Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. MUSTAFA BURAK GÜRBÜZ

  2. Mekansal ve sosyoekonomik parametrelerin çocuk suçluluğu ile ilişkisinin CBS ile araştırılması

    Investigation the relationship of spatial and socioeconomic parameters on juvenile delinquency through CBS

    BİLGE BOZKURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DOÇ. DR. AHMET ÖZGÜR DOĞRU

  3. Exploring the spatial determinants in different types of retail clusters the case study of Üsküdar

    Farklı ticaret kümelerine etki eden mekansal faktörlerin incelenmesi Üsküdar örneği

    CANSIN AKBAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Kentsel Tasarım Ana Bilim Dalı

    PROF. DR. AYŞE SEMA KUBAT

  4. Toros Göknarı (Abies cilicica carr.)nın Türkiye'deki doğal yayılış ve silvikültürel özellikleri

    Başlık çevirisi yok

    H. FERHAT BOZKUŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    1986

    Ormancılık ve Orman Mühendisliğiİstanbul Üniversitesi

    Silvikültür Ana Bilim Dalı

    PROF.DR. İBRAHİM ATAY

  5. Televizyon dizilerinde kültürel temsiller: Mardin dizileri örneği

    Représentations culturelles dans les séries télévisées: Exemple de les séries télévisées de Mardin

    SEZER AHMET KINA

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Radyo-TelevizyonGalatasaray Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ECE VİTRİNEL