Parallel point classification into geographical regions
Noktaların coğrafi bölgelere paralel sınıflandırılması
- Tez No: 539175
- Danışmanlar: PROF. DR. CAN ÖZTURAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 73
Özet
Sosyal medya, sosyal ağlar ve blokzincir türevi dağıtık platformlar tarafından üretilen veri miktarı son yıllarda hissedilir seviyede artmıştır. Veri miktarının bu derecede artması ile, toplanan verinin analiz edilmesi ve işlenmesi ile ilgili uygulamalar ortaya çıkmıştır. Bu uygulamalardan bir tanesi coğrafi olarak etiketlenmiş olan verinin hangi coğrafi bölgeye ait olduğunun efektif ve hızlı bir biçimde bulunmasıdır. Bu çalışmada, coğrafi noktaları coğrafi alanlar üzerine paralel sınıflandıran bir metod önerilip, bir yazılım aracı olarak kodlanmıştır. Kodlanan yazılımı test etmek amacıyla Twitter üzerinden, nüfus yoğunluğunu hesaba katarak Türkiye'nin en yoğun bölgelerinin beşinden veri toplanmıştır. Coğrafi sınıflandırma performansını etkileyen en önemli faktörler kullanılan coğrafi endeks ve parallelleştirme stratejisidir. Uygulamamız, Hierarchical Triangular Mesh (HTM) ve R-Tree coğrafi endekslerden ve açık kaynak kodlu, dinamik veri miktarina göre uygulama ihtiyaçlarına cevap veren Apache Spark ve Kafka platformlarından faydalanılarak ölçeklenebilir ve dağıtık yapıda geliştirilmiştir. Microsoft SQL Server'in sunduğu coğrafi endeks ve Kondor et al. tarafından HTM ile SQL Server'da geliştirilen metod, önerdiğimiz metod ile performans yönünden karşılaştırılmıştır. Uygulamamız, veri akımlarını hafıza üzerinde işleyen Spark üzerine inşa edildiği için, akımları efektif olarak işleyemeyen İlişkisel Veri Yönetim Sistemi bağımlı yaklaşımlara göre yüksek performans göstermektedir. Geliştirdiğimiz metod ile sorgu kümesinin büyüklüğüne bağlı olarak sınıflandırma süresi 1.6 ila 4.5 kat arasında hızlanma göstermiştir. Ayrıca tasarladığımız sistem, ölçeklenebilir mimarisi sayesinde milyarlar mertebesinde veriyi işleme olanağı sunmaktadır. Metodumuz performans artırmanın yanında maliyeti azaltmaktadır. Zira üç saat gibi kısa bir sürede bulut üzerinde bir aylık Twitter verisini çok düşük maliyet ile sınıflandırır.
Özet (Çeviri)
The amount of data generated by social media, social networks and distributed platforms such as blockchain, have reached quite high levels. There are various use-cases to process this huge amount of data. One is to classify the geo-tagged data which is produced by social networks into geographical regions. We propose an efficient parallel classification approach and implement a classifier tool which is capable of processing huge geographical point data in parallel. Twitter data from five major cities of Turkey is used as classification test set considering the density of the regions. There are important factors effecting the classification performance such as spatial indexing and parallelization strategy. Hierarchical Triangular Mesh (HTM) and R-Tree spatial indexes are used for indexing regions and open-source Apache Spark and Kafka platforms are used to implement our classification application in a distributed and scalable environment. The mentioned platforms are designed to handle huge data streams and quickly respond varying volume of data traffic. Benchmarks are provided in thesis to show effectiveness of our approach against built-in spatial index of Microsoft SQL Server and approach of Kondor et al. in which HTM is applied on SQL Server. Our method has significant advantage since it is built upon Apache Spark platform which is crafted for processing chunks of data stream in real-time, however other approaches are based on SQL Server which cannot efficiently process massive streaming data. 1.6-4.5 fold speed-ups have been obtained in classification performance. The speed-up factor may change according to the query set size. Since our system has a scalable architecture it is possible to expand query set to billions of records. Apart from improved performance, our method is cost-effective since Twitter data collected over a month can be processed on cloud in around 3 hours with a small cost.
Benzer Tezler
- Türkiye ile Körfez ülkeleri arasında dış ticaret ilişkisinin incelenmesi -Çekim modeli yaklaşımı-
An investigation on trade relations between Turkey and Gulf countries - Gravity model approach
OSMAN ERK
Yüksek Lisans
Türkçe
2015
EkonometriGalatasaray Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. MUSTAFA BURAK GÜRBÜZ
- Mekansal ve sosyoekonomik parametrelerin çocuk suçluluğu ile ilişkisinin CBS ile araştırılması
Investigation the relationship of spatial and socioeconomic parameters on juvenile delinquency through CBS
BİLGE BOZKURT
Yüksek Lisans
Türkçe
2021
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. AHMET ÖZGÜR DOĞRU
- Exploring the spatial determinants in different types of retail clusters the case study of Üsküdar
Farklı ticaret kümelerine etki eden mekansal faktörlerin incelenmesi Üsküdar örneği
CANSIN AKBAŞ
Yüksek Lisans
İngilizce
2019
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiKentsel Tasarım Ana Bilim Dalı
PROF. DR. AYŞE SEMA KUBAT
- Toros Göknarı (Abies cilicica carr.)nın Türkiye'deki doğal yayılış ve silvikültürel özellikleri
Başlık çevirisi yok
H. FERHAT BOZKUŞ
Yüksek Lisans
Türkçe
1986
Ormancılık ve Orman Mühendisliğiİstanbul ÜniversitesiSilvikültür Ana Bilim Dalı
PROF.DR. İBRAHİM ATAY
- Televizyon dizilerinde kültürel temsiller: Mardin dizileri örneği
Représentations culturelles dans les séries télévisées: Exemple de les séries télévisées de Mardin
SEZER AHMET KINA
Yüksek Lisans
Türkçe
2020
Radyo-TelevizyonGalatasaray ÜniversitesiRadyo Televizyon ve Sinema Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ECE VİTRİNEL