A scalable big data framework for analyzing batch and streaming data of social media platforms
Sosyal medya platformlarının toplu ve akış verilerini analiz etmek için ölçeklenebilir bir büyük veri çerçevesi
- Tez No: 825206
- Danışmanlar: DOÇ. DR. SERKAN AYVAZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 105
Özet
Bugünün“büyük veri”çağında, sosyal medya platformlarının kullanımı hızla genişlemektedir. Sosyal medya içeriği, geleneksel analiz yöntemlerini etkisiz hale getiren ve devasa veri kapsamını işlemeyi neredeyse imkansız hale getiren, alternatif analitik metodolojilerin benimsenmesini talep eden bir düzeye ulaştı. Bu tezde, sosyal medya içeriğinin geniş ölçeğini yönetmek için büyük veri teknolojilerini kullanarak ölçeklenebilir bir çerçeve oluşturduk ve bunu iki kullanım durumunda test ettik. İlk kullanım durumunda, sosyal medya içeriğinden intihar düşüncesi tahmini için büyük veri metodolojisi önerdik. Önerilen metodoloji, toplu ve gerçek zamanlı akış verileri için veri işleme imkanı sağlamaktadır. Metodoloji dört bileşenden oluşmaktadır. Veri akışlarını almak için giriş sistemi olarak Apache Kafka; veri akışlarını işlemek için Apache Spark Structured Streaming; sınıflandırma algoritmaları oluşturmak için Apache Spark ML; ve tahmin sonuçlarını görselleştirmek için bir hedef sistemi olarak Power BI kullanılmıştır. Farklı test senaryolarıyla çeşitli özellik çıkarma tekniklerini kullanarak çoklu deneyler gerçekleştirdik. Deneysel bulgular, önerilen metodolojinin intihar düşüncesini iki işlem aşaması içinde sınıflandırmak ve tahmin etmek için yüksek performans verdiğini ortaya koydu. Bu tezde sunulan ikinci kullanım örneği, öncelikle büyük ölçekli toplu sosyal medya veri içeriğini kullanarak üst düzey ve ölçeklenebilir bir duyarlılık analizi metodolojisi oluşturmaya odaklanmıştır. Manuel duygu anotasyonu, sosyal medya içeriğiyle uğraşırken sıklıkla belirsizlik ve öznellik içerir. Bu nedenle, sürecin güvenilirliğini artırmak için manuel anotasyonu otomatikleştirilmiş yaklaşımlarla değiştirilmesine yönelik artan bir ihtiyaç vardır. Bununla birlikte, otomatikleştirilmiş yöntemlerle bile, özellikle sözlük tabanlı yaklaşımlar için zorluklar devam etmektedir. Bu yaklaşımlar genellikle, tek bir sözlük külliyatının kapsamı dışında kalan metin verilerinde duyguları sınıflandırmada zorluklarla karşılaşır. Bu nedenle, çoklu sözlük yaklaşımı ile Apache Spark ML büyük veri ardışık düzenini birleştiren hibrit bir metodoloji önerdik. Önerilen metodolojinin performansını değerlendirmek için vaka çalışması olarak, Rus-Ukrayna Savaşı'nın patlak vermesiyle ilgili bir duygu analizi gerçekleştirdik. Hibrit metodolojinin ampirik bulguları, yüksek güvenilirlik ve aktivite ile gücünü göstermiştir.
Özet (Çeviri)
In today's“big data”era, the use of social media platforms is experiencing an accelerated expansion. Social media content reached a level that made traditional analysis methods ineffective and almost impossible to handle the enormous scope of data, demanding the adoption of alternative analytical methodologies. In this thesis, we employed big data technologies to build a scalable framework to manage the extensive scale of social media content and tested it in two use cases: In the first use case, we proposed a big data methodology for suicidal ideation prediction from social media content. The proposed methodology allowed for data handling in two phases: batch and real-time streaming data. The methodology comprises four components: Apache Kafka as an input system for ingesting data streams; Apache Spark Structured Streaming for handling data streams; Apache Spark ML for building classification algorithms; and Power BI as a sink system for visualizing prediction results. We conducted multiple experiments using various feature-extraction techniques with different testing scenarios. The experimental findings revealed that the proposed methodology yielded high performance for classifying and predicting suicidal ideation within the two processing phases. The second use case presented in this thesis primarily focused on building a high-level and scalable sentiment analysis methodology using large-scale batch social media data content. Manual sentiment annotation frequently encounters ambiguity and subjectivity while dealing with social media content. Hence, there is a growing need to replace manual annotation with automated approaches to increase the dependability of the process. However, even with automated methods, challenges remain, particularly for lexicon-based approaches. These approaches often face challenges in classifying sentiment in text data that falls outside the scope of a single lexicon corpus. Therefore, we proposed a hybrid methodology that combined an ensemble lexicon approach and Apache Spark ML big data pipeline. As casework to assess the proposed methodology's performance, we conducted a sentiment analysis regarding the outbreak of the Russo-Ukrainian War. The empirical findings of the hybrid methodology demonstrated its power with high reliability and activity.
Benzer Tezler
- FSOLAP: A fuzzy logic-based spatial OLAP framework for spatial-temporal analytics and querying
FSOLAP: Uzamsal-zamansal analitik ve sorgulama için bulanık mantık tabanlı uzamsal OLAP çerçevesi
SİNAN KESKİN
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADNAN YAZICI
- Eşle/indirge yöntemine dayalı dağıtık hesaplama ile uydu görüntüleri üzerinden nesne çıkarım mimarisi
A map/reduce distributed and scalable big data framework for object extraction from mosaic satellite images
SÜLEYMAN EKEN
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET SAYAR
- RESTful servislerin endüstriyel kullanımı için bir çerçeve
A framework for industrial usage of RESTful services
UĞUR ÜNTÜRK
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ DİKENELLİ
- Sanal kablosuz duyarga ağ tabanlı bir dağıtık-paralel siber fiziksel sistem tasarımı
Design of a distributed-parallel cyber physical system based on virtual wireless network
GÜNGÖR YILDIRIM
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YETKİN TATAR
- Geniş ölçekli veriler üzerinde sınıflandırma ve bölütleme amaçlı evrişimsel sinir ağı ve istatistiksel modellerin geliştirilmesi
Development of convolutional neural network and statistical models for classification and segmentation on large-scale data
NURULLAH ÇALIK
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. LÜTFİYE DURAK ATA