Geri Dön

A scalable big data framework for analyzing batch and streaming data of social media platforms

Sosyal medya platformlarının toplu ve akış verilerini analiz etmek için ölçeklenebilir bir büyük veri çerçevesi

  1. Tez No: 825206
  2. Yazar: MOHAMED ABDULSTAR JABUR MOHAMED ALLAYLA
  3. Danışmanlar: DOÇ. DR. SERKAN AYVAZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 105

Özet

Bugünün“büyük veri”çağında, sosyal medya platformlarının kullanımı hızla genişlemektedir. Sosyal medya içeriği, geleneksel analiz yöntemlerini etkisiz hale getiren ve devasa veri kapsamını işlemeyi neredeyse imkansız hale getiren, alternatif analitik metodolojilerin benimsenmesini talep eden bir düzeye ulaştı. Bu tezde, sosyal medya içeriğinin geniş ölçeğini yönetmek için büyük veri teknolojilerini kullanarak ölçeklenebilir bir çerçeve oluşturduk ve bunu iki kullanım durumunda test ettik. İlk kullanım durumunda, sosyal medya içeriğinden intihar düşüncesi tahmini için büyük veri metodolojisi önerdik. Önerilen metodoloji, toplu ve gerçek zamanlı akış verileri için veri işleme imkanı sağlamaktadır. Metodoloji dört bileşenden oluşmaktadır. Veri akışlarını almak için giriş sistemi olarak Apache Kafka; veri akışlarını işlemek için Apache Spark Structured Streaming; sınıflandırma algoritmaları oluşturmak için Apache Spark ML; ve tahmin sonuçlarını görselleştirmek için bir hedef sistemi olarak Power BI kullanılmıştır. Farklı test senaryolarıyla çeşitli özellik çıkarma tekniklerini kullanarak çoklu deneyler gerçekleştirdik. Deneysel bulgular, önerilen metodolojinin intihar düşüncesini iki işlem aşaması içinde sınıflandırmak ve tahmin etmek için yüksek performans verdiğini ortaya koydu. Bu tezde sunulan ikinci kullanım örneği, öncelikle büyük ölçekli toplu sosyal medya veri içeriğini kullanarak üst düzey ve ölçeklenebilir bir duyarlılık analizi metodolojisi oluşturmaya odaklanmıştır. Manuel duygu anotasyonu, sosyal medya içeriğiyle uğraşırken sıklıkla belirsizlik ve öznellik içerir. Bu nedenle, sürecin güvenilirliğini artırmak için manuel anotasyonu otomatikleştirilmiş yaklaşımlarla değiştirilmesine yönelik artan bir ihtiyaç vardır. Bununla birlikte, otomatikleştirilmiş yöntemlerle bile, özellikle sözlük tabanlı yaklaşımlar için zorluklar devam etmektedir. Bu yaklaşımlar genellikle, tek bir sözlük külliyatının kapsamı dışında kalan metin verilerinde duyguları sınıflandırmada zorluklarla karşılaşır. Bu nedenle, çoklu sözlük yaklaşımı ile Apache Spark ML büyük veri ardışık düzenini birleştiren hibrit bir metodoloji önerdik. Önerilen metodolojinin performansını değerlendirmek için vaka çalışması olarak, Rus-Ukrayna Savaşı'nın patlak vermesiyle ilgili bir duygu analizi gerçekleştirdik. Hibrit metodolojinin ampirik bulguları, yüksek güvenilirlik ve aktivite ile gücünü göstermiştir.

Özet (Çeviri)

In today's“big data”era, the use of social media platforms is experiencing an accelerated expansion. Social media content reached a level that made traditional analysis methods ineffective and almost impossible to handle the enormous scope of data, demanding the adoption of alternative analytical methodologies. In this thesis, we employed big data technologies to build a scalable framework to manage the extensive scale of social media content and tested it in two use cases: In the first use case, we proposed a big data methodology for suicidal ideation prediction from social media content. The proposed methodology allowed for data handling in two phases: batch and real-time streaming data. The methodology comprises four components: Apache Kafka as an input system for ingesting data streams; Apache Spark Structured Streaming for handling data streams; Apache Spark ML for building classification algorithms; and Power BI as a sink system for visualizing prediction results. We conducted multiple experiments using various feature-extraction techniques with different testing scenarios. The experimental findings revealed that the proposed methodology yielded high performance for classifying and predicting suicidal ideation within the two processing phases. The second use case presented in this thesis primarily focused on building a high-level and scalable sentiment analysis methodology using large-scale batch social media data content. Manual sentiment annotation frequently encounters ambiguity and subjectivity while dealing with social media content. Hence, there is a growing need to replace manual annotation with automated approaches to increase the dependability of the process. However, even with automated methods, challenges remain, particularly for lexicon-based approaches. These approaches often face challenges in classifying sentiment in text data that falls outside the scope of a single lexicon corpus. Therefore, we proposed a hybrid methodology that combined an ensemble lexicon approach and Apache Spark ML big data pipeline. As casework to assess the proposed methodology's performance, we conducted a sentiment analysis regarding the outbreak of the Russo-Ukrainian War. The empirical findings of the hybrid methodology demonstrated its power with high reliability and activity.

Benzer Tezler

  1. FSOLAP: A fuzzy logic-based spatial OLAP framework for spatial-temporal analytics and querying

    FSOLAP: Uzamsal-zamansal analitik ve sorgulama için bulanık mantık tabanlı uzamsal OLAP çerçevesi

    SİNAN KESKİN

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADNAN YAZICI

  2. Eşle/indirge yöntemine dayalı dağıtık hesaplama ile uydu görüntüleri üzerinden nesne çıkarım mimarisi

    A map/reduce distributed and scalable big data framework for object extraction from mosaic satellite images

    SÜLEYMAN EKEN

    Doktora

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET SAYAR

  3. RESTful servislerin endüstriyel kullanımı için bir çerçeve

    A framework for industrial usage of RESTful services

    UĞUR ÜNTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ DİKENELLİ

  4. Sanal kablosuz duyarga ağ tabanlı bir dağıtık-paralel siber fiziksel sistem tasarımı

    Design of a distributed-parallel cyber physical system based on virtual wireless network

    GÜNGÖR YILDIRIM

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. YETKİN TATAR

  5. Geniş ölçekli veriler üzerinde sınıflandırma ve bölütleme amaçlı evrişimsel sinir ağı ve istatistiksel modellerin geliştirilmesi

    Development of convolutional neural network and statistical models for classification and segmentation on large-scale data

    NURULLAH ÇALIK

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. LÜTFİYE DURAK ATA