Geri Dön

A novel pre-processing workflow for popularity prediction in social media

Sosyal medyada popülerlik tahmini için yeni bir ön işleme iş akışı

  1. Tez No: 695793
  2. Yazar: HÜSEYİN BUĞRA YILDIRIM
  3. Danışmanlar: DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Twitterdaki kullanıcılar, gönderiler ve beğeni, retweet gibi reaksiyonlar aracılığıyla birbirleriyle sürekli etkileşim içerisindedirler. Tweetler genellikle insanlardan az sayıda tepkiler alırken, onlardan sadece birkaçı öne çıkan bir tepki alır. Bu nedenle, reaksiyon sayıları yoğun sağa çarpık bir dağılıma sebep olurlar. Ayrıca, bazı tweetler, olağan özellikler ile tasvir edilemeyen ve genellikle bir konunun ilk habercisi olma veya kitlesel reaksiyonlar gibi olağan üstü durumlara bağlı olan beklenmedik bir etkileşim performansı gösterir. Sosyal medya veri setinin aşırı derecede çarpık dağılımı ile varsayılan ve gözlemlenen reaksiyon sayıları arasındaki farklılık, temel olarak model tahmin sürecindeki iki bozucu unsurdur. Bu tez, ilk olarak sosyal medya veri setlerindeki aykırı değerler ve reaksiyon sayılarındaki belirsizlik kavramlarını ele almaktadır. Sosyal medyadaki aykırı değerlerin belirlenmesi için bir yöntem önerilmekte ve aykırı değerlerin modelleme üzerindeki olumsuz etkileri sunulmaktadır. Son olarak, ayrıklaştırmanın uygulandığı ve ağırlıklı olarak daha az sayıda örnek içeren kümelerden sentetik verilerin üretildiği SMOTE tabanlı bir veri arttırma yöntemi sunulmaktadır. Sonuçlar, aykırı değerlerin temizlendiği ve veri arttırmanın uygulandığı modellerin, bunlar olmadan oluşturulanlardan biraz daha iyi bir tahmin performansı sağladığını göstermektedir. Bu araştırma, tweetlerin popülerliğini tahmin etmeyi amaçlayan çalışmalar için pratik çıkarımlar sunmaktadır.

Özet (Çeviri)

Users in Twitter are in continuous interaction with each other through posts and reactions such as likes and retweets. Tweets often get a little reaction from people, with only a few of them receiving a prominent response. Thus, reaction numbers result in having a heavy right-skewed distribution. Furthermore, some tweets show unexpected response performance that cannot be depicted by standard features and are often dependent on extraordinary situations such as being the first reporter and mass reaction. Heavily skewed distribution of social media dataset and variation between expected and the observed reactions are mainly two distorting factors for model prediction. This thesis initially addresses the concept of outliers and uncertainty in reaction numbers in social media datasets. A method for identifying social media outliers is proposed, and the adverse effects of outliers on modeling are presented. Finally, a SMOTE-based data augmentation method, where a discretization is applied and synthetic data is generated predominantly from the clusters with fewer instances, is presented. The results show that the models where outlier removal and data augmentation are applied achieve slightly better prediction performance than those constructed without them. This research presents practical implications for studies that aim to predict the popularity of tweets.

Benzer Tezler

  1. Extracting activated regions of brain with FMRI data using a robust unsupervised learning approach

    Gürbüz denetimsiz öğrenme yaklaşımı ile beynin aktif bölgelerini FMRI verileriyle çıkarma

    HUSSAIN ABED JABER ALZIARJAWEY

    Doktora

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiAnkara Yıldırım Beyazıt Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Prof. Dr. İLYAS ÇANKAYA

  2. Building of Turkish propbank and semantic role labeling of Turkish

    Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi

    GÖZDE GÜL ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  3. Kuyu içi (VSP) sismik verilerinin konvansiyonel olmayan yöntemlerle kömür aramacılığına yönelik entegre analizi

    Integrated analysis of wellbore seismic data by unconventional methods for coal exploration

    ALİ CANKURTARANLAR

    Doktora

    Türkçe

    Türkçe

    2024

    Jeofizik Mühendisliğiİstanbul Teknik Üniversitesi

    Jeofizik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA EMİN DEMİRBAĞ

  4. Gen açıklama verilerinin sınıflandırılmasında yeni bir özellik seçimi yöntemi

    A novel feature selection method for classification of gene expression data

    DERYA TURFAN

    Doktora

    Türkçe

    Türkçe

    2020

    BiyoistatistikHacettepe Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. MURTAZA ÖZGÜR YENİAY

  5. A novel framework for disaster resilient smart cities: Using big data analytics

    Afete dayanıklı akıllı şehırler için özgun bir çerceve: Büyük veri analitiği kullanımı

    SYED ATTIQUE SHAH

    Doktora

    İngilizce

    İngilizce

    2019

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Coğrafi Bilgi Teknolojileri Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER