A novel pre-processing workflow for popularity prediction in social media
Sosyal medyada popülerlik tahmini için yeni bir ön işleme iş akışı
- Tez No: 695793
- Danışmanlar: DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 90
Özet
Twitterdaki kullanıcılar, gönderiler ve beğeni, retweet gibi reaksiyonlar aracılığıyla birbirleriyle sürekli etkileşim içerisindedirler. Tweetler genellikle insanlardan az sayıda tepkiler alırken, onlardan sadece birkaçı öne çıkan bir tepki alır. Bu nedenle, reaksiyon sayıları yoğun sağa çarpık bir dağılıma sebep olurlar. Ayrıca, bazı tweetler, olağan özellikler ile tasvir edilemeyen ve genellikle bir konunun ilk habercisi olma veya kitlesel reaksiyonlar gibi olağan üstü durumlara bağlı olan beklenmedik bir etkileşim performansı gösterir. Sosyal medya veri setinin aşırı derecede çarpık dağılımı ile varsayılan ve gözlemlenen reaksiyon sayıları arasındaki farklılık, temel olarak model tahmin sürecindeki iki bozucu unsurdur. Bu tez, ilk olarak sosyal medya veri setlerindeki aykırı değerler ve reaksiyon sayılarındaki belirsizlik kavramlarını ele almaktadır. Sosyal medyadaki aykırı değerlerin belirlenmesi için bir yöntem önerilmekte ve aykırı değerlerin modelleme üzerindeki olumsuz etkileri sunulmaktadır. Son olarak, ayrıklaştırmanın uygulandığı ve ağırlıklı olarak daha az sayıda örnek içeren kümelerden sentetik verilerin üretildiği SMOTE tabanlı bir veri arttırma yöntemi sunulmaktadır. Sonuçlar, aykırı değerlerin temizlendiği ve veri arttırmanın uygulandığı modellerin, bunlar olmadan oluşturulanlardan biraz daha iyi bir tahmin performansı sağladığını göstermektedir. Bu araştırma, tweetlerin popülerliğini tahmin etmeyi amaçlayan çalışmalar için pratik çıkarımlar sunmaktadır.
Özet (Çeviri)
Users in Twitter are in continuous interaction with each other through posts and reactions such as likes and retweets. Tweets often get a little reaction from people, with only a few of them receiving a prominent response. Thus, reaction numbers result in having a heavy right-skewed distribution. Furthermore, some tweets show unexpected response performance that cannot be depicted by standard features and are often dependent on extraordinary situations such as being the first reporter and mass reaction. Heavily skewed distribution of social media dataset and variation between expected and the observed reactions are mainly two distorting factors for model prediction. This thesis initially addresses the concept of outliers and uncertainty in reaction numbers in social media datasets. A method for identifying social media outliers is proposed, and the adverse effects of outliers on modeling are presented. Finally, a SMOTE-based data augmentation method, where a discretization is applied and synthetic data is generated predominantly from the clusters with fewer instances, is presented. The results show that the models where outlier removal and data augmentation are applied achieve slightly better prediction performance than those constructed without them. This research presents practical implications for studies that aim to predict the popularity of tweets.
Benzer Tezler
- Extracting activated regions of brain with FMRI data using a robust unsupervised learning approach
Gürbüz denetimsiz öğrenme yaklaşımı ile beynin aktif bölgelerini FMRI verileriyle çıkarma
HUSSAIN ABED JABER ALZIARJAWEY
Doktora
İngilizce
2020
Elektrik ve Elektronik MühendisliğiAnkara Yıldırım Beyazıt ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Prof. Dr. İLYAS ÇANKAYA
- Building of Turkish propbank and semantic role labeling of Turkish
Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi
GÖZDE GÜL ŞAHİN
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
- Kuyu içi (VSP) sismik verilerinin konvansiyonel olmayan yöntemlerle kömür aramacılığına yönelik entegre analizi
Integrated analysis of wellbore seismic data by unconventional methods for coal exploration
ALİ CANKURTARANLAR
Doktora
Türkçe
2024
Jeofizik Mühendisliğiİstanbul Teknik ÜniversitesiJeofizik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA EMİN DEMİRBAĞ
- Gen açıklama verilerinin sınıflandırılmasında yeni bir özellik seçimi yöntemi
A novel feature selection method for classification of gene expression data
DERYA TURFAN
Doktora
Türkçe
2020
BiyoistatistikHacettepe Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. MURTAZA ÖZGÜR YENİAY
- A novel framework for disaster resilient smart cities: Using big data analytics
Afete dayanıklı akıllı şehırler için özgun bir çerceve: Büyük veri analitiği kullanımı
SYED ATTIQUE SHAH
Doktora
İngilizce
2019
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiCoğrafi Bilgi Teknolojileri Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER