A novel pre-processing workflow for popularity prediction in social media

Sosyal medyada popülerlik tahmini için yeni bir ön işleme iş akışı

PDF İndir

Tez No: 695793
Yazar: HÜSEYİN BUĞRA YILDIRIM
Danışmanlar: DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Enformatik Enstitüsü
Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 90

Özet

Twitterdaki kullanıcılar, gönderiler ve beğeni, retweet gibi reaksiyonlar aracılığıyla birbirleriyle sürekli etkileşim içerisindedirler. Tweetler genellikle insanlardan az sayıda tepkiler alırken, onlardan sadece birkaçı öne çıkan bir tepki alır. Bu nedenle, reaksiyon sayıları yoğun sağa çarpık bir dağılıma sebep olurlar. Ayrıca, bazı tweetler, olağan özellikler ile tasvir edilemeyen ve genellikle bir konunun ilk habercisi olma veya kitlesel reaksiyonlar gibi olağan üstü durumlara bağlı olan beklenmedik bir etkileşim performansı gösterir. Sosyal medya veri setinin aşırı derecede çarpık dağılımı ile varsayılan ve gözlemlenen reaksiyon sayıları arasındaki farklılık, temel olarak model tahmin sürecindeki iki bozucu unsurdur. Bu tez, ilk olarak sosyal medya veri setlerindeki aykırı değerler ve reaksiyon sayılarındaki belirsizlik kavramlarını ele almaktadır. Sosyal medyadaki aykırı değerlerin belirlenmesi için bir yöntem önerilmekte ve aykırı değerlerin modelleme üzerindeki olumsuz etkileri sunulmaktadır. Son olarak, ayrıklaştırmanın uygulandığı ve ağırlıklı olarak daha az sayıda örnek içeren kümelerden sentetik verilerin üretildiği SMOTE tabanlı bir veri arttırma yöntemi sunulmaktadır. Sonuçlar, aykırı değerlerin temizlendiği ve veri arttırmanın uygulandığı modellerin, bunlar olmadan oluşturulanlardan biraz daha iyi bir tahmin performansı sağladığını göstermektedir. Bu araştırma, tweetlerin popülerliğini tahmin etmeyi amaçlayan çalışmalar için pratik çıkarımlar sunmaktadır.

Özet (Çeviri)

Users in Twitter are in continuous interaction with each other through posts and reactions such as likes and retweets. Tweets often get a little reaction from people, with only a few of them receiving a prominent response. Thus, reaction numbers result in having a heavy right-skewed distribution. Furthermore, some tweets show unexpected response performance that cannot be depicted by standard features and are often dependent on extraordinary situations such as being the first reporter and mass reaction. Heavily skewed distribution of social media dataset and variation between expected and the observed reactions are mainly two distorting factors for model prediction. This thesis initially addresses the concept of outliers and uncertainty in reaction numbers in social media datasets. A method for identifying social media outliers is proposed, and the adverse effects of outliers on modeling are presented. Finally, a SMOTE-based data augmentation method, where a discretization is applied and synthetic data is generated predominantly from the clusters with fewer instances, is presented. The results show that the models where outlier removal and data augmentation are applied achieve slightly better prediction performance than those constructed without them. This research presents practical implications for studies that aim to predict the popularity of tweets.

Benzer Tezler

Tez No
933275
Sözel olmayan insan-robot-biyomalzeme etkileşimi üzerine miselyum tabanlı işbirlikçi bir tasarım yaklaşımı
Non-verbal human-robot-biomaterial interaction a mycelium-based collaborative design approach
ŞEYMA BENGÜ ÖZMUTLU
Yüksek Lisans
Türkçe
2025
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
DOÇ. DR. AYŞEGÜL AKÇAY KAVAKOĞLU
Tez No
650803
Extracting activated regions of brain with FMRI data using a robust unsupervised learning approach
Gürbüz denetimsiz öğrenme yaklaşımı ile beynin aktif bölgelerini FMRI verileriyle çıkarma
HUSSAIN ABED JABER ALZIARJAWEY
Doktora
İngilizce
2020
Elektrik ve Elektronik Mühendisliği Ankara Yıldırım Beyazıt Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Prof. Dr. İLYAS ÇANKAYA
Tez No
496320
Building of Turkish propbank and semantic role labeling of Turkish
Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi
GÖZDE GÜL ŞAHİN
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
Tez No
909053
Kuyu içi (VSP) sismik verilerinin konvansiyonel olmayan yöntemlerle kömür aramacılığına yönelik entegre analizi
Integrated analysis of wellbore seismic data by unconventional methods for coal exploration
ALİ CANKURTARANLAR
Doktora
Türkçe
2024
Jeofizik Mühendisliği İstanbul Teknik Üniversitesi
Jeofizik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA EMİN DEMİRBAĞ
Tez No
948937
Renal hücreli karsinomun otomatik derece sınıflandırması için U-net tabanlı derin öğrenme ağı
U-net based deep learning network for automatic grade classification of renal cell carcinoma
SÜEDA KAYA
Yüksek Lisans
Türkçe
2025
Biyomühendislik İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MÜRVET KIRCI

Geri Dön