Geri Dön

Popularity prediction of image posts in social networks based on user and post attributes

Sosyal ağlarda görüntü içerikli paylaşımların kullanıcı ve paylaşım özelliklerine dayalı popülerlik tahmini

  1. Tez No: 583379
  2. Yazar: MEHMETCAN GAYBERİ
  3. Danışmanlar: PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 93

Özet

İnternet kullanıcısı sayısı ve özellikle sosyal ağların kullanıcı sayıları son yıllarda gelişimini ve büyümesini hızla sürdürmektedir. Paralel olarak sosyal ağlardaki etkileşim ve içerik sayıları da hızla artmıştır. Bunun yanında, çoğu sosyal ağ görsel tabanlı bir platforma dönüşmüştür. Günümüzde popüler olan birçok sosyal ağın temelini görsel materyaller oluşturmaktadır. Her gün milyonlarca içerik sosyal ağlar üzerinde paylaşılmakta ve bunların çok büyük bir kısmı görsel materyallerden oluşmaktadır. Diğer yandan, sosyal ağlar birçok farklı alanı bünyesine katarak, hayatımızın çok farklı noktalarına değmeye başlamışlardır. Sosyal ağlar artık ürün satışı, reklam, oyun ve benzeri birçok alanda hizmet vermektedir. Dolayısıyla, sosyal ağlar sosyal ağ özelliklerinin yanı sıra birçok farklı alanda hizmet sunmaktadır. Böylece sosyal ağlar günlük hayatta çok daha fazla kullanılır hale gelmiştir. Bu kapsamlı büyüme ve sosyal ağların sahip olduğu büyük veri sebebiyle, sosyal ağlar ve sosyal ağlarda tahminleme, sınıflandırma gibi alanlarda çok sayıda çalışma yapılmaktadır. Sosyal ağların içerdiği veri miktarındaki bu büyük artış, bu alanda birçok çalışma yapılmasının önünü açmaktadır. Literatürde ve piyasada sosyal ağları ve sosyal ağların içerdiği büyük verileri temel alan çok sayıda çalışma yer almaktadır. Bu çalışmalar sosyal ağların içerdiği bu verinin analizi ve buna bağlı olarak yapılan çıkarımları ve bu verileri kullanarak yapılan çeşitli tahminlemeleri odak noktasına almaktadır. Bazı çalışmalarda araştırmacılar veriyi anlamak ve bu veri vasıtasıyla kullanıcılar ve paylaşımlarının durumları hakkında çıkarımlar yapmak isterken, bazı çalışmalarda ise gelecekteki durumlara yönelik tahminlemeler üzerinde çalışılmaktadır. Bu tahminlemeler ise genel olarak bağlantı tahmini, kullanıcı davranış tahmini ve popülerlik tahmini olarak öne çıkmaktadır. Bu çalışma kapsamında son zamanlarda gündemde olan popülerlik tahminine katkı sağlayabilecek bir yaklaşım izlenmiştir. Bu çalışma, en popüler sosyal ağlardan biri olan Instagram'ı temel almaktadır. Çalışmanın amacı, bir paylaşımın gelecek popülerliğini, farklı özellikleri ele alarak tahmin etmektir. Bu kapsamda hazırlanan veri, kullanıcı profiline ve yapılan paylaşıma ait birçok türetilmiş özellik içermektedir. Bu özelliklere istatistiksel bazı özellikler eklenmiştir. Ek olarak, görüntü nesne tanıma metotları kullanılarak, paylaşımlarda yer alan görüntülerin içerdiği nesnelere ait de birçok özellik eklenmiştir. Popülerlik tahminine konu olan alanlar farklı kategorilere bölünebilir; görüntü temelli içeriklerde tahminleme, video temelli içeriklerde tahminleme ve yazı temelli içeriklerde tahminleme (mikro-bloglar ve haberler). Her bir kategori, verileri ve uygulanan metotlar konusunda doğal olarak ayrışmaktadır. Bu çalışma kapsamında, çeşitli Makine Öğrenmesi algoritmaları kullanılarak görüntü temelli popülerlik tahmini üzerinde çalışılmıştır. Ayrıca, görüntü temelli içeriklerde tahminleme, video temelli içeriklerde tahminleme ve yazı temelli içeriklerde tahminleme üzerine yapılan çok sayıda çalışma detaylı bir şekilde incelenmiş ve özetlenmiştir. Bu çalışma literatüre farklı alanlarda katkıda bulunmayı amaçlamaktadır. Bunların ilki literatürde yer alan Instagram temelli çalışmalardan daha geniş bir veri setine sahip olmasıdır. Diğer yandan kullanıcı ve paylaşım özelliklerini, istatistiksel ve görüntü temelli özelliklerle birleştirerek farklı tipteki içerikler hakkında tahminleme yapılması amaçlanmıştır (görüntü, video ve çoklu içerik temelli paylaşımlar). Literatürdeki birçok çalışma sadece görüntü veya sadece video temelli tahminleme yaparken, bu çalışmada her paylaşım tipi için tahminleme hedeflenmiştir. Ek olarak mevcut çalışmalar kategori bazlı veya spesifik veriler üzerinde tahminleme yaparken veya zaman bazlı, kullanıcı bazlı tahminlemeler üzerinde çalışırken, bu çalışmada genel bir tahminleme modeli oluşturulması amaçlanmıştır. Bu model zaman, kategori, kullanıcı ve paylaşım tipinden bağımsız olacaktır. Çalışmanın gerçeklenmesi için farklı araç ve metotlardan faydalanılmıştır. Veri toplama işlemleri için Crawler adı verilen veri toplayıcı araçlar kullanılmıştır. Nesne tanıma metotları kullanılmış, bir görüntüde yer alan nesnelerin tanınması ve bu nesne bilgileri kullanılarak veriye yeni özellikler eklenmesi sağlanmıştır. Popüler ve sıkça kullanılan makine öğrenme algoritmaları kullanılarak tahminlemeler gerçekleştirilmiştir. Bu algoritmalar sırasıyla; Lineer Regresyon, Karar Ağacı Regresyonu, Rastgele Orman Regresyonu, Gradyan Artırma Regresyonu, AdaBoost Regresyonu, En Yakın K Komşu Regresyonu, Çok Katmanlı Algılayıcı Regresyonu ve Derin Öğrenme Algoritmasıdır. Çalışma kapsamında, Crawler adı verilen veri toplayıcı araçlar vasıtasıyla, 60.795 farklı kullanıcı hesabına ait veriler toplanmıştır. Bu 60.795 kullanıcı hesabına ait bilgiler, bir tohum hesap havuzu vasıtasıyla rastgele bir şekilde belirlenerek toplanmıştır. Tohum hesap havuzu, farklı kategorilere sahip 110 Instagram hesabı seçilerek oluşturulmuştur. Bu 110 tohum hesap, çok sayıda takipçiye sahip kuruluş veya ünlü kişilerden oluşmaktadır. Spor, eğitim, siyaset, sinema ve benzeri birçok farklı kategori göz önüne alınarak bu tohum hesaplar belirlenmiştir. 60.795 kullanıcı ise, bu 110 tohum hesabın son paylaşımları ile etkileşime geçen kullanıcılar arasında rastgele bir şekilde toplanmıştır. Toplanan hesaplardan aktif bir şekilde platformu kullanan ve belirli bir miktarda paylaşıma sahip 22.359 tanesi ise çalışma kapsamında paylaşım verisi toplamak adına belirlenmiştir. Bu hesapların son 100 paylaşımına ait veriler veya son 365 gün içerisinde yaptıkları güncel paylaşımlarına ait veriler veri toplayıcı araçlar vasıtasıyla toplanarak kaydedilmiştir. Toplamda 210.630 adet paylaşıma ait veri kaydedilerek veri seti hazırlanmıştır. Bu veri seti, paylaşımlara ait bilgileri ve bu paylaşımı yapan hesaba ait bilgileri içermektedir. Ek olarak, görüntü nesne tanıma metotları kullanılarak, veri setinin sahip olduğu özellikler arttırılmıştır. Böylece veri seti hem paylaşım hem paylaşımı yapan kullanıcı hem de paylaşımda yer alan görüntünün içerdiği objeler ile ilgili bilgiler içerir hale getirilmiştir. Bunların yanında hesap bilgileri ve paylaşım bilgileri türetilerek veriye yeni özellikler de eklenmiştir. Son olarak ise, paylaşımlara ait istatistiksel bazı özellikler (zaman bazlı ortalama ve standart sapmalar) de kullanıcıların zaman içindeki davranış bilgilerini temsil edecek şekilde veriye eklenmiştir. Instagram platformunda 3 farklı paylaşım tipi yer almaktadır. Bunlar: görüntü, video ve çoklu içerik şeklindedir. Çalışma kapsamında görüntü içerikleri olduğu gibi kullanılmıştır. Video içeriklerde ise, video henüz oynatılmadan önce gösterilen görüntü çalışma kapsamında paylaşımın içeriği olarak ele alınmıştır. Ayrıca çoklu içerikten oluşan paylaşımlarda ise ilk içerik eğer görüntü ise bu görüntü, ilk içerik video ise bu video oynatılmadan önce gösterilen görüntü paylaşımın içeriği olarak ele alınmıştır. Tüm bu adımlar sonrasında, 210.630 adet paylaşıma ait toplanan verilerden kullanılmayacak olanlar elenmiş, paylaşım ve hesaba ait bilgiler türetilerek yeni özellikler eklenmiş, nesne tanıma metotları vasıtasıyla görüntü temelli yeni özellikler eklenmiş ve farklı paylaşım tipleri göz önüne alınarak tahminlemede kullanılacak son veri setine ulaşılmıştır. Sonuç olarak, veri setinde yer alan her kullanıcıya ait en güncel 10 paylaşım (verinin yaklaşık %18'i) test verisi olarak, geri kalan %82'si ise eğitim verisi olarak kullanılmıştır. En güncel ve popüler Makine Öğrenmesi algoritmaları bu verileri kullanarak eğitilmiş ve modellenmiştir. Popülerlik bilgisi, farklı çalışmalarda farklı açılardan ele alınmıştır. Diğer çalışmalarda olduğu gibi, bu çalışmada da beğeni sayısı yüksek varyasyona sahip olması sebebiyle tercih edilmemiştir. Beğeni sayısının direkt kullanımı yerine, referans olarak gösterilen ve incelenen çalışmaların bir kısmında olduğu gibi paylaşımların beğeni sayılarının logaritma değeri popülerlik bilgisi olarak ele alınmıştır. Bu tercihteki en büyük sebep, bu logaritmik olarak normalize edilmiş değerin varyasyonunun daha düşük olması ve bu sayede daha sağlıklı sonuçlar alınacak olmasıdır. Özetle, paylaşımların beğeni sayısı yerine bu sayının logaritma değeri, birçok çalışmada olduğu gibi popülerlik değeri olarak ele alınmış ve bu değer tahmin edilmeye çalışılmıştır. Bu çalışma kapsamında bu değer 0 ile 18,48 arasında değişmektedir. Makine Öğrenmesi algoritmaları farklı parametreler ile test edilmiş ve elde edilen başarı oranlarına göre en iyi parametreler ile sabitlenmişlerdir. Bu parametreler çalışma içerisinde detaylı bir şekilde açıklanmıştır. Eğitilen modeller bu popülerlik değerini farklı başarı oranları ile tahmin edebilmişlerdir. Ancak Rastgele Orman Regresyonu, Gradyan Artırma Regresyonu, Çok Katmanlı Algılayıcı Regresyonu ve Derin Öğrenme algoritmaları diğer algoritmalara göre daha başarılı sonuçlar almıştır. Bu dört algoritma içerisinden ise Rastgele Orman Regresyonu ve Gradyan Artırma Regresyonu, benzer en iyi sonuçları elde ederek, 0,92 sıra korelasyonu ve 0,4212 ortalama mutlak hata ile gelecek popülerliği tahmin edebilmişlerdir. Sonuçlar, modellerin hazırlanan veri seti üzerinde, zenginleştirilen özelliklerinin istatistiksel ve görüntü temelli özellikler ile birleştirilmesi sonucunda iyi bir tahminleme yapabildiğini göstermektedir. Metot ve veri setlerinin farklı olduğu diğer çalışmalar ile direkt bir karşılaştırma yapmak mümkün olmasa da benzer metot ve Instagram veri setini kullanarak tahminleme yapan diğer çalışmalara göre çok daha yüksek başarı oranları ile tahminlemeler gerçekleştirilmiştir. İlerleyen çalışmalarda veri seti genişletilerek, daha detaylı nesne tanıma özellikleri eklenerek ve eklenen yeni özellikler zenginleştirilerek daha iyi sonuçlar alınabilecektir.

Özet (Çeviri)

The number of Internet users has continued to increase, and social networks kept up their growth in recent years. In parallel, social networks also kept up their growth in the number of users, contents, and interactions. Moreover, the multimedia content sharing trend dramatically increased. Millions of contents are shared through various social networks every day and most of these contents are multimedia contents. Most of the popular and common social network contents are generally visual contents. On the other hand, social networks have also touched many different areas of our lives. Social networks have been becoming also gaming, commerce, and advertising platforms. Due to this sophistication of social networks and big data they contain, there are a number of studies based on social networks. The rise in the amount of the data contained in social networks triggered many studies centering on social networks. There exist a number of studies analyzing social network data and making predictions using social network data. While some of the studies focus on analyzing and understanding the data and struggling to infer the status of users or posts, some of them aim to predict the future. There are a number of researchers working on link prediction, user behavior prediction, and popularity prediction. This study focuses on contributing to the popularity prediction task in social networks. This study is based on one of the most popular social networks, Instagram. The study aims to predict the future popularity of posts considering various features. The feature set contains user-based profile features, post related features, statistical features and image object detection features of the post. Popularity prediction tasks can be divided into different categories, such as image-based content, video-based content and textual based (micro-blog and news) content popularity predictions. For each category, methods and datasets differ fundamentally. In this study, image-based content popularity prediction was performed with the help of various Machine Learning algorithms. This study contributes popularity prediction task by using a larger dataset than most of the existing studies, combining user and post features with image-related features and statistical features and also aiming to make predictions for different types of contents with the same model, (images, videos and carousel contents) not only for image posts. Additionally, while existing studies focus on category-specific data or category-specific popularity prediction, time-based popularity prediction, account-based popularity prediction and binary classification prediction (popular, unpopular), this study aims to present a generic popularity prediction method regardless of time, category, account and post type. In the study, with the help of a crawler, 60.795 user profiles are collected as candidate user accounts. These user profiles are randomly selected by using a seed account pool. The seed account pool is manually created by popular and official Instagram accounts. The seed account pool contains 110 Instagram accounts with various categories. 60.795 user profiles are collected based on their interactions to seed accounts posts. After filtering candidate user accounts, 22.359 of them were used to crawl post data from Instagram. These 22.359 user accounts are the ones that are active on the platform. The last 100 posts or posts they posted in last 365 days were crawled and collected. In total 210.630 Instagram posts are crawled and collected with their post and user profile-based data. In addition, by using image object detection methods, the feature set was enriched with the object information in the post. Consequently, the most recent 10 posts of each profile (nearly 18% of the data) were used as test dataset and the rest (82% of the data) was used as train dataset. Most common Machine Learning algorithms were run on the dataset. Models predicted the log number of likes of posts as popularity value (ranging between 0 and 18,48) and the results show that the popularity of Instagram posts can be predicted with 0,92 rank-order correlation and 0,4212 Mean Absolute Error. The results indicate that combining user and post features with statistical features and image object detection related features yields good performance on popularity prediction.

Benzer Tezler

  1. Political marketing and the U.S. Presidential campaign strategies: A functional and rhetorical analysis of Donald Trump's and Hillary Clinton's discourse on Twitter

    Politik pazarlama ve ABD Cumhurbaşkanlığı kampanya stratejileri: Donald Trump ve Hillary Clinton'ın Twitter söylemlerinin fonksiyonel ve retorik analizi

    REZA BANAVAND

    Doktora

    İngilizce

    İngilizce

    2020

    Siyasal BilimlerDokuz Eylül Üniversitesi

    İşletme (İngilizce) Ana Bilim Dalı

    PROF. DR. BURCU İLTER

  2. An efficient FPGA implementation of cnn specialized in image recognition for breast cancer

    Başlık çevirisi yok

    OMAR MHMOOD ABDULHADİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİstanbul Gelişim Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. INDRİT MYDERRİZİ

  3. Hevc'de iç tahmin için heterojen CPU+GPU platformlarında bir paralel model kurulması

    A parallel model for intra prediction in hevc on heterogeneous CPU+GPU platforms

    MÜCAHİT KAPLAN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALİ AKMAN

  4. Periodontal defektlerin hacimsel olarak tanımlanmasında konik ışınlı bilgisayarlı tomografi ile mikrobilgisayarlı tomografinin in-vitro karşılaştırılması

    In vitro comparison of cone beam computed tomography and microcomputed tomography i̇n the volumetric definition of periodontal defects.

    MAHMURE AYŞE TAYMAN

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2017

    Diş HekimliğiAnkara Üniversitesi

    Periodontoloji Ana Bilim Dalı

    PROF. DR. MERAL GÜNHAN

  5. Yapay zekâ teknikleriyle mekâna ve zamana göre giysi kombinasyonlarının yapılması

    Making clothing combinations according to place and time with artificial intelligence techniques

    NAZANIN SOUDMAND

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Giyim EndüstrisiEge Üniversitesi

    Moda Tasarımı Ana Bilim Dalı

    DOÇ. DR. SERKAN BOZ