Geri Dön

Impact assessment & prediction of tweets and topics

Tweetlerin ve konuların etkisinin değerlendirilmesi ve önceden tahmin edilmesi

  1. Tez No: 478661
  2. Yazar: İNANÇ ARIN
  3. Danışmanlar: PROF. DR. YÜCEL SAYGIN, PROF. DR. NİHAT KASAP
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 140

Özet

İnsanlar Twitter üzerinde bilgi ve fikir paylaşırlarken, araştırmacılar ve politika belirleyiciler de çeşitli olaylara karşı toplumsal algıyı öğrenmek isterler. Bu amacı gerçekleştirmenin bir yolu da tweetlerin etkisini ölçmektir. Bu tez içerisinde 3 tane araştırma konusunu cevaplamaya çalıştık: (1)“Bir tweetin etkisi nasıl tanımlanır?”, (2)“Tweetlerin ve konuların etkisini nasıl ölçeriz?”, (3)“Tweetlerin ve konuların etkisini önceden tahmin edebilir miyiz?”. Bu sorulara cevap bulabilmek için öncelikle retweetlerin tweet etkisi üzerindeki önemini vurguluyoruz. Sonrasında bir tweetin yüksek sayıda retweet alıp almayacağını tahmin edebilmek için bir öğrenim modeli hazırladık. Bunun dışında kıvrımsal sinir ağlarını kullanarak tweetlerden içerik bazında bazı özellikler de çıkardık. Tweetlerin gerçek etkisini daha doğru bir şekilde ölçebilmek adına“gizli retweetler”kavramını tanımladık. İnsanlar var olan tweetleri yeniden gönderirlerken tweetin başına ya da sonuna bazı yorumlar ekleyebiliyorlar. Bunun dışında bilerek ya da bilmeyerek başka insanlarla tamamen aynı ya da çok benzer tweetleri yazabiliyorlar. Bu yüzden gizli retweetlerin incelenmesi tweetlerin gerçek etkisini ölçmek için son derece önemlidir. Bununla beraber gizli retweetlerin bulunması ve sayılarının tam olarak belirlenmesi çok pahalı bir işlemdir. Ağaç bazlı yapılarla ve lokal duyarlılık adresleme tekniğiyle geliştirdiğimiz karakter bazlı kümeleme yöntemlerinin bu pahalı işlemi çok etkili bir şekilde tamamlayabildiğini gösterdik. Tweetlerin arasındaki uzaklığı karakter bazlı metriklerle ölçen çeşitli kümeleme yöntemleri geliştirdik ve bunları deneysel olarak değerlendirdik. En uzun ortak altdizi yöntemi tweet gibi kısa metin dokümanları arasındaki benzerliği ölçmek için çok kullanılan bir yöntemdir. Ancak bu yöntem bir o kadar da pahalıdır. Bu sebeple en uzun altdizgi bazlı genelleştirilmiş son ek ağaçlarından faydalandık. Ayrıca yoğunluk bazlı kümeleme algoritması geliştirdik; sonrasında bu algoritmayı genelleştirilmiş son ek ağaçları ve lokal duyarlılık adresleme yöntemini kullanarak bu algoritmayı hızlandırdık.

Özet (Çeviri)

People tend to spread information and share their ideas in Twitter, while researchers and policy makers would like to understand public opinion and reactions of people in Twitter towards various events. One way to do that is assessing and predicting the impact of tweets. In this thesis, we tried to answer three questions: (1)“What does impact of a tweet mean?”, (2)“How do we measure the impact of tweets or topics?”, and (3)“Can we predict the impact of tweets or topics?”. In order to address these questions, we first emphasize the role of retweets and their importance in impact assessment. We then show that we can build a model through supervised learning to predict if a tweet will get a high number of retweets. We extracted various features from tweets including content based features through Convolutional Neural Networks (CNN). In order to have a more accurate impact assessment, we introduced the concept of hidden retweets. People tend to re-post tweets by adding some extra comments to the beginning or to the end of original tweet. Also they intentionally or unintentionally post the exact or near exact tweets with other people without explicitly retweeting them. Therefore hidden retweets are quite important for measuring the real impact of tweets. However, it is also computationally expensive to identify and count the number of hidden retweets. We show that aggregating hidden retweets can be done efficiently through a lexical similarity based clustering algorithm enhanced with a tree structured index and locality sensitive hashing. We adopted a document clustering based approach for discovering the hidden retweets. We developed and evaluated several clustering algorithms with lexical similarity as the distance measure between tweets. Longest Common Subsequence (LCS) is a widely accepted method to calculate the lexical similarity between short text documents such as tweets, but it is also very expensive. Therefore, we utilized an advanced data structure which is Generalized Suffix Tree (GST) based on Longest Common Substring which is an approximation of LCS. We, then developed a density based clustering approach based for tweet clustering and improved its performance by integrating GST and Locality Sensitive Hashing.

Benzer Tezler

  1. Sosyoekonomik etki değerlendirme çalışmalarında yeni bir yaklaşım

    Başlık çevirisi yok

    BABE CEBECİ

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    PROF. DR. İ. ETHEM GÖNENÇ

  2. Akarsulardaki askı maddesi miktarının kara kutu modeliyle belirlenmesi

    Determination of rivers' suspended sediment load by black box model

    MURAT ALP

    Doktora

    Türkçe

    Türkçe

    2003

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. KEREM CIĞIZOĞLU

  3. Bölgesel patlatma tasarımı ve analizi yapabilen bir mobil uygulama yazılımının geliştirilmesi

    Development of a mobile application software capable of regional blast design and analysis

    BARIŞ KADEM

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Maden Mühendisliği ve Madencilikİstanbul Üniversitesi-Cerrahpaşa

    Maden Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULKADİR KARADOĞAN

  4. Marine impact assesment of thermal power plants: A case study

    Termik santralların deniz etki değerlendirmesi konusunda bir çalışma

    CEM ÇAKIROĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    1993

    Çevre MühendisliğiOrta Doğu Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    DOÇ.DR. COŞKUN YURTERİ

  5. Statistical eutrophication modeling of the lakes in Isparta and its environs

    Başlık çevirisi yok

    ZÜBEYDE BAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    1989

    Çevre MühendisliğiOrta Doğu Teknik Üniversitesi

    YRD. DOÇ. DR. MUSTAFA OĞUZ