Impact assessment & prediction of tweets and topics
Tweetlerin ve konuların etkisinin değerlendirilmesi ve önceden tahmin edilmesi
- Tez No: 478661
- Danışmanlar: PROF. DR. YÜCEL SAYGIN, PROF. DR. NİHAT KASAP
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 140
Özet
İnsanlar Twitter üzerinde bilgi ve fikir paylaşırlarken, araştırmacılar ve politika belirleyiciler de çeşitli olaylara karşı toplumsal algıyı öğrenmek isterler. Bu amacı gerçekleştirmenin bir yolu da tweetlerin etkisini ölçmektir. Bu tez içerisinde 3 tane araştırma konusunu cevaplamaya çalıştık: (1)“Bir tweetin etkisi nasıl tanımlanır?”, (2)“Tweetlerin ve konuların etkisini nasıl ölçeriz?”, (3)“Tweetlerin ve konuların etkisini önceden tahmin edebilir miyiz?”. Bu sorulara cevap bulabilmek için öncelikle retweetlerin tweet etkisi üzerindeki önemini vurguluyoruz. Sonrasında bir tweetin yüksek sayıda retweet alıp almayacağını tahmin edebilmek için bir öğrenim modeli hazırladık. Bunun dışında kıvrımsal sinir ağlarını kullanarak tweetlerden içerik bazında bazı özellikler de çıkardık. Tweetlerin gerçek etkisini daha doğru bir şekilde ölçebilmek adına“gizli retweetler”kavramını tanımladık. İnsanlar var olan tweetleri yeniden gönderirlerken tweetin başına ya da sonuna bazı yorumlar ekleyebiliyorlar. Bunun dışında bilerek ya da bilmeyerek başka insanlarla tamamen aynı ya da çok benzer tweetleri yazabiliyorlar. Bu yüzden gizli retweetlerin incelenmesi tweetlerin gerçek etkisini ölçmek için son derece önemlidir. Bununla beraber gizli retweetlerin bulunması ve sayılarının tam olarak belirlenmesi çok pahalı bir işlemdir. Ağaç bazlı yapılarla ve lokal duyarlılık adresleme tekniğiyle geliştirdiğimiz karakter bazlı kümeleme yöntemlerinin bu pahalı işlemi çok etkili bir şekilde tamamlayabildiğini gösterdik. Tweetlerin arasındaki uzaklığı karakter bazlı metriklerle ölçen çeşitli kümeleme yöntemleri geliştirdik ve bunları deneysel olarak değerlendirdik. En uzun ortak altdizi yöntemi tweet gibi kısa metin dokümanları arasındaki benzerliği ölçmek için çok kullanılan bir yöntemdir. Ancak bu yöntem bir o kadar da pahalıdır. Bu sebeple en uzun altdizgi bazlı genelleştirilmiş son ek ağaçlarından faydalandık. Ayrıca yoğunluk bazlı kümeleme algoritması geliştirdik; sonrasında bu algoritmayı genelleştirilmiş son ek ağaçları ve lokal duyarlılık adresleme yöntemini kullanarak bu algoritmayı hızlandırdık.
Özet (Çeviri)
People tend to spread information and share their ideas in Twitter, while researchers and policy makers would like to understand public opinion and reactions of people in Twitter towards various events. One way to do that is assessing and predicting the impact of tweets. In this thesis, we tried to answer three questions: (1)“What does impact of a tweet mean?”, (2)“How do we measure the impact of tweets or topics?”, and (3)“Can we predict the impact of tweets or topics?”. In order to address these questions, we first emphasize the role of retweets and their importance in impact assessment. We then show that we can build a model through supervised learning to predict if a tweet will get a high number of retweets. We extracted various features from tweets including content based features through Convolutional Neural Networks (CNN). In order to have a more accurate impact assessment, we introduced the concept of hidden retweets. People tend to re-post tweets by adding some extra comments to the beginning or to the end of original tweet. Also they intentionally or unintentionally post the exact or near exact tweets with other people without explicitly retweeting them. Therefore hidden retweets are quite important for measuring the real impact of tweets. However, it is also computationally expensive to identify and count the number of hidden retweets. We show that aggregating hidden retweets can be done efficiently through a lexical similarity based clustering algorithm enhanced with a tree structured index and locality sensitive hashing. We adopted a document clustering based approach for discovering the hidden retweets. We developed and evaluated several clustering algorithms with lexical similarity as the distance measure between tweets. Longest Common Subsequence (LCS) is a widely accepted method to calculate the lexical similarity between short text documents such as tweets, but it is also very expensive. Therefore, we utilized an advanced data structure which is Generalized Suffix Tree (GST) based on Longest Common Substring which is an approximation of LCS. We, then developed a density based clustering approach based for tweet clustering and improved its performance by integrating GST and Locality Sensitive Hashing.
Benzer Tezler
- Sosyoekonomik etki değerlendirme çalışmalarında yeni bir yaklaşım
Başlık çevirisi yok
BABE CEBECİ
Yüksek Lisans
Türkçe
1998
Çevre Mühendisliğiİstanbul Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
PROF. DR. İ. ETHEM GÖNENÇ
- Akarsulardaki askı maddesi miktarının kara kutu modeliyle belirlenmesi
Determination of rivers' suspended sediment load by black box model
MURAT ALP
Doktora
Türkçe
2003
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. KEREM CIĞIZOĞLU
- Bölgesel patlatma tasarımı ve analizi yapabilen bir mobil uygulama yazılımının geliştirilmesi
Development of a mobile application software capable of regional blast design and analysis
BARIŞ KADEM
Yüksek Lisans
Türkçe
2024
Maden Mühendisliği ve Madencilikİstanbul Üniversitesi-CerrahpaşaMaden Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ABDULKADİR KARADOĞAN
- Marine impact assesment of thermal power plants: A case study
Termik santralların deniz etki değerlendirmesi konusunda bir çalışma
CEM ÇAKIROĞLU
Yüksek Lisans
İngilizce
1993
Çevre MühendisliğiOrta Doğu Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
DOÇ.DR. COŞKUN YURTERİ
- Statistical eutrophication modeling of the lakes in Isparta and its environs
Başlık çevirisi yok
ZÜBEYDE BAŞ