Tweets on a tree: Index-based clustering of tweets
Ağaçtaki tweetler: Tweetlerin dizin bazlı kümelenmesi
- Tez No: 459029
- Danışmanlar: PROF. DR. YÜCEL SAYGIN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 68
Özet
Bilgisayar temelli iletişim, CMC, iki veya daha fazla elektronik aygıtın kullanılmasıyla oluşan bir iletişim türüdür. CMC, teknolojinin gelişmesiyle birlikte insanlar arasında daha çok tercih edilen bir iletişim türü haline gelmeye başladı. Bilgisayar temelli teknolojinin gelişimi ile birlikte, haber merkezleri, arama motorları ve Facebook, Twitter, Reddit gibi birçok sosyal medya platformu ortaya çıktı. Sosyal medya platformlarında, bir kullanıcı kendi görüşünü yayınlayabilir, tartışabilir veya diğer kullanıcıların görüşlerini de okuyabilir ve paylaşabilir. Bu durumun oluşturduğu veri, eğer filtrelenip analiz edilirse, araştırmacılara kamuoyu ve kültür hakkında önemli bilgiler verebilir. Twitter, 2006 yılında kurulmuş ve kısa sürede dünya çapında yaygınlaşan bir sosyal ağ hizmetidir. Bu hizmette 310 milyonun üzerinde aylık aktif kullanıcı bulunmaktadır ve bu kullanıcılar 2016 yılı itibariyle günlük 500 milyondan fazla tweet üretmektedir. Twitter verisi; hacmi, hızı ve çeşitliliği nedeniyle konvansiyonel yöntemler kullanılarak analiz edilememektedir. Analiz yapabilmek için veri miktarını azaltacak kümeleme veya örnekleme yöntemleri gereklidir. Geniş bir anlamda bakıldığında, belgeleri kümelemek için kullanılan benzerlik ölçüleri ikiye ayrılabilir: Sözcüksel ve anlamsal benzerlik. Sözcüksel benzerlik, belgeler arasında sözdizimsel benzerlik arar. Sözcüksel benzerliği hesaplamak genellikle hesaplama olarak hafif bir işlemdir, ancak anlamsal bütünlüğü göz ardı ettiği için kümeleme amaçları için kesin olarak doğru olmayabilir. Öte yandan anlamsal benzerlik, anlamsal değeri ve benzerliği hesaplamak için sözcükler arasındaki ilişkileri araştırır. Anlamsal benzerlik, genel olarak sözcüksel benzerlikten daha doğru olmasına rağmen, hesaplaması daha zordur. Çalışmalarımızda büyük veri özelliklerine sahip kısa verilerin hafif hesaplamalarla doğru bir şekilde kümelenmesini amaçlıyoruz. Sözcüksel ve anlamsal benzerliğin birlikte bulunduğu karma bir yaklaşım öneriyoruz. Yaklaşımımızda, sözcüksel dizim kullanarak kümeler yaratıp, anlamsal vektör sunumlarını kullanarak da kümelerin etkileşimli birleşimini sağlıyoruz.
Özet (Çeviri)
Computer-mediated communication, CMC, is a type of communication that occurs through use of two or more electronic devices. With the advancement of technology, CMC has started to become a more preferred type of communication between humans. Through computer-mediated technologies, news portals, search engines and social media platforms such as Facebook, Twitter, Reddit and many other platforms are created. In social media platforms, a user can post and discuss his/her own opinion and also read and share other users' opinions. This generates a significant amount of data which, if filtered and analyzed, can give researchers important insights about public opinion and culture. Twitter is a social networking service founded in 2006 and became widespread throughout the world in a very short time frame. The service has more than 310 million monthly active users and throughout these users more than 500 million tweets are generated daily as of 2016. Due the volume, velocity and variety of Twitter data, it cannot be analyzed by using conventional methods. A clustering or sampling method is necessary to reduce the amount of data for analysis. To cluster documents, in a very broad sense two similarity measures can be used: Lexical similarity and semantic similarity. Lexical similarity looks for syntactic similarity between documents. It is usually computationally light to compute lexical similarity, however for clustering purposes it may not be very accurate as it disregards the semantic value of words. On the other hand, semantic similarity looks for semantic value and relations between words to calculate the similarity and while it is generally more accurate than lexical similarity, it is computationally difficult to calculate semantic similarity. In our work we aim to create computationally light and accurate clustering of short documents which have the characteristics of big data. We propose a hybrid approach of clustering where lexical and semantic similarity is combined together. In our approach, we use string similarity to create clusters and semantic vector representations of words to interactively merge clusters.
Benzer Tezler
- Impact assessment & prediction of tweets and topics
Tweetlerin ve konuların etkisinin değerlendirilmesi ve önceden tahmin edilmesi
İNANÇ ARIN
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. YÜCEL SAYGIN
PROF. DR. NİHAT KASAP
- Cryptocurrency price prediction by using social media data
Makine öğrenmesi teknikleri kullanılarak sosyal medya verileri ile kripto para fiyat tahmini
ÖZLEM GÜL PAMUK
Yüksek Lisans
İngilizce
2019
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. SEFER BADAY
- Makine öğrenmesi yöntemleri kullanılarak atılan havayolu twitlerinin analiz edilmesi
Analysis of airline tweets by using machine learning methods
UFUK BEZEK
Yüksek Lisans
Türkçe
2020
Mühendislik Bilimleriİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ PARVANEH SHAMS
- Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi
Movie rating on tweets using natural language processing and data mining
ABDOULAZIZ ABDOUKARIM
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BARIŞ KOÇER
- Makine öğrenmesi teknikleri kullanarak sosyal medyadaki COVID-19 aşıları ile ilgili gönderilerin duygu analizi
Sentiment analysis of twitter posts on COVID-19 vaccines using machine learning techniques
EMRE ÇEKÇİ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖZGÜN YILMAZ