Geri Dön

Tweets on a tree: Index-based clustering of tweets

Ağaçtaki tweetler: Tweetlerin dizin bazlı kümelenmesi

  1. Tez No: 459029
  2. Yazar: MERT KEMAL ERPAM
  3. Danışmanlar: PROF. DR. YÜCEL SAYGIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Bilgisayar temelli iletişim, CMC, iki veya daha fazla elektronik aygıtın kullanılmasıyla oluşan bir iletişim türüdür. CMC, teknolojinin gelişmesiyle birlikte insanlar arasında daha çok tercih edilen bir iletişim türü haline gelmeye başladı. Bilgisayar temelli teknolojinin gelişimi ile birlikte, haber merkezleri, arama motorları ve Facebook, Twitter, Reddit gibi birçok sosyal medya platformu ortaya çıktı. Sosyal medya platformlarında, bir kullanıcı kendi görüşünü yayınlayabilir, tartışabilir veya diğer kullanıcıların görüşlerini de okuyabilir ve paylaşabilir. Bu durumun oluşturduğu veri, eğer filtrelenip analiz edilirse, araştırmacılara kamuoyu ve kültür hakkında önemli bilgiler verebilir. Twitter, 2006 yılında kurulmuş ve kısa sürede dünya çapında yaygınlaşan bir sosyal ağ hizmetidir. Bu hizmette 310 milyonun üzerinde aylık aktif kullanıcı bulunmaktadır ve bu kullanıcılar 2016 yılı itibariyle günlük 500 milyondan fazla tweet üretmektedir. Twitter verisi; hacmi, hızı ve çeşitliliği nedeniyle konvansiyonel yöntemler kullanılarak analiz edilememektedir. Analiz yapabilmek için veri miktarını azaltacak kümeleme veya örnekleme yöntemleri gereklidir. Geniş bir anlamda bakıldığında, belgeleri kümelemek için kullanılan benzerlik ölçüleri ikiye ayrılabilir: Sözcüksel ve anlamsal benzerlik. Sözcüksel benzerlik, belgeler arasında sözdizimsel benzerlik arar. Sözcüksel benzerliği hesaplamak genellikle hesaplama olarak hafif bir işlemdir, ancak anlamsal bütünlüğü göz ardı ettiği için kümeleme amaçları için kesin olarak doğru olmayabilir. Öte yandan anlamsal benzerlik, anlamsal değeri ve benzerliği hesaplamak için sözcükler arasındaki ilişkileri araştırır. Anlamsal benzerlik, genel olarak sözcüksel benzerlikten daha doğru olmasına rağmen, hesaplaması daha zordur. Çalışmalarımızda büyük veri özelliklerine sahip kısa verilerin hafif hesaplamalarla doğru bir şekilde kümelenmesini amaçlıyoruz. Sözcüksel ve anlamsal benzerliğin birlikte bulunduğu karma bir yaklaşım öneriyoruz. Yaklaşımımızda, sözcüksel dizim kullanarak kümeler yaratıp, anlamsal vektör sunumlarını kullanarak da kümelerin etkileşimli birleşimini sağlıyoruz.

Özet (Çeviri)

Computer-mediated communication, CMC, is a type of communication that occurs through use of two or more electronic devices. With the advancement of technology, CMC has started to become a more preferred type of communication between humans. Through computer-mediated technologies, news portals, search engines and social media platforms such as Facebook, Twitter, Reddit and many other platforms are created. In social media platforms, a user can post and discuss his/her own opinion and also read and share other users' opinions. This generates a significant amount of data which, if filtered and analyzed, can give researchers important insights about public opinion and culture. Twitter is a social networking service founded in 2006 and became widespread throughout the world in a very short time frame. The service has more than 310 million monthly active users and throughout these users more than 500 million tweets are generated daily as of 2016. Due the volume, velocity and variety of Twitter data, it cannot be analyzed by using conventional methods. A clustering or sampling method is necessary to reduce the amount of data for analysis. To cluster documents, in a very broad sense two similarity measures can be used: Lexical similarity and semantic similarity. Lexical similarity looks for syntactic similarity between documents. It is usually computationally light to compute lexical similarity, however for clustering purposes it may not be very accurate as it disregards the semantic value of words. On the other hand, semantic similarity looks for semantic value and relations between words to calculate the similarity and while it is generally more accurate than lexical similarity, it is computationally difficult to calculate semantic similarity. In our work we aim to create computationally light and accurate clustering of short documents which have the characteristics of big data. We propose a hybrid approach of clustering where lexical and semantic similarity is combined together. In our approach, we use string similarity to create clusters and semantic vector representations of words to interactively merge clusters.

Benzer Tezler

  1. Impact assessment & prediction of tweets and topics

    Tweetlerin ve konuların etkisinin değerlendirilmesi ve önceden tahmin edilmesi

    İNANÇ ARIN

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. YÜCEL SAYGIN

    PROF. DR. NİHAT KASAP

  2. Cryptocurrency price prediction by using social media data

    Makine öğrenmesi teknikleri kullanılarak sosyal medya verileri ile kripto para fiyat tahmini

    ÖZLEM GÜL PAMUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DOÇ. DR. SEFER BADAY

  3. Makine öğrenmesi yöntemleri kullanılarak atılan havayolu twitlerinin analiz edilmesi

    Analysis of airline tweets by using machine learning methods

    UFUK BEZEK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Mühendislik Bilimleriİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ PARVANEH SHAMS

  4. Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi

    Movie rating on tweets using natural language processing and data mining

    ABDOULAZIZ ABDOUKARIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BARIŞ KOÇER

  5. Makine öğrenmesi teknikleri kullanarak sosyal medyadaki COVID-19 aşıları ile ilgili gönderilerin duygu analizi

    Sentiment analysis of twitter posts on COVID-19 vaccines using machine learning techniques

    EMRE ÇEKÇİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÖZGÜN YILMAZ