Geri Dön

Retweet prediction on earthquake tweets

Deprem tweetleri üzerinde retweet tahmini

  1. Tez No: 899112
  2. Yazar: SEVGİNUR İNCE
  3. Danışmanlar: PROF. DR. EBRU SEZER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 109

Özet

6 Şubat 2023'te Kahramanmaraş merkezli depremde çok sayıda kişi hayatını kaybetti veya zarar gördü. Bu yıkıcı depremlerin ardından kriz bölgesindeki iletişim kanallarının etkinliği hayati önem taşımaktadır. Birkaç on yıl önce sosyal medya varlığına dair hiçbir belirti yokken, bugün sosyal medya platformları insanların temel iletişim kanalları haline geldi. Bu platformlardan biri olan Twitter Türkiye'de de yaygın olarak kullanılmaktadır. Sosyal medya paylaşılan bir gönderi ile milyonlarca insana ulaşma imkânı sağlamaktadır. Bir gönderinin aldığı etkileşim miktarı sosyal medyada diğer kullanıcılar tarafından fark edilme ihtimalini arttırır. Bu tezde, 6 Şubat 2023'te Kahramanmaraş merkezli deprem sırasında ve sonrasında atılan tweetler kullanılarak retweet etkileşim miktarları iki sınıfa ayrılmıştır. Bu sınıfar 'düşük olmayan' ve 'orta yüksek' sınıflarıdır. Veriler Python'un Snscrape Kütüphanesi ile 6 Şubat 2023 - 15 Mart 2023 tarihlerini kapsayan 38 günlük veriler olarak ele geçirildi. Daha sonra sırasıyla şu işlemler gerçekleştirildi: Tweet metni temizlendi. Yazım yanlışları Python Zemberek Modülü ile düzeltildi. Zeyrek Modülü ile kelimeler köklerine ayrıldı. Duraksama kelimeleri silindi. Veri seti basitleştirildi ve ilk hafta verilerinin idf değerleri hesaplandı. Eşsiz kelimelerin idf değerleri hesaplandı. Idf değer aralıklarına göre eşsiz kelimeler gruplandı. Farklı idf aralıklarından 400'er eşsiz kelime veri setine eklenerek farklı eşsiz kelime gruplarından oluşan 7 dataset versiyonu elde edildi. Bu setlerin içinden tweet metnini en iyi temsil eden kelime seti araştırıldı. Analizlerde XGBoost modeli kullanıldı. Ayrıca en iyi sınıf etiketi olacak etkileşim tipi ve sınıf eşik sınırı da araştırıldı. En iyi sınıf etiketi 'Retweet', en iyi sınıf ayrım sınırı ise 2 olarak gözlendi. Data seti en iyi temsil eden kelimelerin idf değeri en düşük olan 400 kelime olduğu belirlendi. Bu kelimeler veri setine Binary Bag of Words olarak eklenmiştir. Ardından çeşitli Deep Learning ve Machine Learning modelleri ile sınıfama gerçekleştirildi. Bu modeller Random Forest, XGBoost, LSTM ve DistilBERTurk'tür. XGBoost modeli en iyi performansı verdi. XGBoost modeli sonuçları aşağıdaki gibidir: Düşük olmayan sınıf hassasiyeti 0,75, geri çağırma 0,70, F1 puanı 0,73, orta-yüksek sınıf hassasiyeti 0,72, geri çağırma 0,77, F1 puanı 0,74. Ortalama doğruluk 0,7340 ve ROC-AUC puanı 0,81.

Özet (Çeviri)

On February 6, 2023, an earthquake centered in Kahramanmaraş killed or damaged many people. In the aftermath of these devastating earthquakes, the efficiency of communication channels in the crisis zone is of vital importance. While a few decades ago there was no indication of the existence of social media, today social media platforms have become people's main communication channels. Twitter, one of these platforms, is widely used in Turkey. Social media provides the opportunity to reach millions of people with a shared post. The amount of interaction a post receives increases the possibility of being noticed by other users on social media. In this thesis, using the tweets posted during and after the earthquake centered in Kahramanmaraş on February 6, 2023, the retweet interaction amounts were divided into two classes. These classes are 'non-low' and 'moderate-high' classes. The data was captured with Python's Snscrape Library as 38 days of data covering February 6, 2023 - March 15, 2023. The following operations were then performed respectively: Tweet text was cleaned. Spelling mistakes were corrected with the python Zemberek Module. Words were parse to their roots with Zeyrek Module. Stop words were deleted. Stop words were deleted. The dataset was simplified and idf values of unique words in the first week tweets were calculated. Unique words were grouped according to their idf value ranges. By adding 400 unique words from different idf ranges to the dataset, 7 dataset versions consisting of different unique word groups were obtained. Among these sets, the word set that best represents the tweet text was investigated. The XGBoost model was used in the analysis. We also investigated the interaction type and class threshold limit that would be the best class label. The best class label was 'Retweet' and the best class distinction limit was observed as 2. The words that best represents the dataset were found to be the 400 words with the lowest idf value. These words were added to the dataset as Binary Bag of Words. Then, classification was performed with various Deep Learning and Machine Learning models. These models are Random Forest, XGBoost, LSTM and DistilBERTurk. The XGBoost model gave the best performance. The results of the XGBoost model are as follows: Non-low class precision 0.75, recall 0.70, f1 score 0.73, Moderate-high class precision 0.72, recall 0.77, f1 score 0.74. Average accuracy 0.7340 and ROC-AUC score 0.81.

Benzer Tezler

  1. Retweet tahminlemesinin makine öğrenmesi algoritmaları ile karşılaştırılması ve önerilen tweet öznitelikleri ile iyileştirilmesi

    Comparison of retweet prediction with machine learning algorithms and improving with proposed tweet attributes

    SAFA ENES TÜRKOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALEV MUTLU

  2. A novel pre-processing workflow for popularity prediction in social media

    Sosyal medyada popülerlik tahmini için yeni bir ön işleme iş akışı

    HÜSEYİN BUĞRA YILDIRIM

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL

  3. Text analytics in stock market price prediction

    Borsa tahminlemede metin analitiği

    EMRE KARAŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEMİH UTKU

    DR. ÖĞR. ÜYESİ OKAN ÖZTÜRKMENOĞLU

  4. İş zekası ve duygu analizi: Sakarya merkezli sosyal medya verilerinin doğal dil işleme yaklaşımlarıyla incelenmesi

    Business intelligence and sentiment analysis: Examining Sakarya-centric social media data through natural language processing approaches

    FURKAN SARAÇOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    PROF. DR. İSMAİL HAKKI CEDİMOĞLU

  5. Impact assessment & prediction of tweets and topics

    Tweetlerin ve konuların etkisinin değerlendirilmesi ve önceden tahmin edilmesi

    İNANÇ ARIN

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. YÜCEL SAYGIN

    PROF. DR. NİHAT KASAP