Geri Dön

Metin verilerinde içerik tabanlı spam tespiti

Content based spam detection in text data

  1. Tez No: 606220
  2. Yazar: HAMDULLAH KARAMOLLAOĞLU
  3. Danışmanlar: DOÇ. DR. İBRAHİM ALPER DOĞRU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Twitter, en popüler sosyal medya platformlarından birisidir. Twitter kullanımının yaygınlaşması bir takım problemleri de beraberinde getirmiştir. Çoğu kez rahatsız edici ve zaman kaybettirici olan ve iletişim ortamının kaynaklarını boşa harcayarak gereksiz yer kaplayan bu spam tweet'ler bu problemlerin başında gelmektedir. Çalışmada, sosyal medya platformlarından Twitter üzerinde spam mesajların tespit edilmesi amaçlanmıştır. Makine Öğrenmesi modellerinden Vektör Uzay Modeli ile Türkçe ve İngilizce yazılmış tweet'ler üzerinde ayrı ayrı spam tespiti gerçekleştirilmiştir. Bu amaçla İngilizce tweet'ler üzerinde spam analizi için çeşitli platformlardan elde edilip oluşturulan eğitim ve sorgu amaçlı veri seti ve Türkçe tweet'ler üzerinde spam analizi için çeşitli platformlardan elde edilen veri setlerinin birleştirilmesi ile oluşturulan bir veri seti oluşturulmuştur. Verisetleri üzerinde yapılan spam tespiti sonucunda İngilizce tweet'ler üzerinde Vektör Uzay Modeli ile yapılan spam tespit çalışmasında %92, aynı yöntem ile Türkçe tweet'ler üzerinde yapılan spam tespiti çalışmasında %97'lik başarım oranı ile spam tespiti gerçekleştirilmiştir. Vektör Uzay Modelinin yanısıra WEKA kullanılarak Naive Bayes, SMO, IB1, Random Forest, Logistic ve J48 yöntemleri de ilgili probleme uygulanmıştır. Bu yöntemlerin arasından en başarılı olanların Naive Bayes (%93) ve Random Forest (%94) yöntemleri olduğu görülmüştür.

Özet (Çeviri)

Twitter is one of the most popular social media platforms. The widespread use of Twitter has brought some problems. These unwanted (spam) tweets are often annoying and time-consuming and take up unnecessary space by wasting resources of the communication environment. In this study, it is aimed to detect spam messages on social media platforms Twitter. Separate spam detection was performed on the Vector Space Model, one of the Machine Learning Methods, on tweets written in Turkish and English. For this purpose, a dataset was created by combining datasets obtained from various platforms for spam analysis on English tweets and for training and query purposes on Turkish tweets. As a result of spam detection on datasets, 92% spam detection was performed on English tweets with the Vector Space Model and 97% spam detection on Turkish tweets using the same method. In addition to Vector Space Model, Naive Bayes, SMO, IB1, Random Forest, Logistic and J48 methods were applied to the related problem by using WEKA. Naive Bayes (93%) and Random Forest (94%) were the most successful methods.

Benzer Tezler

  1. Çizge ve içerik verilerinde kolektif sınıflandırma algoritmalarının karşılaştırılması

    A comparison of collective classification techniques on network and content data

    ÖZGE ATASEVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF YASLAN

  2. A scalable big data framework for analyzing batch and streaming data of social media platforms

    Sosyal medya platformlarının toplu ve akış verilerini analiz etmek için ölçeklenebilir bir büyük veri çerçevesi

    MOHAMED ABDULSTAR JABUR MOHAMED ALLAYLA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERKAN AYVAZ

  3. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  4. Derin öğrenme ile web verisi ayıklama altyapısı geliştirilmesi

    Development of a web data extraction infrastructure using deep learning

    GİZEM ABALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgi ve Belge YönetimiEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ DİKENELLİ

  5. İlköğretimde web tabanlı portfolyo (webfolyo) uygulaması

    Web-based portfolio (webfolio) application in elementary schools

    SAYIM AKTAY

    Doktora

    Türkçe

    Türkçe

    2011

    Eğitim ve ÖğretimAnadolu Üniversitesi

    İlköğretim Ana Bilim Dalı

    DOÇ. DR. MEHMET GÜLTEKİN