Metin verilerinde içerik tabanlı spam tespiti

Content based spam detection in text data

PDF İndir

Tez No: 606220
Yazar: HAMDULLAH KARAMOLLAOĞLU
Danışmanlar: DOÇ. DR. İBRAHİM ALPER DOĞRU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Bilişim Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 73

Özet

Twitter, en popüler sosyal medya platformlarından birisidir. Twitter kullanımının yaygınlaşması bir takım problemleri de beraberinde getirmiştir. Çoğu kez rahatsız edici ve zaman kaybettirici olan ve iletişim ortamının kaynaklarını boşa harcayarak gereksiz yer kaplayan bu spam tweet'ler bu problemlerin başında gelmektedir. Çalışmada, sosyal medya platformlarından Twitter üzerinde spam mesajların tespit edilmesi amaçlanmıştır. Makine Öğrenmesi modellerinden Vektör Uzay Modeli ile Türkçe ve İngilizce yazılmış tweet'ler üzerinde ayrı ayrı spam tespiti gerçekleştirilmiştir. Bu amaçla İngilizce tweet'ler üzerinde spam analizi için çeşitli platformlardan elde edilip oluşturulan eğitim ve sorgu amaçlı veri seti ve Türkçe tweet'ler üzerinde spam analizi için çeşitli platformlardan elde edilen veri setlerinin birleştirilmesi ile oluşturulan bir veri seti oluşturulmuştur. Verisetleri üzerinde yapılan spam tespiti sonucunda İngilizce tweet'ler üzerinde Vektör Uzay Modeli ile yapılan spam tespit çalışmasında %92, aynı yöntem ile Türkçe tweet'ler üzerinde yapılan spam tespiti çalışmasında %97'lik başarım oranı ile spam tespiti gerçekleştirilmiştir. Vektör Uzay Modelinin yanısıra WEKA kullanılarak Naive Bayes, SMO, IB1, Random Forest, Logistic ve J48 yöntemleri de ilgili probleme uygulanmıştır. Bu yöntemlerin arasından en başarılı olanların Naive Bayes (%93) ve Random Forest (%94) yöntemleri olduğu görülmüştür.

Özet (Çeviri)

Twitter is one of the most popular social media platforms. The widespread use of Twitter has brought some problems. These unwanted (spam) tweets are often annoying and time-consuming and take up unnecessary space by wasting resources of the communication environment. In this study, it is aimed to detect spam messages on social media platforms Twitter. Separate spam detection was performed on the Vector Space Model, one of the Machine Learning Methods, on tweets written in Turkish and English. For this purpose, a dataset was created by combining datasets obtained from various platforms for spam analysis on English tweets and for training and query purposes on Turkish tweets. As a result of spam detection on datasets, 92% spam detection was performed on English tweets with the Vector Space Model and 97% spam detection on Turkish tweets using the same method. In addition to Vector Space Model, Naive Bayes, SMO, IB1, Random Forest, Logistic and J48 methods were applied to the related problem by using WEKA. Naive Bayes (93%) and Random Forest (94%) were the most successful methods.

Benzer Tezler

Tez No
486558
Çizge ve içerik verilerinde kolektif sınıflandırma algoritmalarının karşılaştırılması
A comparison of collective classification techniques on network and content data
ÖZGE ATASEVEN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YUSUF YASLAN
Tez No
931667
İçerik tabanlı görüntü erişimi ile uzaktan algılama verilerinde obje arama
Object retrieval in remote sensing data using content based imaged retrieval
ÖZGE TOKMAK
Yüksek Lisans
Türkçe
2025
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
Geomatik Mühendisliği Ana Bilim Dalı
PROF. DR. NEBİYE MUSAOĞLU
Tez No
825206
A scalable big data framework for analyzing batch and streaming data of social media platforms
Sosyal medya platformlarının toplu ve akış verilerini analiz etmek için ölçeklenebilir bir büyük veri çerçevesi
MOHAMED ABDULSTAR JABUR MOHAMED ALLAYLA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERKAN AYVAZ
Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
Tez No
298175
İlköğretimde web tabanlı portfolyo (webfolyo) uygulaması
Web-based portfolio (webfolio) application in elementary schools
SAYIM AKTAY
Doktora
Türkçe
2011
Eğitim ve Öğretim Anadolu Üniversitesi
İlköğretim Ana Bilim Dalı
DOÇ. DR. MEHMET GÜLTEKİN

Geri Dön