Metin verilerinde içerik tabanlı spam tespiti
Content based spam detection in text data
- Tez No: 606220
- Danışmanlar: DOÇ. DR. İBRAHİM ALPER DOĞRU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 73
Özet
Twitter, en popüler sosyal medya platformlarından birisidir. Twitter kullanımının yaygınlaşması bir takım problemleri de beraberinde getirmiştir. Çoğu kez rahatsız edici ve zaman kaybettirici olan ve iletişim ortamının kaynaklarını boşa harcayarak gereksiz yer kaplayan bu spam tweet'ler bu problemlerin başında gelmektedir. Çalışmada, sosyal medya platformlarından Twitter üzerinde spam mesajların tespit edilmesi amaçlanmıştır. Makine Öğrenmesi modellerinden Vektör Uzay Modeli ile Türkçe ve İngilizce yazılmış tweet'ler üzerinde ayrı ayrı spam tespiti gerçekleştirilmiştir. Bu amaçla İngilizce tweet'ler üzerinde spam analizi için çeşitli platformlardan elde edilip oluşturulan eğitim ve sorgu amaçlı veri seti ve Türkçe tweet'ler üzerinde spam analizi için çeşitli platformlardan elde edilen veri setlerinin birleştirilmesi ile oluşturulan bir veri seti oluşturulmuştur. Verisetleri üzerinde yapılan spam tespiti sonucunda İngilizce tweet'ler üzerinde Vektör Uzay Modeli ile yapılan spam tespit çalışmasında %92, aynı yöntem ile Türkçe tweet'ler üzerinde yapılan spam tespiti çalışmasında %97'lik başarım oranı ile spam tespiti gerçekleştirilmiştir. Vektör Uzay Modelinin yanısıra WEKA kullanılarak Naive Bayes, SMO, IB1, Random Forest, Logistic ve J48 yöntemleri de ilgili probleme uygulanmıştır. Bu yöntemlerin arasından en başarılı olanların Naive Bayes (%93) ve Random Forest (%94) yöntemleri olduğu görülmüştür.
Özet (Çeviri)
Twitter is one of the most popular social media platforms. The widespread use of Twitter has brought some problems. These unwanted (spam) tweets are often annoying and time-consuming and take up unnecessary space by wasting resources of the communication environment. In this study, it is aimed to detect spam messages on social media platforms Twitter. Separate spam detection was performed on the Vector Space Model, one of the Machine Learning Methods, on tweets written in Turkish and English. For this purpose, a dataset was created by combining datasets obtained from various platforms for spam analysis on English tweets and for training and query purposes on Turkish tweets. As a result of spam detection on datasets, 92% spam detection was performed on English tweets with the Vector Space Model and 97% spam detection on Turkish tweets using the same method. In addition to Vector Space Model, Naive Bayes, SMO, IB1, Random Forest, Logistic and J48 methods were applied to the related problem by using WEKA. Naive Bayes (93%) and Random Forest (94%) were the most successful methods.
Benzer Tezler
- Çizge ve içerik verilerinde kolektif sınıflandırma algoritmalarının karşılaştırılması
A comparison of collective classification techniques on network and content data
ÖZGE ATASEVEN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YUSUF YASLAN
- A scalable big data framework for analyzing batch and streaming data of social media platforms
Sosyal medya platformlarının toplu ve akış verilerini analiz etmek için ölçeklenebilir bir büyük veri çerçevesi
MOHAMED ABDULSTAR JABUR MOHAMED ALLAYLA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERKAN AYVAZ
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Derin öğrenme ile web verisi ayıklama altyapısı geliştirilmesi
Development of a web data extraction infrastructure using deep learning
GİZEM ABALI
Yüksek Lisans
Türkçe
2021
Bilgi ve Belge YönetimiEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ DİKENELLİ
- İlköğretimde web tabanlı portfolyo (webfolyo) uygulaması
Web-based portfolio (webfolio) application in elementary schools
SAYIM AKTAY
Doktora
Türkçe
2011
Eğitim ve ÖğretimAnadolu Üniversitesiİlköğretim Ana Bilim Dalı
DOÇ. DR. MEHMET GÜLTEKİN