Yaygın sınıflandırıcıların Scikit-learn, Weka ve Matlabaraçları ile Twitter spam tespitinde karşılaştırılması

Comparing common classifiers for twitter spam detection in Scikit-learn, Weka and Matlab

PDF İndir

Tez No: 565035
Yazar: ANIL DÜZGÜN
Danışmanlar: DR. ÖĞR. ÜYESİ FECİR DURAN, DR. ATİLLA ÖZGÜR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 80

Özet

Bu çalışmada, Twitter'ın kullanıcı hesabı tabanlı özniteliklerden oluşan bir veri seti üzerinde makine öğrenmesi yöntemleri ile spam tespiti yapılmıştır. Twitter, günümüzde sosyal medya kullanıcıları tarafından en çok tercih edilen sosyal ağlardan biridir. Bu nedenle çok sayıda spam hesap içermektedir. Gün geçtikçe içeriklerini güncelleyen spam hesapları tespit etmek için akıllı sistemlere ihtiyaç duyulmaktadır. Çalışmada öncelikle Akademik kullanıma açık bir Twitter veri setinden performans açısından en uygun bulunan kullanıcı hesabı tabanlı öznitelikler seçilmiştir. Öznitelik seti üzerinden 7 farklı denetimli makine öğrenmesi yöntemi, Scikit-learn, Weka ve Matlab araçlarında varsayılan parametreleri ile koşturularak modeller oluşturulmuştur. Modeller test edilerek elde edilen skorlar 3 araç için karşılaştırılmıştır. Tüm sınıflandırıcılarda varsayılan parametreler ile en yüksek doğruluk ve kesinlik, F ölçütü oranları Scikit-Learn aracı ile elde edilmiştir. Araçlarda ortak varsayılan parametreler ile aynı algoritmalar uygulanınca farklı sonuçlar elde edilebildiği görülmüştür. Bunun üzerine sınıflandırıcılar aynı ortak parametrelerle tekrar çalıştırılarak elde edilen skorlar arasındaki farklılıklar tekrar analiz edilmiştir. Araçlar ve yöntemler, dokümantasyon, geliştirme kolaylığı, popülerlik açısından da değerlendirilmiştir. Son aşamada Scikit-Learn ile tüm algoritmalardan elde edilen sonuçlar karşılaştırılmıştır. Doğruluk, kesinlik, hassasiyet, F ölçütü, doğru pozitif, yanlış pozitif skorlarında en iyi sonuçlar topluluk öğrenme yöntemleri olan ve alt modellerinde karar ağaçları kullanan AdaBoost, Rastgele Orman ve Bagging sınıflandırıcılar ile elde edilmiştir. Geleneksel yöntemlerde en yüksek doğruluk, kesinlik, hassasiyet, F ölçütü, doğru pozitif, yanlış pozitif skorları karar ağaçları sınıflandırıcısı ile elde edilmiştir. Skorlar birbirine yakın olmakla birlikte topluluk yöntemlerinde karar ağaçlarından daha yüksek skorlar elde edilmiştir. Spam oranını yakalama skoru olan doğru negatif skorlarında en yüksek başarım oranı K en yakın komşu algoritması ile elde edilmiştir. En düşük yanlış hesap tespiti rastgele orman sınıflandırıcısı ile elde edilmiştir. Kesinlik, F ölçütü, yanlış pozitif skorlarda lojistik regresyon yöntemi ile başarılı skorlar elde edilmiştir.

Özet (Çeviri)

In this study, spam detection was done with machine learning methods on a data set composed of Twitter's user-based attributes. Twitter is currently one of the most preferred social networks by social media users. Therefore, it contains many spam accounts. Smart systems are needed to detect spam accounts that update their content day by day. In the study, the most appropriate user account-based features are selected from a Twitter data set that is open to academic use. In Scikit-learn, Weka and Matlab tools, the models have been created by running 7 different supervised machine learning methods with default parameters on feature set. The models were tested and the scores were compared for 3 tools. In all classifiers, the highest accuracy and precision and F criterion ratios with default parameters were obtained with Scikit-Learn tool. It was seen that different results can be obtained by applying the same algorithms as common default parameters in the tools. Therefore the classifiers were re-analyzed with the same common parameters and the differences between the scores obtained were analyzed again.Tools and methods were also evaluated in terms of documentation, ease of development and popularity. In the last period, the results obtained from all algorithms were compared with Scikit-Learn. The best results in accuracy, sensitivity, F measure, true positive and false positive scores were obtained by AdaBoost, Random Forest and Bagging classifiers which are ensemble learning methods and using decision trees in their sub-models.In traditional methods, the highest accuracy, precision, sensitivity, F criteria, true positive and false positive scores were obtained by decision trees classifier. Although the scores were close to each other, higher scores were obtained from decision trees than in community methods. In the true negative scores, which is the rate of spam, the highest performance rate was obtained by the K nearest neighbor algorithm. The lowest false account detection was obtained with a random forest classifier. Successful scores with accuracy, F criteria, false positive rates were obtained by logistic regression method.

Benzer Tezler

Tez No
595636
Adaptive and hierarchical classifier fusion approaches for network attack detection
Ağ saldırısı tespiti için uyarlanır ve aşamalı sınıflandırıcı tümleştirme yaklaşımları
ERKAN AS
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. BEHÇET UĞUR TÖREYİN
Tez No
856810
Machine learning for predictive maintenance
Bakım öngörüsü içın makine öğrenimi
SEJMA CICAK
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yaşar Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ UMUT AVCI
Tez No
657659
Combination of PCA with smote oversampling for classification of high-dimensional imbalanced data
Yüksek boyutlu dengesiz verilerin sınıflandırılması için smote aşırı örnekleme ile PCA'nın kombinasyonu
GUHDAR ABDULAZIZ AHMED MULLA
Yüksek Lisans
İngilizce
2021
İstatistik Van Yüzüncü Yıl Üniversitesi
İstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILDIRIM DEMİR
DR. MASOUD MUHAMMED HASSAN
Tez No
390474
Hastalıkların uyarlanmış destek vektör makinesiyle teşhis edilmesi
Diagnosis of disease by adapted support vector machine
ENGİN KARACAN
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ondokuz Mayıs Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERDAL KILIÇ
Tez No
325531
Performance evaluation of classification methods for online activity recognition on smart phones
Sınıflandırma yöntemlerinin akıllı telefonlar üzerinde çevrimiçi eylem tanıma için başarım değerlendirmesi
MUSTAFA KÖSE
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. CEM ERSOY

Geri Dön