Geri Dön

Yaygın sınıflandırıcıların Scikit-learn, Weka ve Matlabaraçları ile Twitter spam tespitinde karşılaştırılması

Comparing common classifiers for twitter spam detection in Scikit-learn, Weka and Matlab

  1. Tez No: 565035
  2. Yazar: ANIL DÜZGÜN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ FECİR DURAN, DR. ATİLLA ÖZGÜR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Bu çalışmada, Twitter'ın kullanıcı hesabı tabanlı özniteliklerden oluşan bir veri seti üzerinde makine öğrenmesi yöntemleri ile spam tespiti yapılmıştır. Twitter, günümüzde sosyal medya kullanıcıları tarafından en çok tercih edilen sosyal ağlardan biridir. Bu nedenle çok sayıda spam hesap içermektedir. Gün geçtikçe içeriklerini güncelleyen spam hesapları tespit etmek için akıllı sistemlere ihtiyaç duyulmaktadır. Çalışmada öncelikle Akademik kullanıma açık bir Twitter veri setinden performans açısından en uygun bulunan kullanıcı hesabı tabanlı öznitelikler seçilmiştir. Öznitelik seti üzerinden 7 farklı denetimli makine öğrenmesi yöntemi, Scikit-learn, Weka ve Matlab araçlarında varsayılan parametreleri ile koşturularak modeller oluşturulmuştur. Modeller test edilerek elde edilen skorlar 3 araç için karşılaştırılmıştır. Tüm sınıflandırıcılarda varsayılan parametreler ile en yüksek doğruluk ve kesinlik, F ölçütü oranları Scikit-Learn aracı ile elde edilmiştir. Araçlarda ortak varsayılan parametreler ile aynı algoritmalar uygulanınca farklı sonuçlar elde edilebildiği görülmüştür. Bunun üzerine sınıflandırıcılar aynı ortak parametrelerle tekrar çalıştırılarak elde edilen skorlar arasındaki farklılıklar tekrar analiz edilmiştir. Araçlar ve yöntemler, dokümantasyon, geliştirme kolaylığı, popülerlik açısından da değerlendirilmiştir. Son aşamada Scikit-Learn ile tüm algoritmalardan elde edilen sonuçlar karşılaştırılmıştır. Doğruluk, kesinlik, hassasiyet, F ölçütü, doğru pozitif, yanlış pozitif skorlarında en iyi sonuçlar topluluk öğrenme yöntemleri olan ve alt modellerinde karar ağaçları kullanan AdaBoost, Rastgele Orman ve Bagging sınıflandırıcılar ile elde edilmiştir. Geleneksel yöntemlerde en yüksek doğruluk, kesinlik, hassasiyet, F ölçütü, doğru pozitif, yanlış pozitif skorları karar ağaçları sınıflandırıcısı ile elde edilmiştir. Skorlar birbirine yakın olmakla birlikte topluluk yöntemlerinde karar ağaçlarından daha yüksek skorlar elde edilmiştir. Spam oranını yakalama skoru olan doğru negatif skorlarında en yüksek başarım oranı K en yakın komşu algoritması ile elde edilmiştir. En düşük yanlış hesap tespiti rastgele orman sınıflandırıcısı ile elde edilmiştir. Kesinlik, F ölçütü, yanlış pozitif skorlarda lojistik regresyon yöntemi ile başarılı skorlar elde edilmiştir.

Özet (Çeviri)

In this study, spam detection was done with machine learning methods on a data set composed of Twitter's user-based attributes. Twitter is currently one of the most preferred social networks by social media users. Therefore, it contains many spam accounts. Smart systems are needed to detect spam accounts that update their content day by day. In the study, the most appropriate user account-based features are selected from a Twitter data set that is open to academic use. In Scikit-learn, Weka and Matlab tools, the models have been created by running 7 different supervised machine learning methods with default parameters on feature set. The models were tested and the scores were compared for 3 tools. In all classifiers, the highest accuracy and precision and F criterion ratios with default parameters were obtained with Scikit-Learn tool. It was seen that different results can be obtained by applying the same algorithms as common default parameters in the tools. Therefore the classifiers were re-analyzed with the same common parameters and the differences between the scores obtained were analyzed again.Tools and methods were also evaluated in terms of documentation, ease of development and popularity. In the last period, the results obtained from all algorithms were compared with Scikit-Learn. The best results in accuracy, sensitivity, F measure, true positive and false positive scores were obtained by AdaBoost, Random Forest and Bagging classifiers which are ensemble learning methods and using decision trees in their sub-models.In traditional methods, the highest accuracy, precision, sensitivity, F criteria, true positive and false positive scores were obtained by decision trees classifier. Although the scores were close to each other, higher scores were obtained from decision trees than in community methods. In the true negative scores, which is the rate of spam, the highest performance rate was obtained by the K nearest neighbor algorithm. The lowest false account detection was obtained with a random forest classifier. Successful scores with accuracy, F criteria, false positive rates were obtained by logistic regression method.

Benzer Tezler

  1. Adaptive and hierarchical classifier fusion approaches for network attack detection

    Ağ saldırısı tespiti için uyarlanır ve aşamalı sınıflandırıcı tümleştirme yaklaşımları

    ERKAN AS

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DOÇ. DR. BEHÇET UĞUR TÖREYİN

  2. Combination of PCA with smote oversampling for classification of high-dimensional imbalanced data

    Yüksek boyutlu dengesiz verilerin sınıflandırılması için smote aşırı örnekleme ile PCA'nın kombinasyonu

    GUHDAR ABDULAZIZ AHMED MULLA

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    İstatistikVan Yüzüncü Yıl Üniversitesi

    İstatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YILDIRIM DEMİR

    DR. MASOUD MUHAMMED HASSAN

  3. Machine learning for predictive maintenance

    Bakım öngörüsü içın makine öğrenimi

    SEJMA CICAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYaşar Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ UMUT AVCI

  4. Hastalıkların uyarlanmış destek vektör makinesiyle teşhis edilmesi

    Diagnosis of disease by adapted support vector machine

    ENGİN KARACAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOndokuz Mayıs Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERDAL KILIÇ

  5. Performance evaluation of classification methods for online activity recognition on smart phones

    Sınıflandırma yöntemlerinin akıllı telefonlar üzerinde çevrimiçi eylem tanıma için başarım değerlendirmesi

    MUSTAFA KÖSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. CEM ERSOY