Makine öğrenmesi yöntemleriyle doğruluğu yüksek SMS spam tespiti
Highly accuracy SMS spam detection with machine learning methods
- Tez No: 967602
- Danışmanlar: PROF. DR. HİDAYET TAKCI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Sivas Cumhuriyet Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 106
Özet
Günümüzde mobil cihazların yaygınlaşması kısa mesaj servisi kullanımını da artırmıştır. İletişimin yaygın kanallarından biri haline gelen SMS servisi kötü niyetli kullanıcıların da dikkatini çekmeye başlamıştır. Mobil cihazlara normal mesajlar geldiği kadar reklam amaçlı ya da saldırı amaçlı mesajlar da gelmektedir. Reklam veya saldırı amaçlı olarak gönderilen mesajlara istenmeyen (spam) mesaj adı verilir. SMS spam mesajları ile mücadelede akla gelen ilk yöntem spam filtreleme olup bu konuda mobil cihaz üreticileri ve akademisyenler çalışmalar yapmaktadır. Bugüne kadar mesaj filtreleme için anahtar kelimeye, kurala, içeriğe veya makine öğrenmesine dayalı yöntemler çalışılmış olmasına rağmen artan saldırı türleri ve mesaj yoğunlukları nedeniyle hala etkili çözümlere ihtiyaç bulunmaktadır. Bu çalışma, SMS spam tespitini makine öğrenmesi yöntemleriyle gerçekleştirmeyi amaçlamaktadır. Tez temel olarak iki alt bölüm şeklinde organize edilmiştir. Bunlardan ilki veri ön işleme ikincisi ise model oluşturma ve iyileştirmedir. Veri ön işleme kapsamında veri temizleme, özellik çıkarımı ve özellik seçimi gibi çalışmalar yapılmıştır. Veri ön işleme çalışmalarının amacı kaliteli veri elde ederek daha yüksek sınıflandırma doğrulukları elde etmektir. Veri ön işlemenin alt görevlerinden birisi veri temizleme ve temel ön işlemedir. Bu aşamada veri kümesinde yer alan fakat analiz değeri olmayan verilerin silinmesi türünde işler yapılır. Veri ön işleme bölümünün alt görevlerinden bir diğeri özellik çıkarımıdır. Metinsel veriler söz konusu olduğunda özellik çıkarımının amacı metinsel verilerden sayısal özetler elde etmektir. Bu çalışma vektörleştirme olarak da bilinir. Vektörleştirme sayesinde metinsel verilere makine öğrenmesi algoritmaları uygulanabilir hale gelmektedir. Özellik çıkarımı için çalışmamızda Bag-of-Words, TF-IDF ve Word2Vec yöntemlerinin üçü de kullanılmıştır. Metinsel özellikler yüksek boyutlu olduğu için veri ön işleme kapsamında özellik seçimi de çalışmamız kapsamında yapılmıştır. Özellik seçimi yapılmasının iki amacı vardır: (1) sınıflandırma süresini kısaltmak (2) sınıflandırma performansını artırmak. Özellik seçimi için χ² testi, karşılıklı bilgi, LASSO, rasgele orman önemi ve özyinelemeli özellik eleme kullanılmıştır. Veri ön işleme ile ilgili olarak yapılan son işlem özellik ölçeklemedir. Özelliklerin ölçeklenmesi onların standardize edilmesi ya da normalize edilmesi için ihtiyaç duyulan bir çalışmadır. Çalışmamıza etkisi ölçülmek için özellik ölçekleme yöntemleri de kullanılmıştır. Özellik ölçekleme için standart scaler, min-max scaler, robust scaler, binarizer, normalizer, güç dönüştürücü, quantil dönüştürücü ve max absolute scaler yöntemleri kullanılmıştır. Tezin ikinci bölümünde model geliştirme ve model iyileştirmeye dair işler yapılmıştır. Öncelikle SMS spam mesajlarını daha etkili şekilde sınıflandıracak makine öğrenmesi modelleri inşa edilmiştir. Model inşası amacıyla Lojistik Regresyon, Karar Ağaçları, K-en yakın komşu, Destek Vektör Makineleri ve Nearest Centroid algoritmaları kullanılmıştır. Model inşası ve model değerlendirmesi ardından model doğruluklarını artırmak için model iyileştirme adımına geçilmiştir. Model iyileştirme maksadıyla hiperparametre optimizasyonu yapılmıştır. Başlangıç parametreleri ile başlayan çalışma optimize edilmiş parametrelerin elde edilmesi ile sürmüştür. Bunun için GridSearchCV yönteminden yararlanılmıştır. Model iyileştirme için yapılan bir diğer çalışma topluluk öğrenme modellerinin kullanılmasıdır. Topluluk öğrenme kapsamında Bagging ve Boosting kategorilerinden GradientBoosting, XGBoost ve Random Forest algoritmaları kullanılmıştır. Deneysel çalışmalar kapsamında model değerlendirme karışıklık matrisine dayalı olarak doğruluk, hassasiyet, kesinlik, f1-skoru ve ROC-AUC metrikleri kullanılmıştır. Ayrıca model değerlendirme sırasında 10-fold çapraz doğrulamadan yararlanılmıştır. Tez çalışması boyunca veri ve yönteme dair çok sayıda deneme yapılmış ve bütünleşik bir sistem ortaya konmuştur. SMS spam tespiti için tezde yaptığımız çalışmalar geçmiş çalışmaların ötesine geçmiştir. Ortaya koyduğumuz entegre yapının bazı parçaları sınıflandırma performansını artırmış fakat bazıları önemli bir iyileşmeye neden olmamıştır. Kurgulanan bütünleşik yapıya rağmen iyileşmeyen tespit doğruluklarının sebebi ortaya konmuştur. Makine öğrenmesi modelleri veriye dayalı modeller olduğu için daha başarılı modeller daha zengin içerikteki veriyle mümkün olabilecektir. Spam türleri arttıkça bu spam türlerinin örnekleri ile modeller eğitilmelidir. Ayrıca sınıflandırma başarısı yüksek sınıflayıcılar seçilmeli, daha uygun parametreler ortaya konmalı, balans edilmiş veri kümeleriyle çalışılmalı, doğal dil işleme yöntemleriyle veriden içeriğe dayalı ek bilgiler çıkarılmalıdır. Çalışmamız geliştirilmeye müsaittir. Ayrıca kurguladığımız bütünleşik yapı metinsel veriler üzerinde analiz ihtiyacı olan diğer problemler için de uygundur.
Özet (Çeviri)
Nowadays, the widespread use of mobile devices has also increased the use of short message services. SMS service, which has become one of the common channels of communication, has also started to attract the attention of malicious users. In addition to normal messages, mobile devices receive advertising or attack messages. Messages sent for advertising or attack purposes are called unwanted (spam) messages. The first method that comes to mind in combating SMS spam messages is spam filtering, and mobile device manufacturers and academics are working on this subject. Although methods based on keywords, rules, content or machine learning have been studied for message filtering to date, effective solutions are still needed due to increasing attack types and message densities. This study aims to perform SMS spam detection with machine learning methods. The thesis is organized into two main subsections. The first of these is data preprocessing, and the second is model creation and improvement. Studies such as data cleaning, feature extraction and feature selection have been conducted within the scope of data preprocessing. The aim of data preprocessing studies is to obtain quality data and achieve higher classification accuracies. One of the subtasks of data preprocessing is data cleaning and basic preprocessing. At this stage, the data in the dataset but not of analysis value is deleted. Another subtask of the data preprocessing section is feature extraction. When it comes to textual data, the purpose of feature extraction is to obtain numerical summaries from textual data. This study is also known as vectorization. Thanks to vectorization, machine learning algorithms can be applied to textual data. In our study, Bag-of-Words, TF-IDF and Word2Vec methods were used for feature extraction. Since textual features are high-dimensional, feature selection was also performed within the scope of data preprocessing. Feature selection has two purposes: (1) to shorten the classification time (2) to increase the classification performance. χ² test, mutual information, LASSO, random forest importance and recursive feature elimination were used for feature selection. The last operation performed regarding data preprocessing is feature scaling. Scaling of features is a study needed to standardize or normalize them. Feature scaling methods were also used to measure the effect of our study. For feature scaling, standard scaler, min-max scaler, robust scaler, binarizer, normalizer, power converter, quantile converter and max absolute scaler methods were used. In the second part of the thesis, model development and model improvement works were carried out. First of all, machine learning models that will classify SMS spam messages more effectively were built. Logistic Regression, Decision Trees, K-nearest neighbor, Support Vector Machines and Nearest Centroid algorithms were used for model construction. After model construction and model evaluation, model improvement step was started to increase model accuracy. Hyperparameter optimization was performed for model improvement. The study that started with the initial parameters continued with obtaining the optimized parameters. For this, GridSearchCV method was used. Another study done for model improvement is the use of ensemble learning models. GradientBoosting, XGBoost and Random Forest algorithms from Bagging and Boosting categories were used within the scope of ensemble learning. Within the scope of experimental studies, accuracy, sensitivity, precision, f1-score and ROC-AUC metrics were used based on the model evaluation confusion matrix. In addition, 10-fold cross-validation was used during model evaluation. Throughout the thesis study, many experiments were conducted on data and methods and an integrated system was presented. The studies we conducted in the thesis for SMS spam detection went beyond previous studies. Some parts of the integrated structure we presented increased the classification performance, but some did not cause a significant improvement. The reason for the detection accuracies not improving despite the integrated structure was revealed. Since machine learning models are data-based models, more successful models will be possible with richer content data. As spam types increase, models should be trained with examples of these spam types. In addition, classifiers with high classification success should be selected, more appropriate parameters should be presented, balanced data sets should be worked on, and additional content-based information should be extracted from the data with natural language processing methods. Our study is open to development. In addition, the integrated structure we have designed is also suitable for other problems that require analysis on textual data.
Benzer Tezler
- Core network anomaly detection using the LSTM model and comparison with various unsupervised learning methods
Telekomünikasyon merkezi şebekelerinde LSTM model ile anomali tespiti ve bazı denetimsiz öğrenme metotları ile kıyaslanması
SAMED ÇALIK
Yüksek Lisans
İngilizce
2025
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiBüyük Veri ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
- Elazığ havalimanı havacılık emisyonlarının makine öğrenmesi ile analizi
Analysis of elaziğ airport aviation emissions using machine learning
KEMAL KOYUNCU
Yüksek Lisans
Türkçe
2025
Sivil HavacılıkFırat ÜniversitesiHavacılık Bilimi ve Teknolojileri Ana Bilim Dalı
DOÇ. DR. SUAT TORAMAN
- Konteyner liman operasyonlarının makine öğrenmesi yöntemleri ile analizi
Analysis of container port operations using machine learning methods
ÜSTÜN ATAK
Doktora
Türkçe
2022
Deniz Bilimleriİstanbul Teknik ÜniversitesiDeniz Ulaştırma Mühendisliği Ana Bilim Dalı
PROF. DR. YASİN ARSLANOĞLU
PROF. DR. TOLGA KAYA
- Kısa metinlerde makine öğrenmesi yöntemleriyle yüksek performanslı dil tanıma
High performance language recognition in short texts using machine learning methods
BERFİN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSivas Cumhuriyet ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HİDAYET TAKCI
- Kestirimci bakım zamanlarının makina öğrenmesi yöntemleriyle tahminlenmesi: Demir çelik sektöründe bir uygulama
Forecasting predictive maintenance times with machine learning methods: An application in the iron and steel industry
TUĞBA KÖPRÜ
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri MühendisliğiKarabük ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. FUAT ŞİMŞİR