Makine öğrenmesi yöntemleri ile içerik tabanlı sms filtreleme uygulaması geliştirilmesi
Development of content based sms filtering application with machine learning methods
- Tez No: 566152
- Danışmanlar: DOÇ. DR. SERKAN BALLI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Dilbilim, Computer Engineering and Computer Science and Control, Science and Technology, Linguistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Muğla Sıtkı Koçman Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 92
Özet
Günümüzde SMS (Kısa Mesaj Servisi) yoğun kullanılmasa da halen cep telefonu kullanıcılarına ulaşmanın en hızlı ve düşük maliyetli yollarından birisidir. Bu durum; reklam, bilgilendirme, promosyon vb. ürün tanıtımı yapmak isteyen kurumları, kısa mesaj hizmetini kullanmaya yönlendirmektedir. Fakat SMS kullanıcılarının izni olmadan atılan mesajlar ciddi sorun teşkil etmektedir. Bu çalışmada, istenmeyen mesajları filtrelemek için geleneksel sınıflama algoritmalarının yanı sıra makine öğrenmesi ve derin öğrenme metotları da kullanılarak içerik tabanlı sınıflandırma yapılmış ve sonuçlar karşılaştırılmıştır. İngilizce ve Türkçe olarak iki ayrı veri seti kullanılmıştır. İngilizce veri setinde Word2Vec derin öğrenme aracı yardımıyla sınıflandırmada kullanılacak model oluşturulmuştur. Oluşturulan bu model sayesinde mesajların Spam ve Ham kelimelerine olan uzaklıkları hesaplanarak iki yeni öznitelik ortaya çıkarılmış ve bu iki yeni öznitelik göz önünde bulundurularak sınıflandırma algoritmalarının performansları karşılaştırılmıştır. Oluşturulan Türkçe veri setinde ise 5 farklı yapısal öznitelik, Word2Vec ile bulunan 2 yeni öznitelik ve her bir mesajın kelime indeks değerleri ile oluşturulan 45 değerden oluşan öznitelik ile beraber toplam 52 öznitelik matrisi ile geleneksel sınıflandırma algoritmaları yanı sıra derin öğrenme algoritmaları karşılaştırılmıştır. İngilizce veri setinde Word2Vec öznitelikleri ve Random Forest (Rasgele Orman) yöntemiyle, %99.64 doğru sınıflandırma oranı ve Türkçe veri setinde ise 52 adet öznitelik kullanılarak oluşturulan CNN (Convolutional Neural Network) yöntemi %99.86 doğru sınıflandırma oranı ile en başarılı algoritmalar olmuşlardır.
Özet (Çeviri)
Although SMS (Short Message Service) is not used extensively today, it is still one of the fastest and cost effective ways to reach mobile phone users. This situation, directs institutions that want to promote product with advertising, information, promotion, etc. to using the short message service. However, messages sent without the permission of SMS users constitute a serious problem. In this study, in order to filter spam messages, content based classification was made by using machine learning and deep learning methods besides traditional classification algorithms and the results were compared. Two separate data sets were used in English and Turkish. In the English data set, a model to be used for classification was created with the help of Word2Vec library. With the help of this model, the distance between the messages“Spam”and“Ham”is calculated and two new features are and the performance of classification algorithms were compared considering these two new features. In the Turkish data set, traditional classification algorithms as well as deep learning algorithms are compared with 5 different structural attributes, 2 new attributes found with Word2Vec, and 45 attributes created with word index values of each message, total 52 attribute matrix. In the English data set, the correct classification rate of 99.64% was obtained by using Word2Vec attributes and Random Forest method, and in the Turkish data set, the Convolutional Neural Network (CNN) formed by using 52 features obtained 99.86% accurate classification rate and they were found the most successful algorithms.
Benzer Tezler
- Derin öğrenme ile içerik tabanlı siber tehdit tespiti
Content-based cyber threat detection with deep learning
EMRE KOÇYİĞİT
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ
- Generative adversarial networks based level generation for angry birds
Çekişmeli üretici ağlar ile angry birds bölümlerinin üretilmesi
BURKAN YILMAZ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
DOÇ. DR. SANEM SARIEL UZER
- Müşteriye yönelik ürün önerisinde işbirlikçi yöntemlerin uygulanması
Using collaborative filtering methods for products recommendation intended for to customers
SUNGU MURAT GEDİKOĞLU
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Okan ÜniversitesiBilişim Sistemleri ve Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FERİDUN CEMAL ÖZÇAKIR
- Otomatik duygu sözlüğü çevirimi ve duygu analizinde kullanımı
Automatic sentiment dictionary translation and using in sentiment analysis
ALAETTİN UÇAN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. HAYRİ SEVER
DOÇ. DR. EBRU AKCAPINAR SEZER
- İçerik tabanlı görüntü erişim yöntemleriyle aile bireylerinde yüz tanıma sistemi
Face recognition system in family individuals with content-based image access methods
FARUK AYATA
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolVan Yüzüncü Yıl Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. HAYATİ ÇAVUŞ