Geri Dön

Makine öğrenmesi yöntemleri ile içerik tabanlı sms filtreleme uygulaması geliştirilmesi

Development of content based sms filtering application with machine learning methods

  1. Tez No: 566152
  2. Yazar: ONUR KARASOY
  3. Danışmanlar: DOÇ. DR. SERKAN BALLI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Dilbilim, Computer Engineering and Computer Science and Control, Science and Technology, Linguistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Muğla Sıtkı Koçman Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Günümüzde SMS (Kısa Mesaj Servisi) yoğun kullanılmasa da halen cep telefonu kullanıcılarına ulaşmanın en hızlı ve düşük maliyetli yollarından birisidir. Bu durum; reklam, bilgilendirme, promosyon vb. ürün tanıtımı yapmak isteyen kurumları, kısa mesaj hizmetini kullanmaya yönlendirmektedir. Fakat SMS kullanıcılarının izni olmadan atılan mesajlar ciddi sorun teşkil etmektedir. Bu çalışmada, istenmeyen mesajları filtrelemek için geleneksel sınıflama algoritmalarının yanı sıra makine öğrenmesi ve derin öğrenme metotları da kullanılarak içerik tabanlı sınıflandırma yapılmış ve sonuçlar karşılaştırılmıştır. İngilizce ve Türkçe olarak iki ayrı veri seti kullanılmıştır. İngilizce veri setinde Word2Vec derin öğrenme aracı yardımıyla sınıflandırmada kullanılacak model oluşturulmuştur. Oluşturulan bu model sayesinde mesajların Spam ve Ham kelimelerine olan uzaklıkları hesaplanarak iki yeni öznitelik ortaya çıkarılmış ve bu iki yeni öznitelik göz önünde bulundurularak sınıflandırma algoritmalarının performansları karşılaştırılmıştır. Oluşturulan Türkçe veri setinde ise 5 farklı yapısal öznitelik, Word2Vec ile bulunan 2 yeni öznitelik ve her bir mesajın kelime indeks değerleri ile oluşturulan 45 değerden oluşan öznitelik ile beraber toplam 52 öznitelik matrisi ile geleneksel sınıflandırma algoritmaları yanı sıra derin öğrenme algoritmaları karşılaştırılmıştır. İngilizce veri setinde Word2Vec öznitelikleri ve Random Forest (Rasgele Orman) yöntemiyle, %99.64 doğru sınıflandırma oranı ve Türkçe veri setinde ise 52 adet öznitelik kullanılarak oluşturulan CNN (Convolutional Neural Network) yöntemi %99.86 doğru sınıflandırma oranı ile en başarılı algoritmalar olmuşlardır.

Özet (Çeviri)

Although SMS (Short Message Service) is not used extensively today, it is still one of the fastest and cost effective ways to reach mobile phone users. This situation, directs institutions that want to promote product with advertising, information, promotion, etc. to using the short message service. However, messages sent without the permission of SMS users constitute a serious problem. In this study, in order to filter spam messages, content based classification was made by using machine learning and deep learning methods besides traditional classification algorithms and the results were compared. Two separate data sets were used in English and Turkish. In the English data set, a model to be used for classification was created with the help of Word2Vec library. With the help of this model, the distance between the messages“Spam”and“Ham”is calculated and two new features are and the performance of classification algorithms were compared considering these two new features. In the Turkish data set, traditional classification algorithms as well as deep learning algorithms are compared with 5 different structural attributes, 2 new attributes found with Word2Vec, and 45 attributes created with word index values of each message, total 52 attribute matrix. In the English data set, the correct classification rate of 99.64% was obtained by using Word2Vec attributes and Random Forest method, and in the Turkish data set, the Convolutional Neural Network (CNN) formed by using 52 features obtained 99.86% accurate classification rate and they were found the most successful algorithms.

Benzer Tezler

  1. Derin öğrenme ile içerik tabanlı siber tehdit tespiti

    Content-based cyber threat detection with deep learning

    EMRE KOÇYİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ

  2. Generative adversarial networks based level generation for angry birds

    Çekişmeli üretici ağlar ile angry birds bölümlerinin üretilmesi

    BURKAN YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. SANEM SARIEL UZER

  3. Müşteriye yönelik ürün önerisinde işbirlikçi yöntemlerin uygulanması

    Using collaborative filtering methods for products recommendation intended for to customers

    SUNGU MURAT GEDİKOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Okan Üniversitesi

    Bilişim Sistemleri ve Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FERİDUN CEMAL ÖZÇAKIR

  4. Otomatik duygu sözlüğü çevirimi ve duygu analizinde kullanımı

    Automatic sentiment dictionary translation and using in sentiment analysis

    ALAETTİN UÇAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. HAYRİ SEVER

    DOÇ. DR. EBRU AKCAPINAR SEZER

  5. İçerik tabanlı görüntü erişim yöntemleriyle aile bireylerinde yüz tanıma sistemi

    Face recognition system in family individuals with content-based image access methods

    FARUK AYATA

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolVan Yüzüncü Yıl Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. HAYATİ ÇAVUŞ