Geri Dön

Doğal dil işleme tekniklerini ve derin öğrenme algoritmalarını kullanarak sosyal ağlarda spam tespiti

Using natural language processing techniques and deep learning algorithms for detecting spam on social networks

  1. Tez No: 755156
  2. Yazar: REZAN BAKIR
  3. Danışmanlar: PROF. DR. HASAN ERBAY
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Kırıkkale Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 121

Özet

Kısa metin sınıflandırma problemi olarak kabul edilen sosyal ağlarda spam tespiti, metnin seyrekliği ve belirsizliği nedeniyle doğal dil işlemede zorlu bir görevdir. Sorunu çözmek için en önemli görevlerden biri güçlü bir metin gösterimi bulmaktır. Geleneksel Kelime gömme (word embedding) modelleri, yoğun vektörlerle kelimeleri temsil ederek veri seyrekliği problemini çözmektedir, ancak bu modellerin bazı problemleri etkili bir şekilde ele almalarını engelleyen bazı sınırlamaları vardır. Geleneksel kelime gömme yöntemlerinin maruz kaldığı en yaygın sınırlamalarından birisi,“kelime dağarcığı (Out Of Vocabulary)”olarak adlandırılan ve modelin sözlüğünde olmayan sözcükleri için herhangi bir vektör temsili sağlayamamasından çıkan problemidir. Bu modellerin karşılaştığı bir diğer problemi ise, bu tip modellerin, kelimenin cümle içindeki konumundan bağımsız olarak her bir kelime için yalnızca bir vektör verdiği bağlamdan bağımsız olarak temsil etmektedir. Bu sorunların üstesinden gelebilmek için, derin öğrenme teknikleriyle birlikte bağlamsal doğal dil işleme modelleri benimsenmiştir. Doğal dil işlemenin ana hedeflerinden biri, farklı bağlamlarda kelime anlamları ve benzerlikleri yakalama yeteneğini güçlendiren kelimelerin anlamlı bir temsilini geliştirmektir. Sonuç olarak bu tez çalışması, spam mesajlarını etkili bir şekilde tespit etmek amacıyla sosyal ağlardaki kısa metinlerin seyrekliğini ve diğer kısıtlamalarını ele almak için farklı modelleri önerilmiştir. Önerilen modelleri, üç kıyaslama veri seti üzerinde test ederek elde edilen sonuçları, bu modellerin yüksek sınıflandırma doğruluk elde ettiğini ve sosyal ağlarda spam masajları tespit etmek için mevcut son teknoloji yöntemlerden daha iyi performans gösterdiğini görülmüştür.

Özet (Çeviri)

Spam detection on social networks, considered a short text classification problem, is a challenging task in natural language processing due to the sparsity and the ambiguity of the text. One of the key tasks to address such a problem is powerful text representation. Traditional word embedding models solve the data sparsity problem by representing words with dense vectors, but these models have some limitations that make them unable to handle some problems effectively. The most common limitation that traditional word embedding methods suffer from is the“out of vocabulary”problem in which they fail to provide any vector representation for words that are not in the model's dictionary. Another problem these models face is the independence from the context, in which the models output just one vector for each word regardless of the position of the word in the sentence. To overcome these problems, we relied on contextualized natural language processing models in combination with deep learning techniques. One of the main goals of natural language processing is developing a meaningful representation of words, that improves the ability to capture word senses and similarity in different contexts. Consequently, in this thesis, we proposed different models to handle the sparsity and other limitations of short text on social networks in order to detect spam messages effectively. The results obtained on three benchmark datasets stated that our proposed methods achieve high accuracy and outperform the existing state-of-the-art methods to detect spam on social networks.

Benzer Tezler

  1. Text clustering and topic modeling on Covid-19 vaccine tweets using machine learning, natural language processing, and deep learning

    Makine öğrenimi, doğal dil işleme ve derin öğrenme kullanılarak Covıd-19 aşısı tweetlerinde metin kümeleme ve konu modelleme

    DAVID OKORE UKWEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT KARABATAK

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. Machine learning applications for time series analysis

    Zaman serileri analizi için makine öğrenmesi uygulamaları

    MERT CAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Matematikİstanbul Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. ATABEY KAYGUN

  4. Suicidal ideation detection from social media

    Sosyal medya içeriğinden intihar düşüncesi algılama

    ÖZAY EZERCELİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAHİM DEHKHARGHANİ

  5. Hybrid reciprocal recommendation with advanced feature representations

    Gelişmiş özellik gösterimleri ile hibrit çift taraflı öneri sistemleri

    EZGİ YILDIRIM

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ