Doğal dil işleme tekniklerini ve derin öğrenme algoritmalarını kullanarak sosyal ağlarda spam tespiti

Using natural language processing techniques and deep learning algorithms for detecting spam on social networks

PDF İndir

Tez No: 755156
Yazar: REZAN BAKIR
Danışmanlar: PROF. DR. HASAN ERBAY
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: Kırıkkale Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 121

Özet

Kısa metin sınıflandırma problemi olarak kabul edilen sosyal ağlarda spam tespiti, metnin seyrekliği ve belirsizliği nedeniyle doğal dil işlemede zorlu bir görevdir. Sorunu çözmek için en önemli görevlerden biri güçlü bir metin gösterimi bulmaktır. Geleneksel Kelime gömme (word embedding) modelleri, yoğun vektörlerle kelimeleri temsil ederek veri seyrekliği problemini çözmektedir, ancak bu modellerin bazı problemleri etkili bir şekilde ele almalarını engelleyen bazı sınırlamaları vardır. Geleneksel kelime gömme yöntemlerinin maruz kaldığı en yaygın sınırlamalarından birisi,“kelime dağarcığı (Out Of Vocabulary)”olarak adlandırılan ve modelin sözlüğünde olmayan sözcükleri için herhangi bir vektör temsili sağlayamamasından çıkan problemidir. Bu modellerin karşılaştığı bir diğer problemi ise, bu tip modellerin, kelimenin cümle içindeki konumundan bağımsız olarak her bir kelime için yalnızca bir vektör verdiği bağlamdan bağımsız olarak temsil etmektedir. Bu sorunların üstesinden gelebilmek için, derin öğrenme teknikleriyle birlikte bağlamsal doğal dil işleme modelleri benimsenmiştir. Doğal dil işlemenin ana hedeflerinden biri, farklı bağlamlarda kelime anlamları ve benzerlikleri yakalama yeteneğini güçlendiren kelimelerin anlamlı bir temsilini geliştirmektir. Sonuç olarak bu tez çalışması, spam mesajlarını etkili bir şekilde tespit etmek amacıyla sosyal ağlardaki kısa metinlerin seyrekliğini ve diğer kısıtlamalarını ele almak için farklı modelleri önerilmiştir. Önerilen modelleri, üç kıyaslama veri seti üzerinde test ederek elde edilen sonuçları, bu modellerin yüksek sınıflandırma doğruluk elde ettiğini ve sosyal ağlarda spam masajları tespit etmek için mevcut son teknoloji yöntemlerden daha iyi performans gösterdiğini görülmüştür.

Özet (Çeviri)

Spam detection on social networks, considered a short text classification problem, is a challenging task in natural language processing due to the sparsity and the ambiguity of the text. One of the key tasks to address such a problem is powerful text representation. Traditional word embedding models solve the data sparsity problem by representing words with dense vectors, but these models have some limitations that make them unable to handle some problems effectively. The most common limitation that traditional word embedding methods suffer from is the“out of vocabulary”problem in which they fail to provide any vector representation for words that are not in the model's dictionary. Another problem these models face is the independence from the context, in which the models output just one vector for each word regardless of the position of the word in the sentence. To overcome these problems, we relied on contextualized natural language processing models in combination with deep learning techniques. One of the main goals of natural language processing is developing a meaningful representation of words, that improves the ability to capture word senses and similarity in different contexts. Consequently, in this thesis, we proposed different models to handle the sparsity and other limitations of short text on social networks in order to detect spam messages effectively. The results obtained on three benchmark datasets stated that our proposed methods achieve high accuracy and outperform the existing state-of-the-art methods to detect spam on social networks.

Benzer Tezler

Tez No
770639
Text clustering and topic modeling on Covid-19 vaccine tweets using machine learning, natural language processing, and deep learning
Makine öğrenimi, doğal dil işleme ve derin öğrenme kullanılarak Covıd-19 aşısı tweetlerinde metin kümeleme ve konu modelleme
DAVID OKORE UKWEN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT KARABATAK
Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
Tez No
885503
Machine learning applications for time series analysis
Zaman serileri analizi için makine öğrenmesi uygulamaları
MERT CAN
Yüksek Lisans
İngilizce
2024
Matematik İstanbul Teknik Üniversitesi
Matematik Mühendisliği Ana Bilim Dalı
PROF. DR. ATABEY KAYGUN
Tez No
836469
Suicidal ideation detection from social media
Sosyal medya içeriğinden intihar düşüncesi algılama
ÖZAY EZERCELİ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Işık Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RAHİM DEHKHARGHANİ
Tez No
674767
Hybrid reciprocal recommendation with advanced feature representations
Gelişmiş özellik gösterimleri ile hibrit çift taraflı öneri sistemleri
EZGİ YILDIRIM
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ

Geri Dön