Augmenting a Turkish dataset for spam filtering using natural language processing techniques

Doğal dil işleme teknikleri kullanılarak spam filtreleme için Türkçe veri kümesinin genişletilmesi

PDF İndir

Tez No: 755523
Yazar: AYŞENUR AKSOY
Danışmanlar: PROF. DR. BANU GÜNEL KILIÇ, DOÇ. DR. CENGİZ ACARTÜRK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Enformatik Enstitüsü
Ana Bilim Dalı: Siber Güvenlik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 99

Özet

Günümüzde, internetin evriminin bir sonucu olarak iletişim kurma şeklimiz de değişiyor. İnternetin temel iletişim yollarından biri olan e-posta sistemleri; kullanımının kolay, ucuz ve hızlı olması ve geniş bir kullanıcı kitlesine sahip olması, kötü niyetli aktörlerin de içinde hareket edebileceği geniş bir ortam haline gelmiştir. Buna bağlı olarak istenmeyen ve toplu olarak gönderilen her türlü e-posta olarak tanımlanan spam e-postalar, internetteki kötü niyetli aktörlerin başlıca araçlarından biri haline gelmiştir. İstenmeyen e-postaları durdurmanın henüz kesin bir yolu olmasa da, filtreleme teknikleri her zaman gelişmeye devam etmektedir. Dolayısıyla, istenmeyen e-posta filtreleme, Doğal Dil İşleme'de de en sık kullanılan metin sınıflandırma konularından biri haline geldi. Bu amaçla kullanılan makine öğrenme yöntemlerinin sınıflandırma başarısını artırmanın ise birden çok yolu vardır ve veri artırma bunlardan biridir. Artırma, eldeki veri kümesinden daha fazla veri ve örnek oluşturmaya hizmet eder ve eğitim veri kümelerine benzersiz örnekler ekleyerek makine öğrenme modellerinin işlevselliğini ve doğruluğunu artırır. Veri kümesi yeterli ve yeterince büyükse, makine öğrenme modeli de daha iyi performans gösterir. Bu çalışmada, Türkçe bir veri setini anlamsal olarak büyütmenin spam filtreleme yöntemlerinin doğruluğuna etkisini inceledik ve araştırmalarda kullanılabilecek verimli sonuçlar gözlemledik.

Özet (Çeviri)

Today, how we communicate is altering as a consequence of the evolution of the internet. Since one of the main communication ways of the internet is e-mail systems and they are easy to use, cheap and fast, and have a wide user base, they have also become a broad environment for malicious actors to act within. Correspondingly, spam e-mails, defined as any kind of unwanted, unwelcomed e-mails sent in bulk, are one of the main tools for these malicious actors. Even if there is not yet a definitive way to stop spam e-mails, filtering techniques are improving all the time. In time, spam filtering became one of the most commonly used text classification issues in Natural Language Processing, too. There are multiple ways to improve the classification success of the machine learning methods, one of them is data augmentation. Augmentation serves to generate more unique data from the dataset at hand and improves the functionality and accuracy of machine learning models. A machine learning model improves if the dataset is sufficient and large enough. In this study, we examined the effects of semantically augmenting a Turkish dataset on the accuracy of spam filtering methods and observed efficient results that can be used in research.

Benzer Tezler

Tez No
771678
Medikal veri setleri için yeni bir aşırı öğrenme makinesi otomatik kodlayıcı tasarımı
A new extreme learning machine auto encoder design for medical datasets
BERNA ARI
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULKADİR ŞENGÜR
Tez No
885516
Lightweight facial expression recognition systems for social robots
Sosyal robotlar için hafif ağırlıklı yüz ifadesi tanıma sistemleri
ERHAN BİÇER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
Tez No
949503
Çevrim içi yabancılara Türkçe öğretimi etkileşiminde gülmecenin işlevi
The functions of humor in online Turkish as a foreign language classroom
HATİCE SUMRUK
Doktora
Türkçe
2025
Dilbilim Hacettepe Üniversitesi
Türkiyat Araştırmaları Ana Bilim Dalı
PROF. DR. MUSTAFA DURMUŞ
Tez No
830020
Data augmentation and missing data imputation using similar traffic characteristic of road segments for improving long-term speed prediction
Uzun vadeli trafik hızı tahminini iyileştirmek için benzer trafik karaktestliğine sahip yolların kullanılarak veri arttırılması ve kayıp verilerin giderilmesi
MUSTAFA MERT KARA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET AMAÇ GÜVENSAN
DR. ÖĞR. ÜYESİ HAFİZA İREM TÜRKMEN ÇİLİNGİR
Tez No
884293
Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration
Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu
ISMAIL OUBAH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Aydın Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELCUK SENER

Geri Dön