Augmenting a Turkish dataset for spam filtering using natural language processing techniques
Doğal dil işleme teknikleri kullanılarak spam filtreleme için Türkçe veri kümesinin genişletilmesi
- Tez No: 755523
- Danışmanlar: PROF. DR. BANU GÜNEL KILIÇ, DOÇ. DR. CENGİZ ACARTÜRK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Siber Güvenlik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 99
Özet
Günümüzde, internetin evriminin bir sonucu olarak iletişim kurma şeklimiz de değişiyor. İnternetin temel iletişim yollarından biri olan e-posta sistemleri; kullanımının kolay, ucuz ve hızlı olması ve geniş bir kullanıcı kitlesine sahip olması, kötü niyetli aktörlerin de içinde hareket edebileceği geniş bir ortam haline gelmiştir. Buna bağlı olarak istenmeyen ve toplu olarak gönderilen her türlü e-posta olarak tanımlanan spam e-postalar, internetteki kötü niyetli aktörlerin başlıca araçlarından biri haline gelmiştir. İstenmeyen e-postaları durdurmanın henüz kesin bir yolu olmasa da, filtreleme teknikleri her zaman gelişmeye devam etmektedir. Dolayısıyla, istenmeyen e-posta filtreleme, Doğal Dil İşleme'de de en sık kullanılan metin sınıflandırma konularından biri haline geldi. Bu amaçla kullanılan makine öğrenme yöntemlerinin sınıflandırma başarısını artırmanın ise birden çok yolu vardır ve veri artırma bunlardan biridir. Artırma, eldeki veri kümesinden daha fazla veri ve örnek oluşturmaya hizmet eder ve eğitim veri kümelerine benzersiz örnekler ekleyerek makine öğrenme modellerinin işlevselliğini ve doğruluğunu artırır. Veri kümesi yeterli ve yeterince büyükse, makine öğrenme modeli de daha iyi performans gösterir. Bu çalışmada, Türkçe bir veri setini anlamsal olarak büyütmenin spam filtreleme yöntemlerinin doğruluğuna etkisini inceledik ve araştırmalarda kullanılabilecek verimli sonuçlar gözlemledik.
Özet (Çeviri)
Today, how we communicate is altering as a consequence of the evolution of the internet. Since one of the main communication ways of the internet is e-mail systems and they are easy to use, cheap and fast, and have a wide user base, they have also become a broad environment for malicious actors to act within. Correspondingly, spam e-mails, defined as any kind of unwanted, unwelcomed e-mails sent in bulk, are one of the main tools for these malicious actors. Even if there is not yet a definitive way to stop spam e-mails, filtering techniques are improving all the time. In time, spam filtering became one of the most commonly used text classification issues in Natural Language Processing, too. There are multiple ways to improve the classification success of the machine learning methods, one of them is data augmentation. Augmentation serves to generate more unique data from the dataset at hand and improves the functionality and accuracy of machine learning models. A machine learning model improves if the dataset is sufficient and large enough. In this study, we examined the effects of semantically augmenting a Turkish dataset on the accuracy of spam filtering methods and observed efficient results that can be used in research.
Benzer Tezler
- Medikal veri setleri için yeni bir aşırı öğrenme makinesi otomatik kodlayıcı tasarımı
A new extreme learning machine auto encoder design for medical datasets
BERNA ARI
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULKADİR ŞENGÜR
- Lightweight facial expression recognition systems for social robots
Sosyal robotlar için hafif ağırlıklı yüz ifadesi tanıma sistemleri
ERHAN BİÇER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Data augmentation and missing data imputation using similar traffic characteristic of road segments for improving long-term speed prediction
Uzun vadeli trafik hızı tahminini iyileştirmek için benzer trafik karaktestliğine sahip yolların kullanılarak veri arttırılması ve kayıp verilerin giderilmesi
MUSTAFA MERT KARA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET AMAÇ GÜVENSAN
DR. ÖĞR. ÜYESİ HAFİZA İREM TÜRKMEN ÇİLİNGİR
- Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration
Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu
ISMAIL OUBAH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELCUK SENER
- Derin öğrenme ağları kullanılarak 3B tıbbi görüntü tanımlanması
3D medical image recognition using deep learning networks
ROUBA OMAR ALAHMAD ALOSMAN
Yüksek Lisans
Türkçe
2023
Mühendislik BilimleriSakarya ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
PROF. DR. İSMAİL HAKKI CEDİMOĞLU