Geri Dön

Veri madenciliği yöntemleri ile spam filtreleme

Spam filtering using data mining methods

  1. Tez No: 285484
  2. Yazar: SERDAR KÜRŞAT SARIKOZ
  3. Danışmanlar: DOÇ. DR. M. ALİ AKCAYOL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2010
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 157

Özet

Ticaretin internet kanalları üzerinden gelişmesi, hızlı ve ekonomik haberleşme olması nedeni ile elektronik posta haberleşmesinin hayatımızda giderek önemini artırmıştır. İşlem maliyetinin çok düşük olması, çok büyük miktardaki verilerin çok uzak mesafelere saniyeler içinde aktarılmasına olanak sağlaması yaygınlaşmasını sağlamıştır. İnternet üzerinde aynı mesajın yüksek sayıdaki kopyasının, bu tip bir mesajı alma talebinde bulunmamış kişilere, zorlayıcı nitelikte gönderilmesi spam olarak adlandırılır. E-posta yolu ile gönderilen spam türlerinden ticari içerikli olan UCE (Unsolicited Commercial E-mail) ve UBE (Unsolicited Bulk E-mail) adından da anlaşılacağı gibi istenmediği halde size gönderilen bir ürünü ya da hizmeti tanıtıcı elektronik posta iletileridir. İstenmeyen elektronik posta problemini tamamen çözebilmiş tek bir teknik ya da tekniklerin birleşmesinden oluşan bir çözüm mevcut değildir. İstenmeyen iletilerin belirlenmesine yönelik birçok veri madenciliği çalışması da yapılmıştır. Veri madenciliği açıkça verinin bir parçası olmayan veride ilginç örüntüleri bulma sürecine denir. Spam filtrelemede iki tür yaklaşım söz konusudur. Bunlardan birincisi bilgi mühendisliği (knowledge engineering) yöntemi ile kurallar oluşturarak filtreleme yapmaktır. Diğeri ise makine öğrenimi ya da makine öğrenimi tekniklerini büyük veri setleri üzerinde uygulayarak makine öğreniminden ayrılan veri madenciliği olarak bilinen yöntemler ile önceden hazırlanmış veri setleri ile sınıflandırmanın yapılmasıdır.Bu tez kapsamında e-posta veri setleri üzerinden oluşturulmuş olan nitelik uzayı üzerinde veri madenciliği yöntemleri uygulanarak spam filtreleme yapılmıştır.

Özet (Çeviri)

The importance of e-mail communication in our lives has continually increased since the commerce is developed over internet channels, and there is fast and economic communication. Very low operation cost provides transferring a large number of data within a few seconds over long distances.Sending a large number of copies of the same message stringently to the people who are not willing to receive over the internet is called spam.UCE (Unsolicited Commercial e-mail) and UBE (Unsolicited Bulk e-mail) which are kinds of spam messages sent via e-mail, as it can be inferred from the names, are introductory e-mails which is actually undesirable.There is not an available unique technique or an available solution combined by the techniques in which the problem of undesirable e-mail is solved. There have been lots of data mining approaches aimed at determining unsolicited e-mails.Data mining is the process of finding the interesting patterns which are obviously not part of the data. In spam filtering, there are two kinds of approaches. One is filtering by constructing the rules by knowledge engineering. Second is classification within datasets prearranged via the techniques known as data mining separated from machine learning by applying machine learning techniques over very large datasets.Within the scope of this thesis, spam filtering has been implemented by applying data mining techniques over attribute space model formed on the basis of e-mail datasets.

Benzer Tezler

  1. İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği

    Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece

    SEFA YAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TOLGA BERBER

  2. A matched-pair comparative study on classification of data streams with concept drift

    İçerik kayması bulunan akışkan verilerin sınıflandırılmasında eşleştirmeli karşılaştırma çalışması

    ELİF SELEN BABÜROĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Endüstri ve Endüstri MühendisliğiGaziantep Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPTEKİN DURMUŞOĞLU

    PROF. DR. TÜRKAY DERELİ

  3. Spammer detection in social bookmarking systems

    Sosyal imleme sistemlerinde istenmeyen kullanıcıları belirleme

    SOGHRA MEHDİNEJAD GARGARİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ

  4. Çizge evrişimli sinir ağları kullanılarak metin sınıflandırma

    Text classification using graph convolutional networks

    RUKİYE ÖZDEMİR TEKİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ABDURRAHİM AKGÜNDOĞDU

  5. Veri madenciliği teknikleri ile istenmeyen Türkçe e-postaların önlenmesi üzerine bir uygulama

    An application on preventing undesired e-mails in Turkish by using data mining techniques

    SEFA SAYLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    İşletmeMarmara Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ÖZGÜR ÇAKIR