Destek vektör makineleri ve Gauss karışım modeli ile istenmeyen e-postaların tespiti
Support vector machi̇ne and Gauss mixture model detecti̇on of unsoli̇ci̇ted e-mails
- Tez No: 373097
- Danışmanlar: DOÇ. DR. ECİR UĞUR KÜÇÜKSİLLE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: Türkçe
- Üniversite: Süleyman Demirel Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
Bu tez çalışmasında spam mesajları tespit eden denetimli bir öğrenme algoritması olan Destek Vektör Makinesi(DVM) ve denetimsiz bir öğrenme algoritması olan Gauss Karışım Modelinin(GKM) kullanıldığı, içerik tabanlı 2 farklı filtreleme yöntemi gerçekleştirilmiştir. Yöntemlerde öznitelik olarak eposta mesajlarının başlık ve gövde kısımları kullanılmış ve doğru öznitelikler elde edilmeye çalışılmıştır. Türkçe mesajlar ile yapılan çalışmada, karakter katarının başlangıç veya bitişinde karakter katarına bitişik halde bulunan harf dışı ifadeler katardan çıkarılmış, ilk beş karakter dışındaki karakterler karakter katarından silinmiş, bütün harfler küçük harfe dönüştürülmüş ve 3 defadan az tekrar eden karakter katarı aday öznitelik kümesinden silinmiştir. Karşılıklı Bilgi(KB) algoritması ile en yüksek değere sahip 49 adet karakter katarı öznitelik olarak seçilmiştir. Uygulamanın ikinci bölümünde ise özel bir veri seti olan Lingspam kullanılmıştır. İçerik filtrelerinde en önemli öznitelik mesajın kelimeleridir. Bir kelime kullanılan zamana, tekil çoğul oluşuna vb. özelliklerine göre farklı yazılış şekillerine sahiptir. İngilizce kelime olan“people”,“person”ın çoğulunu“play”kelimesinde“plays”in çoğulunu ifade ederken“found”da“find”ın geçmiş zamanını ifade etmektedir. Bunlardan dolayı spam filtreleme aşamasında kelimeler incelenirken, kelimenin sahip olduğu yalın anlamın, yazılışına göre incelenmesi gerekmektedir. Lingspam veri seti, gövdeleyici(lemmitization) olarak tanımladığı mesajlarında kelimelerin yalın yazılışlarını kullanmıştır. Ayrıca bu veri setinde, bir dilde en çok kullanılan (stop list) kelimeler, veri setinden çıkarılmıştır. Çünkü bu kelimler spam ve normal e-postalar arasında ayrım sağlayamamakta ve sık sık mesajlar içerisinde geçtikleri için algoritmanın çalışma süresini uzatmaktadırlar. Spam gönderici, gönderdiği mail'in filtreye takılmaması için öznitelik olabilecek“viagra”gibi kelimeleri“v*i*a*g*r*a”,“v1a1g1r1a”,“v.iagra”,“viagraaaa”ve hatta“v i a g r a”gibi değişik şekillerde yazmaktadır. Bu yazım şekilleri spam mail'in tespit edilme ihtimalini düşürür. Bu çalışmanın özgün yanı, birçok çalışmada telaffuz doğrulama için kullanılan Soundex algoritmasının, kelimelerin değişik yazım biçimlerinin ayırt edilmesinde kullanılması olmuştur. İkinci yöntemde DVM kullanılarak yapılan test sonuçlarında %98,6 gibi bir doğru tanıma sonucunun elde edilmesi Soundex kullanımının ne kadar doğru olduğunu göstermiştir.
Özet (Çeviri)
In this thesis, two different filtering methods with content based in which Support Vector Machines, a supervised learning algorithm, which detect spam mails and Gaussian Mixture Models, a unsupervised learning algorith, are used were carried out . In methods the title and the body of e-mails were used as attributes and processing was applied to character strings which belong to the messages in order to get accurate attributes. In the study carried out with Turkish messages, expressions that are not letters and attached to the character string in its beginning and the end were removed from it, the characters except the first five ones were deleted from the character string, all letters were turned into lower case letters and the character string repeating less than three times was deleted from the candidate attribute set. With Mutual Information algorithm, 49 character strings that have the highest value were chosen as attributes. In the second method, Lingspam that is a special data set was used. In content filters the most important attribute is the words of the message. A word has different writing styles depending on time, whether it is singular or plural etc. . The English word people is the plural of person, the word“plays”is the plural of“play”and“found”is the past form of“find”. Therefore, while words are examined in the process of spam filtering, it is important to examine the word according to the spelling of simple meaning of it. Lingspam data set used the simple spelling of the words in its messages which it defined as lemmitization. Also, in this data set the most commonly used words in a language were removed from it because these words cannot differentiate spam and normal e-mails from each other and extend the operating time of algorithm as they are often inclued in messages. In order to avoid his mail to be filtered, Spam sender writes the words like“viagra”that may be an attribute in different ways as“v*i*a*g*r*a”,“v1a1g1r1a”,“v.iagra”,“viagraaaa”and even“v i ag r a”. These writing styles reduce the chance of detecting spam mails.The original side of this study is that Soundex algorithm that is used for the correction of pronunciation in many studies was used to differentiate the different writing styles of words. In the second method, the acquisition of %98,6 correct identification results in the tests that were carried out by using DVM has shown the accuracy of the use of Soundex.
Benzer Tezler
- Akustik ve prosodik özniteliklere dayalı olarak konuşmacıların yaş ve cinsiyet grubuna göre sınıflandırılması
Classification of speakers based on acoustic and prosodic features according to age and gender groups
ERGÜN YÜCESOY
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. VASIF NABIYEV
- Ekspirasyon akım volüm eğrisi ile cinsiyet, yaş ve boy kestirimi
Gender, age and height prediction with the expiration flow volume curve
SEMA COŞĞUN
Yüksek Lisans
Türkçe
2014
Elektrik ve Elektronik MühendisliğiAtatürk ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İBRAHİM YÜCEL ÖZBEK
- Early diagnosis of acute coronary syndromes automatically by using features of ECG recordings
EKG kayıtlarının öznitelikleri kullanılarak akut koroner sendromların otomatik olarak erken teşhisi
MERVE BEGÜM TERZİ
Yüksek Lisans
İngilizce
2014
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ORHAN ARIKAN
- Markov random field based road network extraction from high resolution satellite images
Yüksek çözünürlüklü uydu görüntülerinden Markov rastgele alan bazlı yol ağı çıkarımı
MAHİR ÖZTÜRK
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. UĞUR HALICI
- Multivariate modeling and diagnostic classification of pulmonary sounds
Solunum seslerinin çok değişkenli modellenmesi ve tanıya yönelik sınıflandırılması
İPEK ŞEN
Doktora
İngilizce
2013
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ZEYNEP YASEMİN KAHYA
DOÇ. DR. MURAT SARAÇLAR