Kurumsal e-posta sınıflandırma sistemi
Corporate e-mail classification system
- Tez No: 479857
- Danışmanlar: YRD. DOÇ. DR. MEHMET DEMİRCİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 82
Özet
Bu çalışmada e-postaları, içeriklerine göre anlamlandıran ve sınıflandıran bir sistem geliştirilmiştir. Çalışmanın amacı, akıllı bir gelen kutusu geliştirip, kurumlarda e-posta hizmetlerini kullanan bütün personellere bilgi güvenliği farkındalığı konusunda yardımcı olmaktır. Tasarlanan akıllı gelen kutusu yapısına e-postaları almak için basit posta transfer protokolü (SMTP) ile bir istemci geliştirilmiştir. Geliştirilen istemciyle standart gelen kutusu gibi e-postalar alınabilmektedir. Gelen kutusuna alınan e-postalar üzerinde iki aşamalı bir analiz gerçekleştirilmektedir. Her iki aşama analizi için de e-postaların özgün kaynak içerikleri ayrıştırılmaktadır. Birinci aşamada e-postaların üstbilgileri üzerinde analiz yapmak için özgün kaynaktan başlık(üstbilgi) bilgileri çıkarılmaktadır. Bu üstbilgi paketlerinden e-postanın iletim geçmişi, uğradığı sunucular, gecikme süresi, mesaj kimliği gibi standart gelen kutularında kullanıcıların gözle göremeyecekleri detaylar görsel hale getirilmektedir. Bu bilgilerle; alınan e-postada meydana gelen teslim gecikmeleri, gecikmenin oluştuğu sunucu bilgileri, sorumlunun bulunması gibi tespitler yapılabilmektedir. İkinci aşamada üstbilgi paketlerinden e-postanın gövdesi seçilmektedir ve içerik, format bilgilerinden temizlenmektedir. Daha sonra temizlenmiş içerik üzerinde analizler yapılabilmektedir. Türkçe için özelleştirilen bu çalışmada içerikteki kelimelerden öncelikle rakamlar, işaretler, durak kelimeler çıkarılarak kıymetli kelimeler seçilmektedir. Seçilen bu kelimeler Türkçe için özelleşmiş olan dil işleme aracı Zemberek ile köklerine ayrıştırılıp kullanıcıdan alınan sınıf bilgisiyle kaydedilmektedir. Kaydedilen bu köklerden öznitelik çıkarımı yapmak için sözlük oluşturulmaktadır. Daha sonra her sınıfın özniteliklerini belirlemek için sözlük içinden modifiye edilen TF-IDF yöntemimiz ile sıklık analizi yapılıp veri seti oluşturulmaktadır. Oluşturulan veri seti WEKA uygulaması üzerinde birçok sınıflandırma algoritmasıyla denenmiş ve en başarılı sonucu veren Naive Bayes algoritması sistemde gerçekleştirilmiştir. Bu çalışma sayesinde e-postalar hakkında ortak bir bilinç oluşturulmaya ve bilgi sızıntısı önlemi alınmaya çalışılmaktadır. Aynı zamanda e-postaların içeriklerinin taşıdığı bilgilerin ölçülmesine yardımcı olunmaktadır. Sistemin bu çalışmadaki üç sınıf için genel sınıflandırma başarısı %96,31 olup kurumsal verileri dış ağlara paylaşmadan yerel ağda Türkçe gerçek verilerle sınıflandırma yapabilen bir masaüstü uygulama olması itibariyle de literatüre katkı sağlamaktadır.
Özet (Çeviri)
In this study, a system has been developed to provide meaning and classification of e-mails according to their contents. The aim of the work is to develop an intelligent inbox and assist in the awareness of information security for all staff members who use email services in their organizations. A client has been developed with the simple mail transfer protocol (SMTP) to retrieve e-mails for the designed smart inbox. It is possible to receive e-mails like the standard inbox with the developed client. A two-step analysis is performed on the e-mails received in the inbox. For both stage analysis, the original source content of the e-mails is parsed. In the first step, header information is extracted from the original source in order to analyze the headers of the e-mails. From these header packages, the details that the user will not see in the standard boxes such as the transmission history of the e-mail, the servers it is going to, the delay time, the message ID are visualized. With this information, it is possible to make determinations such as delivery delays in the received e-mails, server information generated by the delay, and finding the responsible person. In the second step, the header of the e-mail is selected from the header packets and the content is cleared from the format information. Afterwards, analyzes can be done on the cleaned content. In this work, which is customized for the Turkish language, precious words are firstly selected by extracting numbers, signs, stop words from the words in the content. These selected words are recorded with the knowledge of the class which is taken from the user by being separated into their roots with the language processing tool Zemberek which is specialized for Turkish. Then, to determine the attributes of each class, frequency analysis is done with our modified TF-IDF method in the dictionary and the data set is created. The generated data set has been tested with many classification algorithms on the WEKA application and the Naive Bayes algorithm which gives the most successful result has been implemented in the system. Through this work, a common awareness about e-mails is being created and information leakage measures are being tried to be taken. It also helps to measure the information carried by the contents of emails. The overall classification success of the system for the three classes in this study is 96,31%, and the corporate data is a contribution to the literature as it is a desktop application that can operate in real-time in Turkish without sharing the external network.
Benzer Tezler
- 8. Cumhurbaşkanı Turgut Özal'ın siyasi biyografisi
8th President Turgut Özal's political biography
SAMİ ORÇUN ERSAY
Doktora
Türkçe
2024
Siyasal BilimlerGalatasaray ÜniversitesiSiyaset Bilimi Ana Bilim Dalı
PROF. DR. HÜSEYİN ÖZGÜR ADADAĞ
- Multiscale modeling and study on the exfoliation and electronic properties of functionalized graphene analogs
Fonksiyonlaştırılmış grafen analoglarının yapraklanması ve elektronik özellikleri üzerine çok ölçekli modelleme
BERKAY SÜTAY
Doktora
İngilizce
2016
Kimyaİstanbul Teknik ÜniversitesiFizikokimya Ana Bilim Dalı
PROF. DR. MİNE YURTSEVER
- Modern ile post-modern'e mimari bağlamda bir bakış
An architectural approach to modernism and post-modernism
ELA GÜNGÖREN
Yüksek Lisans
Türkçe
1997
Sanat TarihiMimar Sinan Güzel Sanatlar ÜniversitesiArkeoloji ve Sanat Tarihi Ana Bilim Dalı
PROF. DR. ZEYNEP İNANKUR
- The interactions of middle-class lifestyles within the context of İslamization in TurkeyTürkiye'de orta sınıfın yaşam tarzlarının İslamlaşma bağlamında etkileşimleri
Türkiye'de orta sınıfın yaşam tarzlarının İslamlaşma bağlamında etkileşimleri
MÜGE ÖZTUNÇ
Doktora
İngilizce
2019
Sosyolojiİstanbul Bilgi ÜniversitesiSosyal Bilimler Ana Bilim Dalı
PROF. DR. AHMET KILIÇ SÜERDEM
- Türkiye'nin potansiyel ikinci kademe şehirlerinin belirlenmesi ve performans analizi
Determination of potential second-tier cities in Turkey and performance analysis
BÜŞRA GEZER
Yüksek Lisans
Türkçe
2018
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
PROF. DR. EMİNE FERHAN GEZİCİ KORTEN