Geri Dön

Kurumsal e-posta sınıflandırma sistemi

Corporate e-mail classification system

  1. Tez No: 479857
  2. Yazar: ABDURRAHMAN YILDIZ
  3. Danışmanlar: YRD. DOÇ. DR. MEHMET DEMİRCİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 82

Özet

Bu çalışmada e-postaları, içeriklerine göre anlamlandıran ve sınıflandıran bir sistem geliştirilmiştir. Çalışmanın amacı, akıllı bir gelen kutusu geliştirip, kurumlarda e-posta hizmetlerini kullanan bütün personellere bilgi güvenliği farkındalığı konusunda yardımcı olmaktır. Tasarlanan akıllı gelen kutusu yapısına e-postaları almak için basit posta transfer protokolü (SMTP) ile bir istemci geliştirilmiştir. Geliştirilen istemciyle standart gelen kutusu gibi e-postalar alınabilmektedir. Gelen kutusuna alınan e-postalar üzerinde iki aşamalı bir analiz gerçekleştirilmektedir. Her iki aşama analizi için de e-postaların özgün kaynak içerikleri ayrıştırılmaktadır. Birinci aşamada e-postaların üstbilgileri üzerinde analiz yapmak için özgün kaynaktan başlık(üstbilgi) bilgileri çıkarılmaktadır. Bu üstbilgi paketlerinden e-postanın iletim geçmişi, uğradığı sunucular, gecikme süresi, mesaj kimliği gibi standart gelen kutularında kullanıcıların gözle göremeyecekleri detaylar görsel hale getirilmektedir. Bu bilgilerle; alınan e-postada meydana gelen teslim gecikmeleri, gecikmenin oluştuğu sunucu bilgileri, sorumlunun bulunması gibi tespitler yapılabilmektedir. İkinci aşamada üstbilgi paketlerinden e-postanın gövdesi seçilmektedir ve içerik, format bilgilerinden temizlenmektedir. Daha sonra temizlenmiş içerik üzerinde analizler yapılabilmektedir. Türkçe için özelleştirilen bu çalışmada içerikteki kelimelerden öncelikle rakamlar, işaretler, durak kelimeler çıkarılarak kıymetli kelimeler seçilmektedir. Seçilen bu kelimeler Türkçe için özelleşmiş olan dil işleme aracı Zemberek ile köklerine ayrıştırılıp kullanıcıdan alınan sınıf bilgisiyle kaydedilmektedir. Kaydedilen bu köklerden öznitelik çıkarımı yapmak için sözlük oluşturulmaktadır. Daha sonra her sınıfın özniteliklerini belirlemek için sözlük içinden modifiye edilen TF-IDF yöntemimiz ile sıklık analizi yapılıp veri seti oluşturulmaktadır. Oluşturulan veri seti WEKA uygulaması üzerinde birçok sınıflandırma algoritmasıyla denenmiş ve en başarılı sonucu veren Naive Bayes algoritması sistemde gerçekleştirilmiştir. Bu çalışma sayesinde e-postalar hakkında ortak bir bilinç oluşturulmaya ve bilgi sızıntısı önlemi alınmaya çalışılmaktadır. Aynı zamanda e-postaların içeriklerinin taşıdığı bilgilerin ölçülmesine yardımcı olunmaktadır. Sistemin bu çalışmadaki üç sınıf için genel sınıflandırma başarısı %96,31 olup kurumsal verileri dış ağlara paylaşmadan yerel ağda Türkçe gerçek verilerle sınıflandırma yapabilen bir masaüstü uygulama olması itibariyle de literatüre katkı sağlamaktadır.

Özet (Çeviri)

In this study, a system has been developed to provide meaning and classification of e-mails according to their contents. The aim of the work is to develop an intelligent inbox and assist in the awareness of information security for all staff members who use email services in their organizations. A client has been developed with the simple mail transfer protocol (SMTP) to retrieve e-mails for the designed smart inbox. It is possible to receive e-mails like the standard inbox with the developed client. A two-step analysis is performed on the e-mails received in the inbox. For both stage analysis, the original source content of the e-mails is parsed. In the first step, header information is extracted from the original source in order to analyze the headers of the e-mails. From these header packages, the details that the user will not see in the standard boxes such as the transmission history of the e-mail, the servers it is going to, the delay time, the message ID are visualized. With this information, it is possible to make determinations such as delivery delays in the received e-mails, server information generated by the delay, and finding the responsible person. In the second step, the header of the e-mail is selected from the header packets and the content is cleared from the format information. Afterwards, analyzes can be done on the cleaned content. In this work, which is customized for the Turkish language, precious words are firstly selected by extracting numbers, signs, stop words from the words in the content. These selected words are recorded with the knowledge of the class which is taken from the user by being separated into their roots with the language processing tool Zemberek which is specialized for Turkish. Then, to determine the attributes of each class, frequency analysis is done with our modified TF-IDF method in the dictionary and the data set is created. The generated data set has been tested with many classification algorithms on the WEKA application and the Naive Bayes algorithm which gives the most successful result has been implemented in the system. Through this work, a common awareness about e-mails is being created and information leakage measures are being tried to be taken. It also helps to measure the information carried by the contents of emails. The overall classification success of the system for the three classes in this study is 96,31%, and the corporate data is a contribution to the literature as it is a desktop application that can operate in real-time in Turkish without sharing the external network.

Benzer Tezler

  1. 8. Cumhurbaşkanı Turgut Özal'ın siyasi biyografisi

    8th President Turgut Özal's political biography

    SAMİ ORÇUN ERSAY

    Doktora

    Türkçe

    Türkçe

    2024

    Siyasal BilimlerGalatasaray Üniversitesi

    Siyaset Bilimi Ana Bilim Dalı

    PROF. DR. HÜSEYİN ÖZGÜR ADADAĞ

  2. Multiscale modeling and study on the exfoliation and electronic properties of functionalized graphene analogs

    Fonksiyonlaştırılmış grafen analoglarının yapraklanması ve elektronik özellikleri üzerine çok ölçekli modelleme

    BERKAY SÜTAY

    Doktora

    İngilizce

    İngilizce

    2016

    Kimyaİstanbul Teknik Üniversitesi

    Fizikokimya Ana Bilim Dalı

    PROF. DR. MİNE YURTSEVER

  3. Modern ile post-modern'e mimari bağlamda bir bakış

    An architectural approach to modernism and post-modernism

    ELA GÜNGÖREN

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Sanat TarihiMimar Sinan Güzel Sanatlar Üniversitesi

    Arkeoloji ve Sanat Tarihi Ana Bilim Dalı

    PROF. DR. ZEYNEP İNANKUR

  4. The interactions of middle-class lifestyles within the context of İslamization in TurkeyTürkiye'de orta sınıfın yaşam tarzlarının İslamlaşma bağlamında etkileşimleri

    Türkiye'de orta sınıfın yaşam tarzlarının İslamlaşma bağlamında etkileşimleri

    MÜGE ÖZTUNÇ

    Doktora

    İngilizce

    İngilizce

    2019

    Sosyolojiİstanbul Bilgi Üniversitesi

    Sosyal Bilimler Ana Bilim Dalı

    PROF. DR. AHMET KILIÇ SÜERDEM

  5. Türkiye'nin potansiyel ikinci kademe şehirlerinin belirlenmesi ve performans analizi

    Determination of potential second-tier cities in Turkey and performance analysis

    BÜŞRA GEZER

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. EMİNE FERHAN GEZİCİ KORTEN