Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı doküman sınıflandırma algoritması geliştirme

Developing document classification algorithm against malicious data leakage attacks

PDF İndir

Tez No: 600199
Yazar: YAHYA KESENEK
Danışmanlar: DOÇ. DR. İBRAHİM ÖZÇELİK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: Sakarya Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
Bilim Dalı: Siber Güvenlik Bilim Dalı
Sayfa Sayısı: 105

Özet

Kurumsal veya kurumsal olmayan değerli dokümanların erişim yetkisine sahip olmayan kişiler tarafından ele geçirilerek kurum dışına çıkarılması veya sızdırılması günümüzde sıkça görülmektedir. Bu dokümanların sızdırılması ile özel kurumsal için değerli bilginin rakiplerinin eline geçmesi söz konusu olabilmektedir. Devlet kurumları için ise değerli bilginin ulusal bazda uygulanan politikaların değişmesine yol açabileceği gibi uluslar arasındaki ilişkilerin kopmasına da sebep olabilmektedir. Değerli bilginin kaçırılmasına yönelik yapılan Veri Sızıntısı Önleme (Data Leakage Protection – DLP) sistemleri genel olarak kural tabanlı, desen tabanlı ve istatistiksel yöntemler kullanmaktadır. Kural tabanlı ve desen tabanlı sistemeler genel olarak eşleştirme algoritmalarını kullanmaktadır. Eşleştirme algoritmalarının atlatılması dokümandaki küçük değişmelerle rahatlıkla yapılabilmektedir. İstatistiksel yöntemler, iyi olmalarına rağmen zararlı yazılım kaynaklı saldırılara karşı performansı düşebilmektedir. Bundan dolayı zararlı yazılımların kullandıkları sofistike yöntemlerin tespit edilerek, bu saldırılara karşı dayanıklı bir algoritmanın geliştirilmesi gerekmektedir. Bu tezimizde, zararlı yazılım kaynaklı saldırılar yeniden düzenlenerek, saldırı türlerine ait şema çıkarılmıştır. Bu şemadaki saldırı türlerinden, yapısal saldırılar ile karartma saldırılarına karşı bir çözüm önerisi sunulmuştur. Ayrıca ele alınan bu saldırıları gerçekleştirmeye yönelik bir yazılım geliştirilmiştir. Bu yazılım aracılığıyla dokümanlara saldırı yapılmış daha sonra geliştirilen yöntemin performansı ölçülmüştür. Geliştirilen algoritmada Doğal Dil İşleme (Natural Language Processing-NLP) yöntemleri, makine öğrenmesi ve yapay sinir ağları kullanılmıştır. Metin tabanlı sınıflandırma sistemlerinin sıkça kullandığı Doğal Dil İşleme algoritmaları özelliklerin çıkarılması aşamasında kullanılmıştır. Daha sonra sınıflandırma modelinde Karar Destek Makineleri (SVM), Rastgele Orman (Random Forest) ve Çok Katmanlı Sinir Ağları (Multi-Layer Perceptron) kullanılmıştır. Kullanılan bu sınıflandırma modellerinde karar mekanizması Oylamalı sınıflandırıcı (Vote Classifier) ile sağlanmıştır. Algoritanın dayanıklılığı, Veri sızıntısı önleme sistemleri ve metin sınıflandırma algoritmalarında kullanılan Kategori profilleri, SGD (Schotastic Gradient Descent) ve CNN (Convolutional Neural Network) yöntemleri ile karşılaştırılarak algoritmanın başarısı ölçülmüştür. Yapılan testlerde önerdiğimiz yöntemin sınıflama başarısına ait f1 skoru %99 olarak bulunmuştur.

Özet (Çeviri)

It is often seen that institutional or non-institutional valuable documents are seized by persons who are not authorized to access them and taken out or leaked. With the leakage of these documents, valuable information for the private enterprise may be passed into the hands of its opponents. Valuable information leakage can lead to changes in the policies applied on a national basis, as well as breaking the relations between nations. Data Leakage Protection (DLP) systems uses rule-based, pattern based and statistical methods. Rule based and pattern based systems generally use matching algorithms. Bypassing the matching algorithms can be easy done with small changes in the document. Although statistical methods are well but against of an attack it may decrease. Therefore it is necessary to identify the sophisticated methods used by malwares and develop an algorithm that is resistant to these attacks. In this thesis, malware-based attacks are re-organized and attack types are shown in a schema. In this study, two type of attacks, which are structural attack and obfuscated attack are scoped. A software has been developed to carry out these attacks. With this software, the documents were attacked and then the performance of the developed method was measured. In the developed algorithm, Natural Language Processing (NLP) methods, machine learning and artificial neural networks were used. Natural language processing algorithms, which are commonly used by text-based classification systems, are used in the extraction of features. Later, Decision Support Machines (SVM), Random Forest and Multi-Layer Perceptron were used in the classification model. In these classification models, the decision mechanism is provided by Vote Classifier. The reliability of the algorithm was compared with several methods used in data leakage prevention systems and text classification algorithms and the success of the algorithm was measured.In the tests performed, the f1 score of the classification success of the proposed method was found to be 99%.

Benzer Tezler

Tez No
855712
APT kaynaklı ataklara karşı dayanıklı etmen tabanlı ve ontolojik veri sızıntısı önleme sistemi
Agent based and ontological data leakage prevention system against advanced persistent threats
EMRAH KAYA
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM ÖZÇELİK
Tez No
881136
Dosya başlık bilgilerine dayalı güvenli klasör sınıflandırması
Secure folder classification based on file header information
RABİA DOĞAN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sivas Bilim ve Teknoloji Üniversitesi
Savunma Teknolojileri Ana Bilim Dalı
DOÇ. DR. HİDAYET TAKCI
Tez No
463766
Intelligent techniques for wicked web sites discovery
Kötü amaçlı web sitelerinin akıllı yöntemlerle belirlenmesi
DIDAR RASHAD QADR
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik Mühendisliği Yüzüncü Yıl Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ÖZKAN ATAN
Tez No
647991
Gelişen iletişim teknolojileriyle değişen anlatım yolları üzerinden yeni medyanın incelenmesi
Analysis of new media through the changing narratives with the developing communication technologies
ERDEM BAŞHAN
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Radyo Televizyon ve Sinema Ana Bilim Dalı
DOÇ. DR. GİZEM PARLAYANDEMİR
Tez No
963320
Utılızatıon of carbon dıoxıde gas for gas lıft systems ın geothermal wells
Jeotermal kuyularda gaz kaldırma sistemleri için karbon dioksit gazının kullanımı
FORCE LUGEMBE NDEGE
Yüksek Lisans
İngilizce
2025
Petrol ve Doğal Gaz Mühendisliği İstanbul Teknik Üniversitesi
Petrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı
PROF. DR. ÖMER İNANÇ TÜREYEN

Geri Dön