Generating synthetic data for user behavior based intrusion detection systems
Kullanıcı davranışına dayalı saldırı tespit sistemleri için sentetik veri oluşturulması
- Tez No: 887313
- Danışmanlar: PROF. DR. ENVER ÖZDEMİR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilişim Uygulamaları Ana Bilim Dalı
- Bilim Dalı: Siber Güvenlik Bilim Dalı
- Sayfa Sayısı: 77
Özet
Bu tezin amacı, davranış tabanlı saldırı tespit sistemlerinde kullanılmak üzere eğitilecek olan sentetik veri üretiminin hayata geçirilmesidir. Bu tezde üretilecek verinin herhangi bir gerçek veritabanına dayanmadan, senaryosu ve şartları sıfırdan oluştulacak şekilde, sentetik veriyi oluşturacak sabitlerin dengeli bir şekilde dağıtılması şeklinde oluşturulması amaçlanmaktadır. Siber güvenlik alanında, saldırı tespit sistemleri tehditlere karşı en önemli güvenlik önlemlerinden biri olarak söylenebilir. Teknolojinin her geçen gün durmadan gelişen bir alan olduğu gerçeğinde dayanarak, siber saldırıların da günden güne geliştiğini, yeni, mücadele etmesi daha zor yöntemlerle ortaya çıktığını söyleyebiliriz. Bu tür yeni saldırılarla mücadele etmek için siber güvenlik önlemleri de her gün gelişmeli, kullandığımız vasıtalar da güncel olmalıdır. Sadece teknik yolla gerçekleşen saldırılar için değil, içinde insan psikolojisini barındıran, sosyal mühendislik, phishing gibi bir işyerinde, ya da herhangi bir sosyal ortamda insanları aldatmaya yönelik senaryoların geliştirdiği saldırı türlerine karşı da siber güvenlik araçlarını durmadan geliştirmek gerekiyor. En yaygın ve tehlikeli saldırı türlerinden biri olan içeriden saldırılar için de, saldırganın olağan dışı hareketlerini önceden tespit edebilecek, buna önlem alabilecek yöntemlerin geliştirilmesi önemlidir. Veriler dünyayı ayakta tutan, insanlar, cihazlar, şirketler, ülkeler arasında dünyadaki bütün bağlantıların gerçekleşmesine önayak olan öğelerdir. Siber güvenlikte de en önemli olgu ve amaç kişisel verileri, iletişim verilerini veya bir işletmeye ait olan verileri, özetle akla gelebilecek her türlü veriyi dış etkenlerden korumaktır. Verinin gizliliğini, ulaşılmazlığını, güvenliğini, aynı zamanda değişmez olarak kalmasını sağlamak siber güvenlik alanında çalışan insanların hayata geçirmeye çalıştıkları amaçlardır. Verinin bu kadar önemli ve değişemez bir olgu olması, onun siber güvenlik araçlarının geliştirilmesinde ve eğitilmesinde de kritik öneme sahip olmasına sebep oluyor. Kullanılan her türlü teknolojik aletin test aşaması ve eğitilmesi için veri kullanılması gerekiyor. xxiv Gerçek dünyadan alınan verilerden oluşan bir çok veritabanı bu amaçla kullanılabilir, fakat bu zaman ortaya bazı ciddi sorunlar çıkıyor. Bu sorunlardan en göze batanı yeni bir teknolojinin geliştirilme aşamasında gerçek dünyadan alınan verilerin kullanılmasının bu verilerin gizliliğine olan etkisi olarak gösterilebilir. Örneğin, gerçek bir işyerinde çalışan gerçek insanların günlük yaptığı işleri, rutinlerini, işe giriş çıkış saatlerini, kullandıkları programları, yazılımları içeren bir veritabanını alıp bir saldırı tespit sisteminin eğitilmesi için kullanırsak, bu zaman önümüze verilerin gizliliğini nasıl temin edebileceğimiz sorusu çıkıyor. Saldırı tespit sistemi gibi kritik öneme sahip çözüm yöntemlerini eğitirken, çok büyük ölçülerde verinin kullanılması gerekiyor ki, bu da aynı zamanda çok büyük ölçülerde verinin riske atılması anlamına geliyor. Herhangi bir şekilde gerçek hayattaki insanların özel bilgilerinin ifşa olması, bu veriyi kullanarak yeni yazılımları eğiten kişilerin ciddi legal sorunlarla karşılaşması anlamına geliyor. Sadece adres, telefon numarası, kimlik bilgileri gibi spesifik veriler değil, aynı zamanda bir kişinin çalıştığı işyerinde günlük olarak yaptığı rutin hareketler bile kişisel bilgiler kategorisine girebilir ve çalışan kendisinin özel bilgilerinin ihlal edildiğini hissedebilir. Buna ek olarak, otoriteler de verilerin gizliliğinin korunması ve toplanan bilgilerin nasıl kullanılması gerektiği konularda sıkı regülasyonlar ve denetimler uyguluyor. Gerçek dünyadaki verilerin kullanılmasının diğer dezavantajlarından biri de, alınan bilgilerin tutarlı bir şekilde toplanmaması ve düzensiz bir şekilde temsil edilmesi olabilir. Herhangi bir saldırı tespit sistemini eğiteceğimiz zaman, onu eğitmek için kullanılan verinin iyi şekilde yapılandırılmış olması kritik öneme sahiptir. Günümüzde yapay zeka her alanda olduğu gibi, saldırı tespit sistemlerinde de kullanılıyor. İyi yapılandırılmış bir verinin kullanılmadığı senaryolarda, yapay zekanın aklı karışabilir, yanlış bir şekilde eğitilebilir ve ortaya çıkan ürün amacına hizmet edemez hale gelebilir ki, bu da bütün sürecin baştan başlaması anlamına gelir. Öte yandan, sentetik veriler bu tür zorlukları ve dezavantajları ortadan kaldırmak için yenilikçi bir çözüm olarak işe yarıyor. Sentetik verilerin kullanılması da regülasyonlara ve gizliliğin kontrol edildiği kurallara bağlı olsa da, sentetik verilerden gerçek verilere ulaşmayı imkansız kılabildiğimiz zaman bu tür regülasyonlara kolayca uyum sağlanabiliyor. Buna ek olarak, sentetik verilerin üretilmesi daha önceden belirlenmiş kurallar, limitler, sabitler ve parametreler esasında oluyor ki, bu da ortaya daha uygun bir şekilde veri kümesi çıkarma imkanı sağlıyor. Bu tezde, saldırı tespit sistemleri hakkında verildikten sonra, sentetik verinin saldırı tespit sistemlerinde ve siber güvenlik alanında nasıl kullanılabileceği tartışılıyor. Daha sonra, sentetik veriyi üretme yöntemleri analiz edilerek, bizim amacımıza en uygun olan yöntem öne çıkarılıp sentetik verinin hangi aşamalardan geçerek üretileceği açıklanıyor. Daha önce yaratılan sentetik veri kümeleri de analiz edilerek aralarindaki farklar, neler içerdikleri de anlatılıyor. Sonda ise, yaptığımız çalışmada ortaya çıkan sonucun neleri içerdiği, beklentilerimizi karşılayıp karşılamadığı ve gelecekte nasıl geliştirilebileceği tartışılıyor. Sentetik veri üretmek için kullanılan yöntemler çalışmanın amacına göre değişkenlik gösteriyor. Sentetik veri üretimi için akla gelen ilk yöntemler kural tabanlı üretim, simülasyon, üretken çekişmeli ağlar (GAN), varyasyon otokodlayıcıları (VAE), enterpolasyon ve ekstrapolasyon gibi farklı algoritmalarla sentetik veri üretimi sağlayan yöntemlerdir. xxv Teknik yöntemlerin yanısıra, sentetik veri üretimine farklı bakış açılarını yansıtan, AB Initio modeli, varolan bir veritabanına bağlı üretim modeli ve iş yüküne bağlı üretim metotları vardır. Bu tez çalışmasında, AB Initio bakış açısı ile yola çıkarak, simülasyon tekniği ile sentetik veri üretimi amaçlanmaktadır. AB Initio bakış açısı sentetik veriyi sıfırdan, herhangi bir gerçek veri kümesini model almadan üretmek anlamına gelir. Simülasyon tekniğinin seçilmesinin nedeni ise, üretilecek verinin, bir işyerinde bilgi teknolojileri departmanında çalışan ve işinin tamamını yardım biletleriyle çalışmanın oluşturduğu bir destek personelinin günlük hareketlerini içerecek olmasıdır. Üretilecek verinin davranış tabanlı saldırı tespit sistemlerini eğitmek için kullanılacağı amaçlanmıştır, bu yüzden de içeriden gelecek saldırıyı daha önceden, kullanıcıların günlük rutinini analiz ederek tespit edebilmesi için üretilecek verinin simülasyon tekniğiyle oluşturulmasl daha amaca uygundur. Bu veriyi oluşturmak için, bir bilgi teknolojileri destek personelinin aldığı biletlerin türlerini, bu türlere karşı alınan aksiyonları, her bilet türü için ve her aksiyon için ortalama geçirilen zamanı iyi anlayıp veride yansıtmak gerekiyor. Tezde amaçlanan veriyi üretmek için Python yazılım dilinin kütüphaneleri kullanılmıştır. Tezin sonucunda sentetik veri üretilmiş olup, sonuçları analiz edilmiştir.
Özet (Çeviri)
Intrusion detection systems are at a critical point in the effort to mitigate cyber vulnerabilities. While malicious actors are increasing day by day, the demand for multifunctional IDS models constantly increases. Since data plays the most crucial role in all cybersecurity measures, obtaining data is really important while developing these security precautions. At this point, synthetic data provides unique contributions to overcoming the problem of data scarcity. This thesis examines the intrusion detection concept, necessity of synthetic data in cybersecurity and synthetic data generation methods. The analyse provides information about relationship between synthetic data and intrusion detection systems, application process of synthetic data and privacy topics while generating and implementing artifical data for cybersecurity measures. After a detailed analyse, we decide generation method and tool for the purpose of this thesis. Since there are various methods and techniques to produce synthetic data for different purposes, we need to choose the right modeling and method for our work. Synthetic data producing methods include machine learning approaches like generative adversarial networks (GAN), variational autoenconders (VAE) furthermore, apporaches like simulation, interpolation and extrapolation, statistical modelling and more others. In this thesis, we generate synthetic data that shows daily behavior of the user who works as information technologies support technician and deals with tickets. We use Python language libraries are implemented for technical side to produce manufactured data. Moreover, scenario was developed to establish a synthetic dataset that is close to real life incidents as possible. Constants like ticket identifications, ticket types, action types are clearly defined in order to generate balanced synthetic data. One of the necessities of synthetic data usage in different industries is it being constructed in a balanced shape. Ticket types are defined as task, bug, support, question, feature, then we defined actions that contains work on ticket, reassign ticket, attach file to a ticket, and others. Although approximately 35,000 movements were created over a two-week period, the duration of the experiment could be extended over a longer period of time for a more realistic distribution in later developments. We also decided to make the synthetic data show actions between 9 A.M and 5 P.M which are work hours. The time spent is calculated from the difference between randomly assigned start and finish times between these hours. xxii Generated data is stored in Excel file, which contains approximately 35000 lines. It is possible to change the amount according to the purpose by making changes in the code. The statistical distribution of the result is shown in histograms at the end.
Benzer Tezler
- Mimari formun evrim anlatısı: Canlı form hali
The evolution narrative of architectural form: The state of vital form
BETÜL UÇKAN
Yüksek Lisans
Türkçe
2023
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. PELİN DURSUN ÇEBİ
PROF. DR. FATMA AHSEN ÖZSOY
- Meteorolojik verilerin ısıl değerlendirilmesi ve bilgisayarda simülasyonu
Başlık çevirisi yok
KAYA SARICALI
- Purchase prediction and item prediction with RNN using different user-item interactions
Farklı kullanıcı-ürün etkileşim türlerini kullanarak özyineli sinir ağları ile ürün ve satış tahminlemesi
FULYA ÇELEBİ SARIOĞLU
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
- Rococo ile role yönelimli eş zamanlı programlama
Programming in role oriented concurrent contexts with Rococo
CEVAT SERKAN BALEK
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TAKUHİ NADİA ERDOĞAN
- Plânlı konut yerleşimlerinde açık mekân kurgusu ile ilişkili yaşantı potansiyellerinin incelenmesi: Ataköy örneği
The research on the life potentials related to open space organization in planned housing settlements: The case of Atakoy
BURAK MANGUT
Doktora
Türkçe
2021
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. FATMA AHSEN ÖZSOY