Enhancing botnet detection using federated learning in iot networks

Iot ağlarinda federe öğrenme yöntemini kullanarak botnet tespitinin geliştirilmesi

PDF İndir

Tez No: 953712
Yazar: NİLÜFER USLAN
Danışmanlar: PROF. DR. ŞERİF BAHTİYAR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 75

Özet

Botnetler, genellikle kötü niyetli bir aktör (botmaster) tarafından kontrol edilen, güvenliği ihlal edilmiş veya ele geçirilmiş cihazlardan oluşan bir ağ olarak tanımlanabilir. Bu cihazlar kötü niyetli aktörden gelen komutları dinler ve genellikle komuta ve kontrol (C2) sunucuları tarafından sağlanan mekanizma ile aldıkları bu komutları yerine getirir. En bilinen kullanım amaçları arasında Dağıtılmış Hizmet Engelleme (DDoS) saldırıları, hassas finansal verilerin çalınması ve kripto para madenciliği gibi siber saldırılar vardır. Botnetlerin bu kadar etkili olmasının temel sebebi ölçeğidir, çünkü birlikte çalışan milyonlarca cihazdan oluşabilir. Bu da özellikle DDoS saldırılarında hedefe gönderilen ağ trafiği yükünün çok büyük boyutlara ulaşmasını sağlayabilir. Bu nedenle, son zamanlarda popülerleşen ve çok çeşitli alanlarda kullanılan Nesnelerin İnterneti (IoT) cihazlarının sayısındaki artış ve bu cihazların güvenlik zaafiyetlerinin çok olması ile birlikte botnet tehditlerinin varlığı önemli ölçüde artmıştır. Akıllı ev cihazları, robot süpürgeler, giyilebilir aktivite ve sağlık durumu takip cihazları, güvenlik kameraları ve yönlendiriciler gibi IoT cihazları doğaları gereği sürekli internete bağlı olma durumları ve bazılarının kullanıcı gözetiminde olmaması nedeni ile savunmasızdır. Botnetlerin düşük güvenlikli ve çok sayıda cihazları talep etmesi sebebiyle, artan IoT cihazları da botnetler için çok verimli bir ortam oluşturmaktadır. Sonuç olarak, IoT ağlarında botnetlerin tespit edilebilmesi, siber saldırıların önlenmesi ve hassas verilerin korunması için çok önemlidir. Bilgisayarlarda işlemci ve hafıza gibi kaynakları göz ardı edilemeyecek kadar fazla kullanan antivirüs yazılımları, IDS sistemleri veya geleneksel güvenlik yöntemlerinin IoT cihazları özelinde kullanılması mümkün olmamaktadır. Bunun sebebi çoğunlukla IoT cihazlarının kısıtlı kaynaklarının (işlem gücü ve bellek kapasitesi) olmasıdır. Bu durumda hasar almamak için hızlı ve etkili bir tespit mekanizması kurmak gerekir. Makine öğrenmesi yöntemlerinin de bu amaç için sıklıkla tercih edildiğini görüyoruz. Çünkü botnetlerin sabit ve tahmin edilebilir davranışları olmadığı için ağ trafiğindeki desenleri saptamak, hem yeni çıkan botnetlere karşı davranış tahmini yapabilmeyi sağlayacaktır hem de IoT gibi küçük cihazlardaki geleneksel yöntemlere karşı daha etkili bir yöntem olarak karşımıza çıkacaktır. Evlerde, şirketlerde ve endüstriyel ortamlarda giderek artan IoT cihazı sayısı, botnetler gibi güvenlik tehditlerinin yönetimini her geçen gün daha da zorlaştırmaktadır. Bu cihazlar genellikle sınırlı işlem gücüne sahiptir ve çevrelerindeki ağın tamamını göremezler; bu da saldırıları kendi başlarına tespit edip engellemelerini zorlaştırır. Öte yandan, tüm verilerin analiz amacıyla merkezi bir sunucuya gönderilmesi hem gizlilik endişelerine yol açmakta hem de cihaz sayısı arttıkça bu yöntemin ölçeklenebilirliğini azaltmaktadır. Bu nedenle, cihazların hem yerel düzeyde olağandışı davranışları tespit edebilmesi hem de diğer cihazlarla iş birliği yaparak daha güçlü ve koordineli bir savunma oluşturabilmesi gerekmektedir. Bireysel cihazlar tehditleri engellemek için yeterince güçlü olmasa da, bu görevi edge gateway, saldırı engelleme sistemleri gibi merkezi denetleyiciler üstlenebilir. Bu sistemler zararlı ağı trafiğini durdurabilir, enfekte cihazları izole edebilir ve tüm ağ genelinde güvenlik politikaları uygulayabilir. Eğer birçok cihazdan elde edilen veriler, kullanıcı gizliliğini koruyacak biçimde birleştirilebilirse, bu durum küresel tehdit algılama kapasitesini de artırarak hizmet sağlayıcıların veya altyapı operatörlerinin daha etkili yanıt vermesini sağlar. Bu sorunun çözümü, farklı türde IoT ağlarında çalışabilen, esnek ve gizliliği koruyan bir yaklaşım gerektirir. IoT cihazlarının, tehdit algılaması için yerel düzeyde kendi makine öğrenimi modellerine sahip olduğu bir algılama sistemi, bu cihazlar uç nokta (edge) cihazları olarak ele alınarak geliştirilebilir. federatif öğrenmenin bu tür sistemlerde etkili olmasının temel nedeni, özellikle dağıtık yapıya sahip botnet saldırılarının büyük ölçekte tespit edilebilmesidir. Çünkü federatif öğrenme, IoT cihazlarının birbirlerinden öğrenmesine olanak tanır. Bu sayede cihazlar, şüpheli ağ trafiğini anomali veya zararlı olarak işaretleyerek gerekli önlemlerin alınması için bu bilgiyi gateway cihazları veya bulunduğu networkün merkezi saldırı engelleme sistemlerine iletebilir. Bir diğer mesele ise IoT cihazlarının hassas verilere sahip olabilecek olanları, evlerimizde robot süpürgeler gibi, konum veya görüntü içeren, sağlık verilerimizi monitör eden cihazlardaki gibi hassas verileri taşıyan cihazları ele alacak olursak veriyi eğitmek için bile olsa cihaz dışına çıkarmamamız gerekir. Bu esnada Federe öğrenme yöntemi devreye giriyor. Bu yöntem ile cihaz üzerindeki lokal modelin cihaz verisi ile eğitilmesi sonrasında merkezi bir yerdeki modele veriyi göndermek yerine sadece lokal modelin güncel ağırlık parametrelerini paylaşmak yetiyor. Böylece merkezi model tüm cihazlardan gelen güncel parametreleri FedAvg yöntemi ile birleştirip güncel modeli cihazlara geri gönderiyor. Bu sayede bir cihazın öğrendiği deseni diğer cihazlara da aktarmış oluyorsunuz. Federe öğrenme sadece veri mahremitenin korumakla kalmayacak aynı zamanda işbirlikçi bir yaklaşım ile cihazların daha etkili öğrenmesini sağlayacaktır. Cihazlardaki verilerin her zaman yeterli olmayacağı durumu da var. Aynı zamanda sınıflandırmanın eğilimli olmaması için de dengeli dağılmamış verileri dengelemek için sentetik veri üreterek bu sorunun üstesinden geldik. Tablosal verilerden spesifik veri etiketine göre sentetik veri üretebilen CTGAN modelin kullanarak cihaz tabanlı dengeli dağılamamış verileri dengeleyerek hem cihaz tabanlı doğruluk oranını artırdık hem de merkezi modelin diğer cihazlarda eğilimli sonuçlar vermemesini sağladık. Federe öğrenme aşamasında merkezi modeli taşıyan sunucu belli bir sürede tekrarlayan öğrenme süreçlerine girer. Daha önceden belirlenmiş olan sayı olan R (döngü sayısı) ve C (her döngü için seçilen client sayısı) değerleri bu süreci başlatır. Her döngüde rastgele bir client seti seçerek bu cihazlara tanımladığı modeli yollar. Seçilen cihazların kendi ürettikleri sentetik veri ve kendilerine ait lokal verileri ile modeli eğittikten sonra modelin ağırlık parametrelerini merkezi sunucu toplayarak yine daha önceden belirlenmiş bir birleştirme fonksiyonu ile bunları merkezi modelin parametreleri ile birleştirir. Biz bu çalışmada çok sıklıkla kullanılan ve iyi performans gösteren FedAvg algoritmasını kullandık. Bu algoritma cihazlardan topladığı parametrelerin ortalamalarını alır ve merkezi modeli bu parametreler ile günceller. Bu şekilde R defa tekrarlayan döngüler boyunca bu işlemler bu şekilde devam eder. Kullandığımız N-BaIot veri seti Mirai ve Bashlite gibi iki tane büyük saldırılar ile tanınan botnet zararlısı ile enfekte edilmiş cihazlardan oluşur. Yaklaşık 7 milyon veriden tekrarlayan veriler temizlendiğinde 2,5 milyon kadar veri elde edilmiştir. Bu verilerin 500 bin kadarı temiz trafikten oluşur. 1,5 milyon kadarı Mirai ve 300 bin kadarı Bashlite yani Gafgyt diye adlandırılan botnete ait olan trafiği içermektedir. Verilerin yeniden boyutlandırılması işlemi için standart ölçeklendirme yöntemleri kullanılıp daha istikrarlı bir sınıflandırma yapılmıştır. Verilerin IoT cihazlarında eğitilmesi için büyük veriler olduğunu düşündüğümüz için bu verilerden en önemli özellikleri seçerek verilerin boyutunun azaltılması hedeflenmiştir. Bunun için öncelikle düşük varyansa sahip özelliklerin elenmesi sağlanmış olup sonrasında ilişkili olan özellik setleri belirlenmiştir. Korelasyonda olan özellikler birbiri hakkında bilgi içerdiğinden her set içinden bir özellik kullanmak yeterli olacaktır. Her setten en yüksek gini importance ve mutual information değerlerine sahip olan özellik seçilerek 115 özellikten en etkili 10'u tespit edilmiştir. DNN modelimizin bu 10 özellik ile eğittiği modelin 115 özellikle eğittiği model kadar yüksek performans sergilediği gözlemlenmiştir. Gafgyt ve yararlı trafiğin görece daha az bulunduğu veri setiyle eğitilen DNN modelinin özellikle gafgyt tespitinde daha düşün performans gösterdiği görüldüğü için sonraki aşamalarda bu verilei dengelemek için cihazlar sentetik veri üretmiştir. Sentetik veriler üretilirken kullanılan CTGAN modelinin performansı Kolmogorov-Smirnov (KS) statistic, Wasserstein Distance ve Kullback–Leibler (KL) divergence ölçüm metrikleri kullanılarak ve aynı zamanda modelimizdeki performanslarına göre değerlendirilmiştir. Önerdiğimiz federe öğrenme sistemi ile hem cihazlardaki ver mahremiyeti korunmuş hem de ortak bir öğrenme sağlanarak cihazların tek başına elde edebildiği doğruluk değerlerinden daha yüksek değerler elde edilmiştir. Cihazların sürekli olarak CTGAN modellerini hem yeni trafik verisi ile hem de var olan veri seti ile eğitmesi ile beraber kendi verisini dengelemesi de modellerin doğruluk değerlerini artırmıştır. Bu çalışmada IoT ağlarında federe öğrenmenin nasıl etkili kullanılabileceğini anlattık. Özellik seçimi, sentetik veri üretimi ve önerdiğimiz sistem mimarisi ile mahremiyeti koruyarak ortak öğrenmenin nasıl sağlanacağını gösterdik.

Özet (Çeviri)

A botnet can be defined as a network of compromised devices, usually controlled by a malicious actor. Botnets are utilized to launch cyberattacks, including Distributed Denial of Service (DDoS) attacks, theft of sensitive financial data, and cryptocurrency mining. These compromised devices listen for commands from the malicious actor and execute them when they are received, with the mechanism often provided by command-and-control (C2) servers. The true strength of a botnet lies in its scale, as it can consist of millions of compromised devices working in unison. Therefore, the rapid growth in the usage of Internet of Things (IoT) devices has significantly increased the presence of botnet threats, as many of them lack strong security. Devices such as smart home devices, wearable activity trackers, security cameras, and routers are particularly vulnerable due to their widespread internet connectivity and minimal user oversight. The reliance of botnets on extensive networks of compromised devices renders them particularly well-suited to exploit the expanding IoT landscape. Consequently, the ability to detect botnets is crucial for preventing cyberattacks and protecting sensitive data. However, traditional security methods often fail in IoT environments, making advanced detection techniques necessary. Fast and accurate detection is essential to minimize damage. Fast detection will allow us to prevent botnet attacks before any damage is done. This study explores techniques such as machine learning and optimized feature selection, enhancing botnet detection, boosting performance for rapid detection, improving accuracy, and strengthening IoT security against botnet threats. Our dataset N-BaIoT has Mirai and Gafgyt infected network traffic statistics as well as benign traffic from 9 different IoT devices. Since the dataset is imbalanced across the devices we have used CTGAN to generate synthetic data to balance the dataset. We have proposed a federated learning architecture to enhance botnet detection. The server has a global model that is aggregated with the updates coming from device local models. Using FedAvg, we have updated the global model in each training round R, where C clients were randomly chosen and updates were received from them. Every client has its own local data, local DNN model, and local GAN model. Clients train their GAN model with the local data and continuously retrain with the new incoming traffic. In each round, they used the GAN to generate synthetic data to resolve the class imbalance issue and low sample count. We have also used a hybrid feature selection method and have selected the 10 most important features. This is important since IoT devices have limited resources and applying dimensionality reduction helps to address this constraint. We have evaluated the generated synthetic data according to several metrics and measured with the DNN model to see the effect of synthetic data on accuracy. Overall, the proposed model has its own advantages, such as preserving privacy and balancing classes, which resulted in better performance with coordinated learning.

Benzer Tezler

Tez No
928518
Enhancing security level of industrial internet of things devices based on botnet detection and feature selection
Endüstriyel nesnelerin interneti cihazlarının güvenlik seviyesinin botnet tespiti ve özellik seçimi tabanlı geliştirilmesi
WEAM HUSHAM ABDULWAHHAB AL JABBARI
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HASAN HÜSEYİN BALIK
ASSOC. DR. MUHAMMED ALİ AYDIN
Tez No
940956
Energy efficiency and security of rıs-aided communication networks
Ris-tabanli haberleşme ağlarinda enerji verimliliği ve güvenlik
HAKAN ALAKOCA
Doktora
İngilizce
2025
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Bilişim Uygulamaları Ana Bilim Dalı
PROF. DR. LÜTFİYE DURAK ATA
Tez No
309334
Increasing chances of survival for malware using theory of natural selection and the selfish gene
Dogal seçilim teorisi ve bencil gen ile zararlı yazılımların yaşam sürecini arttırmak
CAN YILDIZLI
Yüksek Lisans
İngilizce
2011
Bilim ve Teknoloji Sabancı Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALBERT LEVİ
PROF. DR. BULENT YENER
Tez No
118944
Implementation of a generalized finite element program for hyperelastic materials
Hiperelastik malzemeler için genel amaçlı bilgisayar programı geliştirilmesi
CELAL SOYARSLAN
Yüksek Lisans
İngilizce
2002
İnşaat Mühendisliği Orta Doğu Teknik Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. UĞURHAN AKYÜZ
Tez No
416567
Enhancing mobile spontaneous adverse drug event reporting through electronic health records
Mobil advers etki bildirim sistemlerinin elektronik sağlık kayıtları yardımıyla iyileştirilmesi
MEHMET KUBİLAY KAHVECİ
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
PROF. DR. ASUMAN DOĞAÇ

Geri Dön