Geri Dön

Backdoor Attacks Against Text Classification Models: A Comprehensive Benchmark and Ensemble-Based Defenses

Metin sınıflandırma modellerine yönelik arka kapı saldırıları: kapsamlı bir karşılaştırma ve topluluk tabanlı savunmalar

  1. Tez No: 944155
  2. Yazar: EGEHAN ERALP
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MEHMET EMRE GÜRSOY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 70

Özet

Metinsel arka kapı saldırıları, eğitim verilerine gizli tetikleyiciler yerleştirerek NLP sistemlerinin güvenliği ve güvenilirliği için kritik bir tehdit oluşturmaktadır. Bu tür saldırılar, saldırganların temiz girdiler üzerindeki performansı etkilemeden model tahminlerini manipüle etmesine olanak tanımaktadır. Bu tez, metin sınıflandırma modellerini hedef alan arka kapı saldırılarına yönelik kapsamlı bir karşılaştırmalı çalışma sunmaktadır; bu çalışma, geleneksel makine öğrenimi modellerini (Lojistik Regresyon, Naive Bayes, Karar Ağacı, Rastgele Orman) ve sinir ağı mimarilerini (LSTM, DistilBERT, BERT, RoBERTa) kapsamaktadır. Çalışmamızda, çeşitli saldırı yöntemlerini — AddSent, WordInj, SynBkd, StyleBkd ve BITE — farklı zehirleme oranları (%0.5 ile %10 arası) altında, çeşitli karşılaştırmalı veri setleri (IMDb, SST-2, HateSpeech, Tweet) üzerinde değerlendirmekteyiz. Ampirik sonuçlarımız, temiz doğruluk oranları yüksek olan transformer tabanlı modellerin, arka kapı tetikleyicilerine karşı özellikle savunmasız olduğunu ortaya koymaktadır. AddSent yöntemi, tutarlı bir şekilde en yüksek saldırı başarı oranlarına (ASR) ulaşarak en güçlü saldırı olarak öne çıkmaktadır. Stil transferi tabanlı saldırılar (örneğin, İncil veya Shakespeare tarzlarının kullanıldığı saldırılar) da oldukça etkili kalmakta ve yalnızca %3 zehirleme oranı ile %98'in üzerinde ASR elde edebilmektedir. Zehirleme oranlarının artırılması hem ASR'yi hem de saldırının tespit edilebilirliğini artırmakta; bu durum, saldırganlar ve savunmacılar açısından önemli bir denge problemi oluşturmaktadır. Geleneksel modeller, yüksek zehirleme oranlarında temiz doğrulukta daha fazla düşüş yaşarken; transformer modeller, gizli tetikleyicilere rağmen genellikle temiz doğruluğu koruyabilmekte — bu da onları gerçek dünya senaryolarında tespit edilmesi daha zor hale getirmektedir. Bu saldırılara karşı koymak için, tahmin (inference) aşamasında birden fazla model mimarisini birleştiren topluluk (ensemble) tabanlı savunmalar önermekteyiz. Deneysel değerlendirmelerimiz sonucunda, geleneksel modellerden oluşan toplulukların ASR'yi başarılı bir şekilde azaltabildiğini ancak aynı zamanda doğrulukta kayıplara yol açtığını gözlemliyoruz. Transformer modellerden oluşan topluluklar ise yüksek doğruluk elde ederken, ASR'yi kabul edilebilir seviyelere düşürmekte başarısız kalmaktadır. Bu nedenle, geleneksel modeller ile modern transformer modelleri bir araya getiren ortak (joint) topluluklar önermekteyiz. Önerdiğimiz yaklaşım, rekabetçi temiz doğruluğu korurken ASR'yi önemli ölçüde azaltmaktadır; bu da mimari çeşitliliğin faydalarını göstermekte ve arka kapı saldırılarına karşı dayanıklı metin sınıflandırma sistemleri geliştirmek için potansiyel bir savunma mekanizması sunmaktadır.

Özet (Çeviri)

Textual backdoor attacks present a critical threat to the security and trustworthiness of NLP systems by embedding stealthy triggers in training data. Such attacks enable adversaries to manipulate model predictions without harming performance on clean inputs. This thesis provides a comprehensive benchmark study of backdoor attacks targeting text classification models, encompassing both traditional machine learning models (Logistic Regression, Naive Bayes, Decision Tree, Random Forest) and neural architectures (LSTM, DistilBERT, BERT, RoBERTa). We evaluate various attack methods—including AddSent, WordInj, SynBkd, StyleBkd, and BITE—across multiple benchmark datasets (IMDb, SST-2, HateSpeech, Tweet) under varying poison rates (0.5% to 10%). Empirical results reveal that transformer-based models, while achieving high clean accuracy, are especially vulnerable to backdoor triggers. AddSent emerges as the most potent attack, consistently achieving the highest attack success rates (ASRs). Style-transfer attacks (e.g., using Bible or Shakespeare styles) also remain highly effective, often reaching ASRs above 98% at just 3% poison rate. Increasing poison rates amplify both ASR and detectability, posing trade-offs for adversaries and defenders. Traditional models suffer greater drops in clean accuracy at higher poison rates, while transformer models often preserve clean accuracy despite hidden triggers—making them harder to detect in real-world settings. To counter these attacks, we propose ensemble-based defenses that combine multiple model architectures at inference time. Through experimental evaluations, we observe that ensembles of traditional models successfully reduce ASR but also compromise accuracy. Ensembles of transformer models achieve high accuracy, but do not succeed in reducing ASR to acceptable levels. We therefore propose joint ensembles that combine traditional models with modern transformer models. Our approach significantly reduces ASR while maintaining competitive clean accuracy, highlighting the benefits of architectural diversity and serving as a potential defense mechanism for building backdoor-resilient text classification systems.

Benzer Tezler

  1. Adversarial attacks against machine learning algorithms at training stage

    Eğitim aşamasındaki ̇makina öğrenme algoritmalarına karşı gerçekleştirilen çekişmeli saldırılar

    FAHRİ ANIL YERLİKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞERİF BAHTİYAR

  2. Enhancing the robustness of malicious URL detectors against label flipping attacks

    Kötü amaçlı URL algılayıcılarının etiket çevirme saldırılarına karşı dayanıklılığının artırılması

    NADA YOUSEF JADALLA

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Siber Güvenlik Ana Bilim Dalı

    DR. EHSAN NOWROOZİ

  3. Malware in smart grid

    Başlık çevirisi yok

    ALTAY ÖZEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIowa State University

    Prof. Dr. NEIL ZHENQIANG GONG

  4. Virmon: Sanallaştırma tabanlı otomatik bir dinamik zararlı yazılım analiz sistemi

    Virmon: A virtualization-based automated dynamic malware analysis system

    HÜSEYİN TİRLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. TAKUHİ NADİA ERDOĞAN

  5. Şanghay İşbirliği Örgütü'nün Afganistan sorununa bakışı

    Afghanistan problem appearance of Shanghai Cooperation Organization

    DERAN YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Siyasal Bilimlerİstanbul Gelişim Üniversitesi

    Siyaset Bilimi ve Uluslararası İlişkiler Ana Bilim Dalı

    YRD. DOÇ. DR. FATMA ZEYNEP ÖZKURT