Multi-model multi-agent defense against LLM jailbreak attacks
Büyük dil modellerine yönelik jailbreak saldirilarina karşi çok modelli çok ajanli sistemler ile savunma
- Tez No: 926222
- Danışmanlar: PROF. DR. FATİH ALAGÖZ, PROF. DR. EMİN ANARIM, DOÇ. DR. REYHAN AYDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mühendislik Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 52
Özet
Büyük Dil Modellerinin (LLM'ler) jailbreak (hapisten kaçış) gibi saldırılara karşı dayanıklılığı, özellikle hassas alanlarda güvenli bir şekilde kullanılmaları açısından kritik önem taşımaktadır. Bu saldırılar, LLM'lerin esnekliğini kullanarak güvenlik protokollerini aşmakta ve zararlı, yanıltıcı veya yetkisiz çıktılar üretmektedir. Mevcut tek ajanlı ve statik savunma mekanizmaları, dinamik ve gelişen jailbreak açıklarını ele almakta genellikle yetersiz kalmaktadır. Bu çalışma, LLM'lere yönelik jailbreak saldırılarına karşı savunma amacıyla tasarlanmış Çok Modelli Çok Ajanlı (MAMAD) bir savunma sistemi önermektedir. Önerilen mimari, farklı LLM'lerin birbirinden farklı güçlü yönlerini kullanan özelleşmiş ajanları kullanır. Özelleşmiş ajanlar girdi analizi, niyet analizi ve çıktı analizi yaparak ortak karar almaktadır. Alınan kararın sonucuna göre girdiler zararlı ise elimine edilir. Sistem, snowball saldırıları, kodlanmış metin saldırıları ve rol yapma teknikleri gibi çeşitli saldırı vektörlerine karşı tespit doğruluğunda önemli iyileştirmeler sağlamaktadır. Değerlendirme sonuçları, MAMAD sisteminin %94 tespit doğruluğuna ulaştığını ve LLM'lerin yanı sıra tek modelle çalışan çok ajanlı sistemleri geride bıraktığını göstermektedir. Ayrıca, bu çalışma LLM'ler ile çok ajanlı savunma mimarileri arasında hesaplama gücü ve gecikme maliyetleri ile sistem verimliliği arasındaki dengeyi de araştırmaktadır. Bulgular, çok ajanlı sistemlerin LLM uygulamalarının güvenliğini ve güvenilirliğini artırdığını gösterirken, minimal yalancı pozitif oranları ve yüksek ölçeklenebilirlik sağladığını ortaya koymaktadır.
Özet (Çeviri)
The robustness of Large Language Models (LLMs) against adversarial attacks such as jailbreak techniques is critical for their safe deployment especially in the sensitive domains. These attacks exploit LLM flexibility to bypass safety protocols, generating harmful, misleading, or unauthorized outputs. Existing single-agent and static defense mechanisms often struggle to address the dynamic and evolving jailbreak vulnerabilities. This paper introduces a Multi-Model Multi-Agent Defense (MAMAD) system designed to defend jailbreak attacks on LLMs. The proposed architecture incorporates specialized agents—Input Analyzer, Intent Analyzer, and Output Analyzer—utilizing the unique strengths of distinct LLMs to collaboratively evaluating inputs and mitigating potential threats. The system demonstrates significant improvements in detection accuracy against diverse attack vectors, including adversarial suffixes, latent injections, and role-playing techniques. Evaluation results show that the MAMAD system achieves a detection accuracy of 94%, outperforming individual LLMs and single-model multi-agent systems. Furthermore, this work explores the trade-offs between computational and latency overhead and system efficiency between individual LLMs and multi-agent defense architectures. The findings demonstrates the capability of multi-agent systems to improve the safety and reliability of LLM applications, while maintaining minimal false positive rates and scalability.
Benzer Tezler
- Çok ajanlı hava savunma sistemi benzetimi
A multi-agent air defense system simulation
ERHAN BÜLBÜL
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AYDIN ÇETİN
- APT kaynaklı ataklara karşı dayanıklı etmen tabanlı ve ontolojik veri sızıntısı önleme sistemi
Agent based and ontological data leakage prevention system against advanced persistent threats
EMRAH KAYA
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM ÖZÇELİK
- Scalable planning and learning framework development for swarm-to-swarm engagement problems with reinforcement learning
Pekiştirmeli öğrenme ile sürüden sürüye angajman problemleri için ölçeklenebilir planlama ve öğrenme sistemi geliştirilmesi
UMUT DEMİR
Yüksek Lisans
İngilizce
2022
Savunma ve Savunma Teknolojileriİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
- Structural and functional analysis of perforin mutations in association with clinical data of familial hemophagocytic lymphohistiocytosis type 2 (FHL2) patients
Başlık çevirisi yok
ÖMER AN
Yüksek Lisans
İngilizce
2011
Allerji ve İmmünolojiKoç ÜniversitesiBiyokimya Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZLEM KESKİN
- Design and development of an ontology based multi-agent virtual enterprise system
Ontoloji tabanlı çok-etmenli sanal fabrika sisteminin tasarımı ve geliştirilmesi
BAHRAM LOTFI SADIGH
Doktora
İngilizce
2015
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. METİN AKKÖK
PROF. DR. SADIK ENGİN KILIÇ