Geri Dön

Multi-model multi-agent defense against LLM jailbreak attacks

Büyük dil modellerine yönelik jailbreak saldirilarina karşi çok modelli çok ajanli sistemler ile savunma

  1. Tez No: 926222
  2. Yazar: ARJEN AYKAN KILIÇ
  3. Danışmanlar: PROF. DR. FATİH ALAGÖZ, PROF. DR. EMİN ANARIM, DOÇ. DR. REYHAN AYDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Mühendislik Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 52

Özet

Büyük Dil Modellerinin (LLM'ler) jailbreak (hapisten kaçış) gibi saldırılara karşı dayanıklılığı, özellikle hassas alanlarda güvenli bir şekilde kullanılmaları açısından kritik önem taşımaktadır. Bu saldırılar, LLM'lerin esnekliğini kullanarak güvenlik protokollerini aşmakta ve zararlı, yanıltıcı veya yetkisiz çıktılar üretmektedir. Mevcut tek ajanlı ve statik savunma mekanizmaları, dinamik ve gelişen jailbreak açıklarını ele almakta genellikle yetersiz kalmaktadır. Bu çalışma, LLM'lere yönelik jailbreak saldırılarına karşı savunma amacıyla tasarlanmış Çok Modelli Çok Ajanlı (MAMAD) bir savunma sistemi önermektedir. Önerilen mimari, farklı LLM'lerin birbirinden farklı güçlü yönlerini kullanan özelleşmiş ajanları kullanır. Özelleşmiş ajanlar girdi analizi, niyet analizi ve çıktı analizi yaparak ortak karar almaktadır. Alınan kararın sonucuna göre girdiler zararlı ise elimine edilir. Sistem, snowball saldırıları, kodlanmış metin saldırıları ve rol yapma teknikleri gibi çeşitli saldırı vektörlerine karşı tespit doğruluğunda önemli iyileştirmeler sağlamaktadır. Değerlendirme sonuçları, MAMAD sisteminin %94 tespit doğruluğuna ulaştığını ve LLM'lerin yanı sıra tek modelle çalışan çok ajanlı sistemleri geride bıraktığını göstermektedir. Ayrıca, bu çalışma LLM'ler ile çok ajanlı savunma mimarileri arasında hesaplama gücü ve gecikme maliyetleri ile sistem verimliliği arasındaki dengeyi de araştırmaktadır. Bulgular, çok ajanlı sistemlerin LLM uygulamalarının güvenliğini ve güvenilirliğini artırdığını gösterirken, minimal yalancı pozitif oranları ve yüksek ölçeklenebilirlik sağladığını ortaya koymaktadır.

Özet (Çeviri)

The robustness of Large Language Models (LLMs) against adversarial attacks such as jailbreak techniques is critical for their safe deployment especially in the sensitive domains. These attacks exploit LLM flexibility to bypass safety protocols, generating harmful, misleading, or unauthorized outputs. Existing single-agent and static defense mechanisms often struggle to address the dynamic and evolving jailbreak vulnerabilities. This paper introduces a Multi-Model Multi-Agent Defense (MAMAD) system designed to defend jailbreak attacks on LLMs. The proposed architecture incorporates specialized agents—Input Analyzer, Intent Analyzer, and Output Analyzer—utilizing the unique strengths of distinct LLMs to collaboratively evaluating inputs and mitigating potential threats. The system demonstrates significant improvements in detection accuracy against diverse attack vectors, including adversarial suffixes, latent injections, and role-playing techniques. Evaluation results show that the MAMAD system achieves a detection accuracy of 94%, outperforming individual LLMs and single-model multi-agent systems. Furthermore, this work explores the trade-offs between computational and latency overhead and system efficiency between individual LLMs and multi-agent defense architectures. The findings demonstrates the capability of multi-agent systems to improve the safety and reliability of LLM applications, while maintaining minimal false positive rates and scalability.

Benzer Tezler

  1. Çok ajanlı hava savunma sistemi benzetimi

    A multi-agent air defense system simulation

    ERHAN BÜLBÜL

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AYDIN ÇETİN

  2. APT kaynaklı ataklara karşı dayanıklı etmen tabanlı ve ontolojik veri sızıntısı önleme sistemi

    Agent based and ontological data leakage prevention system against advanced persistent threats

    EMRAH KAYA

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İBRAHİM ÖZÇELİK

  3. Scalable planning and learning framework development for swarm-to-swarm engagement problems with reinforcement learning

    Pekiştirmeli öğrenme ile sürüden sürüye angajman problemleri için ölçeklenebilir planlama ve öğrenme sistemi geliştirilmesi

    UMUT DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Savunma ve Savunma Teknolojileriİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NAZIM KEMAL ÜRE

  4. Design and development of an ontology based multi-agent virtual enterprise system

    Ontoloji tabanlı çok-etmenli sanal fabrika sisteminin tasarımı ve geliştirilmesi

    BAHRAM LOTFI SADIGH

    Doktora

    İngilizce

    İngilizce

    2015

    Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. METİN AKKÖK

    PROF. DR. SADIK ENGİN KILIÇ