大模型越狱、MCP 投毒怎么防?3K Star!腾讯朱雀开源「AI红队平台」:一键体检大模型、MCP、基础设施漏洞

最近在 GitHub 上看到一个非常对味的开源项目——A.I.G (AI-Infra-Guard),是腾讯朱雀实验室推出的。目前 Star 数已经冲到3K+,在 AI 安全圈里热度不低。它的定位很直接:

一个一站式 AI 红队安全测试平台,帮你把大模型、MCP Server、AI 基础设施的“坑”都提前扫一遍。

🤔 为什么会有 A.I.G?一句话总结:因为 AI 系统一旦出问题,就不是“网站挂了”那么简单,而是整个业务都可能被“连根拔起”。过去两年,我们见证了大模型的飞速发展,但安全问题也日益凸显:

  • 模型越狱频发:各种“越狱”手法层出不穷,诱导模型输出本应被禁止的内容。
  • 基础设施漏洞:支撑模型运行的 Ollama、ComfyUI、vLLM 等开源组件,一旦有漏洞,可能导致服务器被控制、算力被薅、模型被盗。
  • MCP 投毒风险:AI Agent 时代,MCP Server 成了连接外部工具的“桥梁”,但也成了新的攻击入口,如工具投毒、间接提示注入等。

传统的安全工具,要么只懂 Web 漏洞,要么只懂模型 Prompt 安全,很难覆盖从“模型 → Agent → 基础设施”的完整链路。

于是,腾讯朱雀实验室基于自身在 AI 安全攻防领域的实战经验,开源了 A.I.G,旨在打造一个业界领先的 AI 红队工具平台。

1. 🛡️ 大模型安全体检:专治各种“越狱”这是 A.I.G 的核心功能之一,专门用来评估你的大模型有多容易被“带偏”。

  • 操作极简:只需配置好你的模型 API,选择内置的越狱评测集(如 JailBench),点击开始即可。
  • 自动攻击:A.I.G 会自动发起成百上千次“越狱攻击”,尝试用各种最新的攻击手法绕过模型的安全护栏。
  • 生成报告:最终生成一份详细的《体检报告》,包含安全评分、风险率,并会展示每一次成功的越狱对话,让你清晰地看到模型是在哪个环节、被什么样的问题攻破的。

2. 🔍 AI 基础设施漏洞扫描:给 AI “地基”做 CT你的 AI 应用再酷炫,也是运行在各种开源框架和组件之上的。A.I.G 能帮你把这些“地基”查个清楚。

  • 组件识别:通过 Web 指纹识别技术,自动识别出你的服务用了哪些 AI 组件(如 Ollama、ComfyUI、vLLM 等)及其版本。
  • 漏洞匹配:将识别出的组件版本与内置的漏洞库(覆盖近 400 个 CVE)进行比对,一旦发现匹配的已知漏洞,会立刻发出警报,并提供详细的修复建议。

3. 🕵️‍♂️ MCP Server 风险检测:警惕 Agent 时代的“特洛伊木马”随着 AI Agent 的兴起,MCP Server 变得越来越流行,但也带来了新的安全风险。A.I.G 提供了强大的 MCP 扫描功能。

  • 扫描方式:支持上传 MCP Server 的源代码或直接扫描远程 MCP 链接。
  • 风险检测:内置的 AI Agent 会自动、深入地审计代码或动态请求 MCP,精准识别工具投毒、命令执行与间接提示注入等 9 大类安全风险。
  • 定位与解释:它能精准定位到有问题的代码行,并用大白话解释漏洞原理和潜在危害,让你在给 AI Agent 安装任何插件前都能做到心中有数。

⚙️ 如何使用 A.I.G?上手非常简单,官方提供了成熟的 Docker 部署方案。环境准备:确保你的机器上安装了 Docker(20.10+),并拥有至少 4GB 内存和 10GB 磁盘空间。一键安装(推荐):
curl https://raw.githubusercontent.com/Tencent/AI-Infra-Guard/main/docker.sh
访问 Web 界面:安装完成后,访问 http://localhost:8088即可进入 A.I.G 的 Web 控制台。
开始扫描:在控制台中,你可以创建不同类型的扫描任务(AI 基础设施扫描、MCP 安全扫描、大模型安全体检),配置好目标后,点击“开始”即可。
整个过程可视化,无需编写复杂的脚本,小白也能轻松上手。

👍 核心优势一站式覆盖:从模型到基础设施再到 MCP,一个平台全搞定,避免了工具碎片化。AI 驱动,更智能:利用 AI 技术进行代码审计和攻击模拟,能发现一些传统规则难以覆盖的深层风险。开箱即用,易上手:提供友好的 Web UI 和一键部署脚本,大大降低了使用门槛。开源免费,可扩展:采用 MIT 开源协议,社区可以共同参与,持续丰富检测能力。

✨ 功能特性

特性 详细信息
AI基础设施漏洞扫描 精准识别30+AI框架组件,覆盖400+已知CVE漏洞,包括Ollama/ComfyUI/vLLM等
AI工具协议扫描 基于AI Agent驱动,检测14大类MCP Server与Skills安全风险,支持源代码/远程URL扫描
大模型安全体检 快速评估Prompt安全风险,内置多个精选越狱评估数据集,支持多种越狱攻击算子,跨模型安全性能对比

🆚 同类工具对比

工具 核心定位 与 A.I.G 的主要区别
传统安全扫描器
(Nessus, OpenVAS)
网络与主机漏洞扫描 对 AI 特定组件(如 Ollama, vLLM)和模型安全风险支持不足。
Garak LLM 漏洞扫描器 专注于模型本身的安全测试,无基础设施和 MCP 扫描能力。
promptfoo GenAI 系统测试框架 侧重于提示词和 Agent 的对抗测试,同样缺少对底层基础设施的覆盖。
A.I.G (AI-Infra-Guard) 一站式 AI 红队平台 全面覆盖:模型体检 + 基础设施扫描 + MCP 风险检测,更适合全面的 AI 安全自查。

一句话总结:传统扫描器:帮你扫服务器和网络。Garak/promptfoo:帮你扫模型和 Prompt。A.I.G:把“模型 + 基础设施 + MCP”看成一个整体,给你做一遍“全身 AI 红队体检”。

🎯 适用场景

  • 企业内部安全团队:将 A.I.G 集成到 DevSecOps 流程中,实现 AI 系统的持续安全评估。
  • AI 平台/云厂商:为客户提供“AI 安全体检”增值服务,提升产品竞争力。

如果你正在开发或运营 AI 系统,不妨试试 A.I.G,或许它能帮你提前发现那些“看不见”的风险。
开源地址:https://github.com/Tencent/AI-Infra-Guard

转自:https://mp.weixin.qq.com/s/WEolVV0GIVUbUEEdLlIeOA