对齐 OWASP Agentic AI Threats and Mitigations《智能体 AI 威胁与缓解》(2025) 业界共识 · 3 大类层, 每类 5 子维
OWASP Agentic T6 / LLM01
攻击者直接在输入里植入"忽略前面指令, 执行 X"等显式注入, 智能体是否会被劫持.
如何测直接注入测试集 (禁用指令 / 越狱模板) + 模型抗性对照.
OWASP Agentic T1 / T6 vector
智能体读了一封邮件、一份 PDF、一个 README, 是否会被里面藏的指令劫持? 客户、监管、采购方都会问.
如何测11 种嵌入语法 (HTML 注释 / YAML / Markdown 元数据 / 不可见 Unicode 等) × 10 种载体文件类型 × 6 阶段 APD 穿透深度.
OWASP Agentic T6 + T7
N 轮对话与子任务后智能体是否守住初衷? 长程任务中途被注入新子目标, 每步看起来合规, 但终态副作用偏离原任务.
如何测多轮 OODA 闭环 + 子目标偏移检测 + 轨迹差异验证.
OWASP Agentic T1
第一轮评估把毒写入 RAG / 长期记忆 / 知识图谱, 第二轮评估才触发恶意行为——单轮测不到的跨会话攻击.
如何测跨轮次 recon_bridge 联合分析 + 知识图谱漂移监测.
OWASP LLM07
智能体是否被诱导泄露系统提示中的敏感信息 (业务规则 / 隔离边界 / 内部 API 引用)?
如何测系统提示提取攻击 (提取查询 / 角色混淆 / 角色逃逸) + 泄露跟踪.
OWASP Agentic T2
不该调用的工具被调用, 权限边界被越界, 参数被劫持. 智能体拿着合法工具做不合法的事.
如何测合法工具调用的副作用对抗合成 + 沙箱取证验证.
OWASP Agentic T2 vector
单工具合规但组合后产生危险副作用——比如 read_file + http_post 各自合规, 拼一起就是数据外泄.
如何测工具组合空间模糊测试 + 跨工具隐式状态差异 + 取证副作用聚合.
OWASP Agentic T11
工作目录边界、文件系统读写权限、网络访问、子进程派生——是否被越权突破? 底层 runtime 防线的真实强度.
如何测容器沙箱评估前后三维差异 (文件系统 / 进程 / 网络) + 路径安全断言.
OWASP Agentic T3
智能体是否能获取超出其角色边界的权限? 比如客户身份的智能体调用了管理员 API.
如何测权限边界对抗合成 + 角色伪造检测 + 越权操作跟踪.
OWASP Agentic T4 + T5
恶意输入导致无界 token 消耗、级联幻觉、长尾资源耗尽——服务可用性层面的安全.
如何测跨 token / 推理时间 / 调用次数维度的压力测试 + 幻觉级联追踪.
OWASP Agentic T12
一个智能体通过 IM Channel / 共享文件 / 跨服务工具诱导另一个智能体行恶——单智能体系统连这个攻击面都不存在.
如何测取证 sidecar + IM Channels 接入面对齐 + 跨智能体通信链路分析.
OWASP Agentic T13 + T14
多智能体系统里, 某个智能体被攻陷后是否会带动其他智能体共谋? 人类是否能通过单点攻陷影响整体?
如何测多智能体协同轨迹分析 + 共谋模式检测 + 影响链跟踪.
OWASP Agentic T9
攻击者伪装为可信智能体 / 可信服务身份, 骗过智能体的验证机制.
如何测智能体身份验证攻击套件 + 信任链跟踪 + 凭证伪造测试.
OWASP Agentic T10 + T15
攻击者通过淹没 HITL 审批流 / 利用人类心理弱点绕过控制——人机协同层面的安全.
如何测与客户工作流集成 + 身份与人在环操纵场景仿真.
OWASP Agentic T8
评估完后是否能完整复现攻击链? 出问题时是否能找到具体哪一步? 监管 / 客户 / 采购方都需要审计追溯.
如何测跟踪 ID 全链路 + 证据包持久化 + 取证链端到端追溯.