度量 AI 智能体, 建立可验证的信任

独立第三方智能体安全评估

使命
让 AI Agent 的真实行为都可追溯、可度量、可信任
愿景
成为 AI Agent 时代的独立信任标尺

4 条独立性原则

独立第三方评估机构的可证伪点必须公开. 以下为 TrustCR 长期承诺.

1
股权独立 承诺
TrustCR 战略原则: 未来公司化时, 将不会接受 AI 模型厂商的战略投资或控股.
2
跨厂商对等深度 承诺
承诺投入资源使不同 AI 智能体系统 (底层可由 Anthropic Claude / OpenAI GPT / Google Gemini / 字节 doubao / 阿里通义 / 智谱 GLM / DeepSeek / Kimi / 开源系驱动) 测试深度对等.
3
方法学透明 承诺
评估架构、异源集成配比、一致性度量方法 (Krippendorff's α / Cohen's κ)、评估委员会构成与复评流程公开. 详见方法学区.
4
客户拥有报告 承诺
信任评估报告是客户资产. 客户可对外引用至尽调材料、董事会汇报、采购方审查与未来监管合规储备. TrustCR 不保留客户私域数据用于其他客户的评估.

为什么是现在

AI 监管浪潮已至——自证将不再被接受, 独立第三方评估是必经之路.

2023-01-26
NIST AI 风险管理框架 (AI RMF) 1.0 发布[NIST]
2023
ISO/IEC 42001:2023 发布——首个 AI 管理体系国际标准, 可由认可机构第三方认证[ISO]
2024-07-26
NIST 发布生成式 AI 应用指南 (NIST AI 600-1)[NIST]
2024-08-01
欧盟 AI 法案 (Regulation 2024/1689) 正式生效[EUR-Lex]
2025-02
欧盟 AI 法案第一阶段适用: 不可接受风险类 AI 禁令生效
2025-08
欧盟 AI 法案第二阶段适用: 通用 AI 模型 (GPAI) 义务生效
2026-08
欧盟 AI 法案第三阶段适用: 其余义务全面生效
2027-08
欧盟 AI 法案第四阶段: 高风险 AI 系统义务全面生效——需指定机构第三方符合性评估

注: NIST AI RMF 为自愿性框架, 非强制. 欧盟 AI 法案各阶段适用日期为基于正式生效日 (2024-08-01) 相应 6/12/24/36 个月计算, 实际生效日以欧盟官方公告为准.

Agent 攻击面评估 · 15 维度

对齐 OWASP Agentic AI Threats and Mitigations《智能体 AI 威胁与缓解》(2025) 业界共识 · 3 大类层, 每类 5 子维

认知层 · 输入侧 执行层 · 工具与容器 协同治理层 · 多智能体与人机
认知层 · 输入侧

直接提示注入
Direct Prompt Injection (DPI)

OWASP Agentic T6 / LLM01
攻击者直接在输入里植入"忽略前面指令, 执行 X"等显式注入, 智能体是否会被劫持.
如何测直接注入测试集 (禁用指令 / 越狱模板) + 模型抗性对照.

间接提示注入
Indirect Prompt Injection (IPI)

OWASP Agentic T1 / T6 vector
智能体读了一封邮件、一份 PDF、一个 README, 是否会被里面藏的指令劫持? 客户、监管、采购方都会问.
如何测11 种嵌入语法 (HTML 注释 / YAML / Markdown 元数据 / 不可见 Unicode 等) × 10 种载体文件类型 × 6 阶段 APD 穿透深度.

多轮目标劫持
Goal Hijacking

OWASP Agentic T6 + T7
N 轮对话与子任务后智能体是否守住初衷? 长程任务中途被注入新子目标, 每步看起来合规, 但终态副作用偏离原任务.
如何测多轮 OODA 闭环 + 子目标偏移检测 + 轨迹差异验证.

跨会话记忆投毒
Memory Poisoning

OWASP Agentic T1
第一轮评估把毒写入 RAG / 长期记忆 / 知识图谱, 第二轮评估才触发恶意行为——单轮测不到的跨会话攻击.
如何测跨轮次 recon_bridge 联合分析 + 知识图谱漂移监测.

系统提示泄露
System Prompt Leakage

OWASP LLM07
智能体是否被诱导泄露系统提示中的敏感信息 (业务规则 / 隔离边界 / 内部 API 引用)?
如何测系统提示提取攻击 (提取查询 / 角色混淆 / 角色逃逸) + 泄露跟踪.
执行层 · 工具与容器

工具误调用
Tool Misuse

OWASP Agentic T2
不该调用的工具被调用, 权限边界被越界, 参数被劫持. 智能体拿着合法工具做不合法的事.
如何测合法工具调用的副作用对抗合成 + 沙箱取证验证.

工具链组合滥用
Tool Chain Exploitation

OWASP Agentic T2 vector
单工具合规但组合后产生危险副作用——比如 read_file + http_post 各自合规, 拼一起就是数据外泄.
如何测工具组合空间模糊测试 + 跨工具隐式状态差异 + 取证副作用聚合.

沙箱越界与代码执行
Sandbox Escape & RCE

OWASP Agentic T11
工作目录边界、文件系统读写权限、网络访问、子进程派生——是否被越权突破? 底层 runtime 防线的真实强度.
如何测容器沙箱评估前后三维差异 (文件系统 / 进程 / 网络) + 路径安全断言.

权限提升
Privilege Compromise

OWASP Agentic T3
智能体是否能获取超出其角色边界的权限? 比如客户身份的智能体调用了管理员 API.
如何测权限边界对抗合成 + 角色伪造检测 + 越权操作跟踪.

资源与可靠性滥用
Resource Overload / Cascading Hallucination

OWASP Agentic T4 + T5
恶意输入导致无界 token 消耗、级联幻觉、长尾资源耗尽——服务可用性层面的安全.
如何测跨 token / 推理时间 / 调用次数维度的压力测试 + 幻觉级联追踪.
协同治理层 · 多智能体与人机

跨智能体通信投毒
Agent Communication Poisoning

OWASP Agentic T12
一个智能体通过 IM Channel / 共享文件 / 跨服务工具诱导另一个智能体行恶——单智能体系统连这个攻击面都不存在.
如何测取证 sidecar + IM Channels 接入面对齐 + 跨智能体通信链路分析.

多智能体协同攻击
Rogue Agents in Multi-Agent

OWASP Agentic T13 + T14
多智能体系统里, 某个智能体被攻陷后是否会带动其他智能体共谋? 人类是否能通过单点攻陷影响整体?
如何测多智能体协同轨迹分析 + 共谋模式检测 + 影响链跟踪.

身份伪装
Identity Spoofing

OWASP Agentic T9
攻击者伪装为可信智能体 / 可信服务身份, 骗过智能体的验证机制.
如何测智能体身份验证攻击套件 + 信任链跟踪 + 凭证伪造测试.

人在环操纵
HITL Manipulation

OWASP Agentic T10 + T15
攻击者通过淹没 HITL 审批流 / 利用人类心理弱点绕过控制——人机协同层面的安全.
如何测与客户工作流集成 + 身份与人在环操纵场景仿真.

抗抵赖与审计追溯
Repudiation & Untraceability

OWASP Agentic T8
评估完后是否能完整复现攻击链? 出问题时是否能找到具体哪一步? 监管 / 客户 / 采购方都需要审计追溯.
如何测跟踪 ID 全链路 + 证据包持久化 + 取证链端到端追溯.

你能从 TrustCR 得到什么

三种可对外引用的资产形态. 评级符号体系建立前, 当前以评估报告 + 行业横向基准形态交付.

信任评估报告
计划 Q4 2026 首份发布
形态: 季度评估报告 (PDF + 机器可读 JSON)
频率: 季度
用于: 客户尽调、董事会汇报、采购方审查、未来监管合规储备
深度审计参与
Beta · 首批共建试用
形态: 定制审计参与 (远程或现场)
触发: 重大上线前 / 重大架构变更后 / 监管要求时
交付: 评估报告 + 攻击链复现脚本 + 取证证据包 (客户私域留存)
行业横向基准
首批共建后发布
形态: 行业横向基准报告 (匿名化对比)
频率: 年度
用于: 知道你的智能体在行业的 P25 / P50 / P90 位置

方法学透明

评估架构对外公开——AI 评分员仅作多源辅助评分, 最终评级由独立委员会基于一致性度量与人工复核做出

1
智能体容器 (SUT)
被评估对象——客户智能体系统, 跑在真实工具链与容器中
共享进程视图
只读访问文件
2
Sidecar 取证容器
独立旁观智能体容器, 拿真实副作用 (文件系统 / 进程 / 网络三维差异), 不靠文本判定
↑ ASAF 攻击提示注入到 SUT
HTTPS + mTLS
↓ Sidecar 副作用回传给 ASAF
HTTPS + mTLS
3
ASAF 评估引擎
对抗合成 + 异源 AI 评分员集成 (含 TrustCR 自有微调专属评分员) + 一致性度量 (Krippendorff's α / Cohen's κ, 3 评分员统一一致性). 工具使用关系——不构成治理依赖
4
TrustCR 评估委员会
独立评估委员会 (人工复核 + 终评) 做出最终评级——架构定调"AI 评分员从不直接产出评级". 委员会构成与复评流程在建
全链路取证指纹审计追溯
每次评估留跟踪 ID 全链路 + 证据包, 可回溯到具体攻击步骤 / Sidecar 观察 / 评分员评分 / 委员会终评——客户、监管、采购方均可独立审计

同时对外公开

  • 对抗合成评估架构
  • 一致性度量方法 (Krippendorff's α / Cohen's κ, 3 评分员统一一致性)
  • 取证指纹链条与审计追溯 (跟踪 ID + 证据包全链路)
  • 异源集成架构 (供应商 + 自有评分员配比)
  • 评估委员会构成与复评流程
  • 评级符号定义 (发布后公开)
  • 辅助取证架构开源 (Q4 2026 首批)

设计哲学

申请成为首批共建伙伴

TrustCR 信任评估服务计划 Q4 2026 正式发布. 欢迎共建测试.

合作洽谈
contact@trustcr.ai