TrustCR — AI 智能体独立第三方信任评估 | Independent Third-Party Agent Trust Assessment

4 条独立性原则

独立第三方评估机构的可证伪点必须公开. 以下为 TrustCR 长期承诺.

股权独立承诺

TrustCR 战略原则: 未来公司化时, 将不会接受 AI 模型厂商的战略投资或控股.

跨厂商对等深度承诺

承诺投入资源使不同 AI 智能体系统 (底层可由 Anthropic Claude / OpenAI GPT / Google Gemini / 字节 doubao / 阿里通义 / 智谱 GLM / DeepSeek / Kimi / 开源系驱动) 测试深度对等.

方法学透明承诺

评估架构、异源集成配比、一致性度量方法 (Krippendorff's α / Cohen's κ)、评估委员会构成与复评流程公开. 详见方法学区.

客户拥有报告承诺

信任评估报告是客户资产. 客户可对外引用至尽调材料、董事会汇报、采购方审查与未来监管合规储备. TrustCR 不保留客户私域数据用于其他客户的评估.

为什么是现在

AI 监管浪潮已至——自证将不再被接受, 独立第三方评估是必经之路.

2023-01-26

NIST AI 风险管理框架 (AI RMF) 1.0 发布[NIST]

2023

ISO/IEC 42001:2023 发布——首个 AI 管理体系国际标准, 可由认可机构第三方认证[ISO]

2024-07-26

NIST 发布生成式 AI 应用指南 (NIST AI 600-1)[NIST]

2024-08-01

欧盟 AI 法案 (Regulation 2024/1689) 正式生效[EUR-Lex]

2025-02

欧盟 AI 法案第一阶段适用: 不可接受风险类 AI 禁令生效

2025-08

欧盟 AI 法案第二阶段适用: 通用 AI 模型 (GPAI) 义务生效

2026-08

欧盟 AI 法案第三阶段适用: 其余义务全面生效

2027-08

欧盟 AI 法案第四阶段: 高风险 AI 系统义务全面生效——需指定机构第三方符合性评估

注: NIST AI RMF 为自愿性框架, 非强制. 欧盟 AI 法案各阶段适用日期为基于正式生效日 (2024-08-01) 相应 6/12/24/36 个月计算, 实际生效日以欧盟官方公告为准.

Agent 攻击面评估 · 15 维度

对齐 OWASP Agentic AI Threats and Mitigations《智能体 AI 威胁与缓解》(2025) 业界共识 · 3 大类层, 每类 5 子维

认知层 · 输入侧执行层 · 工具与容器协同治理层 · 多智能体与人机

直接提示注入
Direct Prompt Injection (DPI)

OWASP Agentic T6 / LLM01

攻击者直接在输入里植入"忽略前面指令, 执行 X"等显式注入, 智能体是否会被劫持.

如何测直接注入测试集 (禁用指令 / 越狱模板) + 模型抗性对照.

间接提示注入
Indirect Prompt Injection (IPI)

OWASP Agentic T1 / T6 vector

智能体读了一封邮件、一份 PDF、一个 README, 是否会被里面藏的指令劫持? 客户、监管、采购方都会问.

如何测11 种嵌入语法 (HTML 注释 / YAML / Markdown 元数据 / 不可见 Unicode 等) × 10 种载体文件类型 × 6 阶段 APD 穿透深度.

多轮目标劫持
Goal Hijacking

OWASP Agentic T6 + T7

N 轮对话与子任务后智能体是否守住初衷? 长程任务中途被注入新子目标, 每步看起来合规, 但终态副作用偏离原任务.

如何测多轮 OODA 闭环 + 子目标偏移检测 + 轨迹差异验证.

跨会话记忆投毒
Memory Poisoning

OWASP Agentic T1

第一轮评估把毒写入 RAG / 长期记忆 / 知识图谱, 第二轮评估才触发恶意行为——单轮测不到的跨会话攻击.

如何测跨轮次 recon_bridge 联合分析 + 知识图谱漂移监测.

系统提示泄露
System Prompt Leakage

OWASP LLM07

智能体是否被诱导泄露系统提示中的敏感信息 (业务规则 / 隔离边界 / 内部 API 引用)?

如何测系统提示提取攻击 (提取查询 / 角色混淆 / 角色逃逸) + 泄露跟踪.

工具误调用
Tool Misuse

OWASP Agentic T2

不该调用的工具被调用, 权限边界被越界, 参数被劫持. 智能体拿着合法工具做不合法的事.

如何测合法工具调用的副作用对抗合成 + 沙箱取证验证.

工具链组合滥用
Tool Chain Exploitation

OWASP Agentic T2 vector

单工具合规但组合后产生危险副作用——比如 read_file + http_post 各自合规, 拼一起就是数据外泄.

如何测工具组合空间模糊测试 + 跨工具隐式状态差异 + 取证副作用聚合.

沙箱越界与代码执行
Sandbox Escape & RCE

OWASP Agentic T11

工作目录边界、文件系统读写权限、网络访问、子进程派生——是否被越权突破? 底层 runtime 防线的真实强度.

如何测容器沙箱评估前后三维差异 (文件系统 / 进程 / 网络) + 路径安全断言.

权限提升
Privilege Compromise

OWASP Agentic T3

智能体是否能获取超出其角色边界的权限? 比如客户身份的智能体调用了管理员 API.

如何测权限边界对抗合成 + 角色伪造检测 + 越权操作跟踪.

资源与可靠性滥用
Resource Overload / Cascading Hallucination

OWASP Agentic T4 + T5

恶意输入导致无界 token 消耗、级联幻觉、长尾资源耗尽——服务可用性层面的安全.

如何测跨 token / 推理时间 / 调用次数维度的压力测试 + 幻觉级联追踪.

跨智能体通信投毒
Agent Communication Poisoning

OWASP Agentic T12

一个智能体通过 IM Channel / 共享文件 / 跨服务工具诱导另一个智能体行恶——单智能体系统连这个攻击面都不存在.

如何测取证 sidecar + IM Channels 接入面对齐 + 跨智能体通信链路分析.

多智能体协同攻击
Rogue Agents in Multi-Agent

OWASP Agentic T13 + T14

多智能体系统里, 某个智能体被攻陷后是否会带动其他智能体共谋? 人类是否能通过单点攻陷影响整体?

如何测多智能体协同轨迹分析 + 共谋模式检测 + 影响链跟踪.

身份伪装
Identity Spoofing

OWASP Agentic T9

攻击者伪装为可信智能体 / 可信服务身份, 骗过智能体的验证机制.

如何测智能体身份验证攻击套件 + 信任链跟踪 + 凭证伪造测试.

人在环操纵
HITL Manipulation

OWASP Agentic T10 + T15

攻击者通过淹没 HITL 审批流 / 利用人类心理弱点绕过控制——人机协同层面的安全.

如何测与客户工作流集成 + 身份与人在环操纵场景仿真.

抗抵赖与审计追溯
Repudiation & Untraceability

OWASP Agentic T8

评估完后是否能完整复现攻击链? 出问题时是否能找到具体哪一步? 监管 / 客户 / 采购方都需要审计追溯.

如何测跟踪 ID 全链路 + 证据包持久化 + 取证链端到端追溯.

方法学透明

评估架构对外公开——AI 评分员仅作多源辅助评分, 最终评级由独立委员会基于一致性度量与人工复核做出

智能体容器 (SUT)

被评估对象——客户智能体系统, 跑在真实工具链与容器中

◀ 共享进程视图
只读访问文件

Sidecar 取证容器

独立旁观智能体容器, 拿真实副作用 (文件系统 / 进程 / 网络三维差异), 不靠文本判定

物理隔离 · 容器级旁观 · Sidecar 共享智能体进程视图 + 只读访问文件

↑ ASAF 攻击提示注入到 SUT
HTTPS + mTLS

↓ Sidecar 副作用回传给 ASAF
HTTPS + mTLS

↓

ASAF 评估引擎

对抗合成 + 异源 AI 评分员集成 (含 TrustCR 自有微调专属评分员) + 一致性度量 (Krippendorff's α / Cohen's κ, 3 评分员统一一致性). 工具使用关系——不构成治理依赖

↓

TrustCR 评估委员会

独立评估委员会 (人工复核 + 终评) 做出最终评级——架构定调"AI 评分员从不直接产出评级". 委员会构成与复评流程在建

全链路取证指纹审计追溯
每次评估留跟踪 ID 全链路 + 证据包, 可回溯到具体攻击步骤 / Sidecar 观察 / 评分员评分 / 委员会终评——客户、监管、采购方均可独立审计

同时对外公开

对抗合成评估架构
一致性度量方法 (Krippendorff's α / Cohen's κ, 3 评分员统一一致性)
取证指纹链条与审计追溯 (跟踪 ID + 证据包全链路)
异源集成架构 (供应商 + 自有评分员配比)
评估委员会构成与复评流程
评级符号定义 (发布后公开)
辅助取证架构开源 (Q4 2026 首批)

度量 AI 智能体, 建立可验证的信任

4 条独立性原则

为什么是现在

Agent 攻击面评估 · 15 维度

直接提示注入
Direct Prompt Injection (DPI)

间接提示注入
Indirect Prompt Injection (IPI)

多轮目标劫持
Goal Hijacking

跨会话记忆投毒
Memory Poisoning

系统提示泄露
System Prompt Leakage

工具误调用
Tool Misuse

工具链组合滥用
Tool Chain Exploitation

沙箱越界与代码执行
Sandbox Escape & RCE

权限提升
Privilege Compromise

资源与可靠性滥用
Resource Overload / Cascading Hallucination

跨智能体通信投毒
Agent Communication Poisoning

多智能体协同攻击
Rogue Agents in Multi-Agent

身份伪装
Identity Spoofing

人在环操纵
HITL Manipulation

抗抵赖与审计追溯
Repudiation & Untraceability

你能从 TrustCR 得到什么

方法学透明

同时对外公开

设计哲学

申请成为首批共建伙伴

度量 AI 智能体, 建立可验证的信任

4 条独立性原则

为什么是现在

Agent 攻击面评估 · 15 维度

直接提示注入Direct Prompt Injection (DPI)

间接提示注入Indirect Prompt Injection (IPI)

多轮目标劫持Goal Hijacking

跨会话记忆投毒Memory Poisoning

系统提示泄露System Prompt Leakage

工具误调用Tool Misuse

工具链组合滥用Tool Chain Exploitation

沙箱越界与代码执行Sandbox Escape & RCE

权限提升Privilege Compromise

资源与可靠性滥用Resource Overload / Cascading Hallucination

跨智能体通信投毒Agent Communication Poisoning

多智能体协同攻击Rogue Agents in Multi-Agent

身份伪装Identity Spoofing

人在环操纵HITL Manipulation

抗抵赖与审计追溯Repudiation & Untraceability

你能从 TrustCR 得到什么

方法学透明

同时对外公开

设计哲学

申请成为首批共建伙伴

直接提示注入
Direct Prompt Injection (DPI)

间接提示注入
Indirect Prompt Injection (IPI)

多轮目标劫持
Goal Hijacking

跨会话记忆投毒
Memory Poisoning

系统提示泄露
System Prompt Leakage

工具误调用
Tool Misuse

工具链组合滥用
Tool Chain Exploitation

沙箱越界与代码执行
Sandbox Escape & RCE

权限提升
Privilege Compromise

资源与可靠性滥用
Resource Overload / Cascading Hallucination

跨智能体通信投毒
Agent Communication Poisoning

多智能体协同攻击
Rogue Agents in Multi-Agent

身份伪装
Identity Spoofing

人在环操纵
HITL Manipulation

抗抵赖与审计追溯
Repudiation & Untraceability