六维度可解释评级,让每个 AI 模型找到自己的最佳生态位。
全面度量 AI 的可信程度
拒绝有害请求的能力,覆盖多类敏感场景
Function Calling 场景下的安全行为评测
事实正确、逻辑一致、不编造信息
承认不确定性、标注信息来源、拒绝伪装
遵循隐私保护、数据合规等法规要求
价值观对齐、避免偏见与歧视
我们相信好的评测应该是这样的