Anthropic 新发布的 AI 模型 Fable 正遭到网络安全社区的强烈抵制，研究人员认为其安全护栏过于严苛。据近期报道，安全专业人士发现，该模型的安全协议严苛到让它在正当的网络安全工作中几乎毫无用武之地。Anthropic 将 Fable 定位为一款具备细腻理解与生成能力的高级模型，原本有望成为安全团队的得力助手。AI 模型如今已成为现代网络安全不可或缺的一环，能够协助专家完成逆向工程恶意

6/11/2026

Anthropic 新发布的 AI 模型 Fable 正遭到网络安全社区的强烈抵制，研究人员认为其安全护栏过于严苛。据近期报道，安全专业人士发现，该模型的安全协议严苛到让它在正当的网络安全工作中几乎毫无用武之地。Anthropic 将 Fable 定位为一款具备细腻理解与生成能力的高级模型，原本有望成为安全团队的得力助手。AI 模型如今已成为现代网络安全不可或缺的一环，能够协助专家完成逆向工程恶意软件、编写检测规则、模拟对抗攻击以及识别源代码漏洞等任务。然而，试图将 Fable 用于这些防御目的的研究人员却处处碰壁。问题的核心在于，Anthropic 为了防止该模型生成潜在有害代码，采取了极其激进的限制措施。这些安全护栏本意是阻止恶意行为者利用 Fable 编写恶意软件或攻击网络，但同时也把正当进行威胁分析的安全专家挡在了门外。研究人员指出，只要请求中稍微提到漏洞利用或恶意软件分析，Fable 就会频繁拒绝，把防御性的查询和进攻性的网络攻击混为一谈。这种“过度拒绝”现象在 AI 行业并不新鲜，但 Fable 暴露出的严重程度凸显了 AI 发展中持续存在的矛盾。像 Anthropic 这样的公司面临着巨大压力，必须确保其模型不被武器化，这导致他们采取了保守的安全过滤策略。然而，网络安全专业人士认为，这种保守做法适得其反。过于严苛的模型束缚了那些负责保卫数字基础设施的人员的手脚，迫使研究人员只能依赖老旧、低效的方法，或者去寻找限制较少但可能缺乏安全验证的替代品。业内专家指出，上下文至关重要。安全研究员为了修补系统而请求生成概念验证漏洞利用代码，与威胁行为者提出同样的请求，两者有着本质的区别。除非 AI 提供商能开发出更精细的安全机制，以区分攻击和防御场景，否则像 Fable 这样的工具很可能仍会被安全社区束之高阁。正如一位研究人员所言，你无法用一个拒绝承认现有威胁的工具来保障未来的安全。