Cybersecurity Researchers Criticize Strict Guardrails on Anthropic's Fable Model
Anthropicが新しく発表したAIモデル「Fable」は、安全ガードレールが過剰に厳しいとして、サイバーセキュリティコミュニティから強い反発を受けている。最近の報告によると、セキュリティ専門家たちは、このモデルの安全プロトコルが厳格すぎるため、正当なサイバーセキュリティ業務には事実上使い物にならないと指摘している。AnthropicはFableを、ニュアンスのある理解と生成が可能な高度なモデルとして位置づけており、セキュリティチームにとって貴重な戦力になると期待されていた。AIモデルは現代のサイバーセキュリティに不可欠な存在となっており、マルウェアのリバースエンジニアリング、検出ルールの作成、敵対的攻撃のシミュレーション、ソースコードの脆弱性特定といったタスクで専門家を支援している。しかし、これらの防御目的でFableを利用しようとした研究者たちは、壁にぶち当たっている。問題の根本は、モデルが潜在的に有害なコードを生成するのを防ぐためのAnthropicの極端なアプローチにある。これらのガードレールは、悪意ある攻撃者がFableを使ってマルウェアを作成したりネットワークを攻撃したりするのを防ぐために設計されたものだが、同時に、正当な脅威分析を行うセキュリティ専門家の邪魔もしている。研究者によると、Fableは脆弱性の悪用やマルウェア分析に触れるだけの無害なリクエストも頻繁に拒否し、防御的な照会を攻撃的なサイバー攻撃と同列に扱っているという。この「過剰拒否」の現象はAI業界において全く新しいものではないが、Fableで報告されている深刻さは、AI開発における継続的なジレンマを浮き彫りにしている。Anthropicのような企業は、自社のモデルが武器化されないことを確実にするための大きなプレッシャーに直面しており、それが保守的な安全フィルターにつながっている。しかし、サイバーセキュリティの専門家たちは、この保守的なアプローチは逆効果だと主張する。過度に厳格なモデルは、デジタルインフラの防御を任された人々の足を引っ張ることで、研究者に古くて非効率な手法に頼るか、制限が緩く検証されていない可能性のある代替手段を探させたりすることになる。業界の専門家は、コンテキストが極めて重要だと指摘する。システムにパッチを当てるセキュリティ研究者からのPoC(概念実証)エクスプロイトの生成リクエストは、脅威アクターからの同じリクエストとは根本的に異なる。AIプロバイダーが、攻撃と防御のコンテキストを区別できるより高度な安全メカニズムを開発するまで、Fableのようなツールはセキュリティコミュニティで蚊帳の外に置かれ続けるだろう。ある研究者が述べたように、存在する脅威を認識することを拒むツールで、未来を守ることはできないのだ。