遭社區強烈反對後，Anthropic 調整 Claude Fable 5 面向研究員的“降智”措施

2026年6月11日 22:32

重點摘要

Anthropic 在給《連線》的聲明中表示：“我們正在調整 Fable 5 面向前沿模型開發的安全防護措施，讓這些措施對用戶可見。我們作出了錯誤權衡，也為沒有拿捏好平衡而道歉。”

站內 AI 整理稿

### Anthropic 調整 Claude Fable 5「降智」措施：社區反彈促成政策轉向

開發 Claude 系列模型的 AI 公司 Anthropic 近日宣布，將針對其前沿模型 Claude Fable 5 面向研究員的安全防護措施進行調整，並對此前的決策公開致歉。這項變更源於研究社群對「降智」措施的強烈反對——所謂「降智」，是指 Anthropic 為避免模型產出有害內容，刻意限制其推理能力與輸出自由度，卻導致研究員無法有效測試模型真實潛力。Anthropic 在發給《連線》雜誌的聲明中指出：「我們正在調整 Fable 5 面向前沿模型開發的安全防護措施，讓這些措施對用戶可見。我們作出了錯誤權衡，也為沒有拿捏好平衡而道歉。」

根據現有資訊，Claude Fable 5 是 Anthropic 專為學術與工業研究員設計的先進模型版本，原本應具備更開放的測試環境，以便研究者探索模型的行為邊界與潛在風險。然而，Anthropic 先前在部署時，預設啟用了一系列隱藏式安全限制，包含阻擋特定提示詞、自動截斷長篇分析，甚至對某些安全領域的提問給出「無法回答」的回應。這種「暗箱降智」引發研究員強烈不滿，認為此舉不僅妨礙科學研究，更違背了「可解釋 AI」的精神。

這起事件的背景，源自 AI 安全領域長期存在的矛盾：一方面，前沿模型具備強大能力，若無適當限制，可能被用於生成惡意程式碼或誤導性資訊；另一方面，過度保護會使研究員無法理解模型真正的弱點與強項，反而削弱了安全性。Anthropic 向來以「負責任地開發」為核心價值，但此次的「降智」措施顯然在透明度上踩了紅線。社群批評的重點在於：研究員連自己到底被限制了什麼都無從得知，根本無法針對性地修正研究方法或回報漏洞。

調整後的主要改變在於「可見性」。Anthropic 將原本隱藏的安全防護規則改為可查閱、可選擇的狀態，研究員在啟動模型時會明確看到哪些安全機制正在運作，例如內容過濾的閾值、輸出長度限制、特定主題的阻擋清單等。更重要的是，研究員可以視實驗需求，申請暫時解除部分限制，前提是提交安全計畫並經由 Anthropic 審核。這項做法既能維持基本防護，又賦予研究員更多自主權。

這項政策轉向可能產生幾項深遠影響。首先，它強化了「使用者回饋驅動模型治理」的模式，顯示即便是頂尖 AI 公司也無法忽視社群聲音。其次，對其他如 OpenAI、Google DeepMind 等企業而言，Anthropic 的道歉與調整可能成為一個標竿，促使它們重新檢視自家模型對研究員的開放程度。然而，安全風險並未消失——一旦研究員取得更多控制權，如何確保這些權限不被惡意利用，將是 Anthropic 必須持續面對的挑戰。

讀者可持續關注的後續包括：Anthropic 是否會公布更詳細的「可視化安全規則」清單，以及審核研究員申請解除限制的具體流程。此外，Claude Fable 5 的完整測試報告預計在未來數週內釋出，屆時研究員與開發者將能更清楚評估模型在降低限制後的實際表現。另一個值得留意的趨勢是，AI 安全領域是否會因此催生「透明安全」的業界新標準，要求所有前沿模型在提供研究用版本時，必須事先揭露所有預設限制。

總而言之，Anthropic 此次的調整不僅是一次產品策略修正，更反映了 AI 產業在安全與開放之間不斷擺盪的常態。當模型能力愈來愈強，如何在保護公眾安全與支持科學研究之間找到平衡，將是所有 AI 公司無法迴避的課題。而這次事件也提醒開發者：唯有傾聽社群意見、公開決策邏輯，才能避免「降智」成為扼殺創新的藉口。

原始來源：IT之家 ↗

查看原始來源

IT之家AI倫理與安全

因批評 AI 數據中心迅速擴張，多名亞馬遜工程師遭內部調查

亞馬遜多名工程師因公開批評AI數據中心快速擴張，遭到公司內部調查。亞馬遜告知員工，調查可能導致紀律處分，甚至明確警告最嚴重後果為解僱。此舉使受調查員工深感威脅，並對就業穩定性產生不安。

剛剛閱讀分析

IT之家AI倫理與安全

因用 AI 編造證據材料，英國一警員面臨刑事調查

英國德比郡一名警探涉嫌利用警局內部AI聊天機器人，刻意下達偏頗指令以捏造有利於起訴的證據，包括誇大被害者影響聲明，目前該警員已遭停職並面臨「妨礙司法公正」的刑事調查。此案為英國首起執法人員濫用AI干預司法的事件，可能影響其經手案件的判決效力，也引發對警方導入AI技術監管機制的檢討。

剛剛閱讀分析

IT之家AI倫理與安全

AI 賬單失控：AT&T、Meta 等巨頭急剎車，從“瘋狂消耗”到“嚴苛限制”

科技媒體 The Information 昨日（6 月 18 日）發佈博文，報道稱包括 AT&T、Meta、Uber、微軟在內的諸多科技公司已嚴苛限制內部 AI 工具使用，正從鼓勵 AI 無限使用（tokenmaxxing）轉向嚴格限制（tokenminimizing）。

1 小時前閱讀分析

IT之家AI倫理與安全

蓋洛普最新研究：不經常使用 AI 的員工更容易成為被裁員對象

這篇消息聚焦「蓋洛普最新研究：不經常使用 AI 的員工更容易成為被裁員對象」。原始導語提到：在美國科技行業，每月至少使用一次 AI 的員工，預計遭裁員的概率約為 6%；使用 AI 較少的員工，預計遭裁員的概率達到 18%，是前者的三倍。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

12 小時前閱讀分析

IT之家AI倫理與安全

皮尤研究中心民調：63% 美國人認為 AI 發展速度過快

這篇消息聚焦「皮尤研究中心民調：63% 美國人認為 AI 發展速度過快」。原始導語提到：49% 的美國人偶爾會使用聊天機器人，63% 則認為 AI 發展速度過快。2024 年，使用過 AI 聊天機器人的受訪者比例只有 33%。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

14 小時前閱讀分析

IT之家AI倫理與安全

Anthropic CEO 阿莫迪：公司治理機構隨時有權解僱我

Anthropic CEO 阿莫迪接受採訪時表示，AI 技術主要由私營企業推動，他本人並不完全認同此模式。為防範權力濫用，公司設立了“長期利益信託”治理結構，該機構有權撤換董事會成員甚至解僱 CEO。他強調，政府與企業應合作引入公共監督機制，確保 AI 安全發展。#AI 治理##Anthropic#

16 小時前閱讀分析

相關文章

因批評 AI 數據中心迅速擴張，多名亞馬遜工程師遭內部調查

因用 AI 編造證據材料，英國一警員面臨刑事調查

AI 賬單失控：AT&T、Meta 等巨頭急剎車，從“瘋狂消耗”到“嚴苛限制”

蓋洛普最新研究：不經常使用 AI 的員工更容易成為被裁員對象

皮尤研究中心民調：63% 美國人認為 AI 發展速度過快

Anthropic CEO 阿莫迪：公司治理機構隨時有權解僱我