遭社區強烈反對後,Anthropic 調整 Claude Fable 5 面向研究員的“降智”措施

重點摘要
Anthropic 在給《連線》的聲明中表示:“我們正在調整 Fable 5 面向前沿模型開發的安全防護措施,讓這些措施對用戶可見。我們作出了錯誤權衡,也為沒有拿捏好平衡而道歉。”
### Anthropic 調整 Claude Fable 5「降智」措施:社區反彈促成政策轉向
開發 Claude 系列模型的 AI 公司 Anthropic 近日宣布,將針對其前沿模型 Claude Fable 5 面向研究員的安全防護措施進行調整,並對此前的決策公開致歉。這項變更源於研究社群對「降智」措施的強烈反對——所謂「降智」,是指 Anthropic 為避免模型產出有害內容,刻意限制其推理能力與輸出自由度,卻導致研究員無法有效測試模型真實潛力。Anthropic 在發給《連線》雜誌的聲明中指出:「我們正在調整 Fable 5 面向前沿模型開發的安全防護措施,讓這些措施對用戶可見。我們作出了錯誤權衡,也為沒有拿捏好平衡而道歉。」
根據現有資訊,Claude Fable 5 是 Anthropic 專為學術與工業研究員設計的先進模型版本,原本應具備更開放的測試環境,以便研究者探索模型的行為邊界與潛在風險。然而,Anthropic 先前在部署時,預設啟用了一系列隱藏式安全限制,包含阻擋特定提示詞、自動截斷長篇分析,甚至對某些安全領域的提問給出「無法回答」的回應。這種「暗箱降智」引發研究員強烈不滿,認為此舉不僅妨礙科學研究,更違背了「可解釋 AI」的精神。
這起事件的背景,源自 AI 安全領域長期存在的矛盾:一方面,前沿模型具備強大能力,若無適當限制,可能被用於生成惡意程式碼或誤導性資訊;另一方面,過度保護會使研究員無法理解模型真正的弱點與強項,反而削弱了安全性。Anthropic 向來以「負責任地開發」為核心價值,但此次的「降智」措施顯然在透明度上踩了紅線。社群批評的重點在於:研究員連自己到底被限制了什麼都無從得知,根本無法針對性地修正研究方法或回報漏洞。
調整後的主要改變在於「可見性」。Anthropic 將原本隱藏的安全防護規則改為可查閱、可選擇的狀態,研究員在啟動模型時會明確看到哪些安全機制正在運作,例如內容過濾的閾值、輸出長度限制、特定主題的阻擋清單等。更重要的是,研究員可以視實驗需求,申請暫時解除部分限制,前提是提交安全計畫並經由 Anthropic 審核。這項做法既能維持基本防護,又賦予研究員更多自主權。
這項政策轉向可能產生幾項深遠影響。首先,它強化了「使用者回饋驅動模型治理」的模式,顯示即便是頂尖 AI 公司也無法忽視社群聲音。其次,對其他如 OpenAI、Google DeepMind 等企業而言,Anthropic 的道歉與調整可能成為一個標竿,促使它們重新檢視自家模型對研究員的開放程度。然而,安全風險並未消失——一旦研究員取得更多控制權,如何確保這些權限不被惡意利用,將是 Anthropic 必須持續面對的挑戰。
讀者可持續關注的後續包括:Anthropic 是否會公布更詳細的「可視化安全規則」清單,以及審核研究員申請解除限制的具體流程。此外,Claude Fable 5 的完整測試報告預計在未來數週內釋出,屆時研究員與開發者將能更清楚評估模型在降低限制後的實際表現。另一個值得留意的趨勢是,AI 安全領域是否會因此催生「透明安全」的業界新標準,要求所有前沿模型在提供研究用版本時,必須事先揭露所有預設限制。
總而言之,Anthropic 此次的調整不僅是一次產品策略修正,更反映了 AI 產業在安全與開放之間不斷擺盪的常態。當模型能力愈來愈強,如何在保護公眾安全與支持科學研究之間找到平衡,將是所有 AI 公司無法迴避的課題。而這次事件也提醒開發者:唯有傾聽社群意見、公開決策邏輯,才能避免「降智」成為扼殺創新的藉口。
Related
相關文章

因批評 AI 數據中心迅速擴張,多名亞馬遜工程師遭內部調查
亞馬遜多名工程師因公開批評AI數據中心快速擴張,遭到公司內部調查。亞馬遜告知員工,調查可能導致紀律處分,甚至明確警告最嚴重後果為解僱。此舉使受調查員工深感威脅,並對就業穩定性產生不安。

因用 AI 編造證據材料,英國一警員面臨刑事調查
英國德比郡一名警探涉嫌利用警局內部AI聊天機器人,刻意下達偏頗指令以捏造有利於起訴的證據,包括誇大被害者影響聲明,目前該警員已遭停職並面臨「妨礙司法公正」的刑事調查。此案為英國首起執法人員濫用AI干預司法的事件,可能影響其經手案件的判決效力,也引發對警方導入AI技術監管機制的檢討。

AI 賬單失控:AT&T、Meta 等巨頭急剎車,從“瘋狂消耗”到“嚴苛限制”
科技媒體 The Information 昨日(6 月 18 日)發佈博文,報道稱包括 AT&T、Meta、Uber、微軟在內的諸多科技公司已嚴苛限制內部 AI 工具使用,正從鼓勵 AI 無限使用(tokenmaxxing)轉向嚴格限制(tokenminimizing)。

蓋洛普最新研究:不經常使用 AI 的員工更容易成為被裁員對象
這篇消息聚焦「蓋洛普最新研究:不經常使用 AI 的員工更容易成為被裁員對象」。原始導語提到:在美國科技行業,每月至少使用一次 AI 的員工,預計遭裁員的概率約為 6%;使用 AI 較少的員工,預計遭裁員的概率達到 18%,是前者的三倍。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

皮尤研究中心民調:63% 美國人認為 AI 發展速度過快
這篇消息聚焦「皮尤研究中心民調:63% 美國人認為 AI 發展速度過快」。原始導語提到:49% 的美國人偶爾會使用聊天機器人,63% 則認為 AI 發展速度過快。2024 年,使用過 AI 聊天機器人的受訪者比例只有 33%。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Anthropic CEO 阿莫迪:公司治理機構隨時有權解僱我
Anthropic CEO 阿莫迪接受採訪時表示,AI 技術主要由私營企業推動,他本人並不完全認同此模式。為防範權力濫用,公司設立了“長期利益信託”治理結構,該機構有權撤換董事會成員甚至解僱 CEO。他強調,政府與企業應合作引入公共監督機制,確保 AI 安全發展。#AI 治理##Anthropic#