剛剛，Fable 5解禁！Anthropic連夜發“性價比”新模型，網友：感謝中國開源嚴父

2026年7月1日 00:14

重點摘要

這篇消息聚焦「剛剛，Fable 5解禁！Anthropic連夜發“性價比”新模型，網友：感謝中國開源嚴父」。原始導語提到：智東西編譯 | 李水青編輯 | 雲鵬智東西7月1日消息，剛剛，Anthropic宣佈Claude Fable 5解禁。就在6小時前，Anthropic推出一款新模型Claude Sonnet 5，面向所有套餐用戶開放。 Anthropic在推文中稱：“我們已收到通知，美國商務部已解除對Claude Fable 5和Mythos 5的出口管制。我們將於明日開始恢復訪問權限，並儘快發佈最新消息。感謝用戶的耐心等待，也感謝所有與我們合作的人員。” ▲Anthropic宣佈Fable 5解禁此前6月13日，Anthropic因美國政府發佈一項出口管制指令，終止了所有用戶的Fable 5和Mythos 5訪問權限。而後兩週，Anthropic在全球範圍內封禁了一大批賬號，使得大批原Claude用戶轉向尋找替代產品。 Fable 5迴歸的關注度雖高，但Claude最新的Sonnet 5也值得一看。據悉，其最大進步在於能夠自主運行長時間任務，用戶可以制定計劃、使用瀏覽器和終端等工具。幾個月前要達到這樣的水平，還需要更昂貴的模型。從測評成績來看，Sonnet 5性能接近Opus 4.8，但價格更低；同時，它比其前代產品Sonnet 4.6有了顯著的改進，在推理、工具使用、編程和知識工作等Agent性能方面更強。 ▲Sonnet 5與Sonnet 4.6和Opus 4.8測評得分對比 Sonnet 5在Agent環境中使用更安全，不良行為發生率總體低於Sonnet 4.6，但高於Opus 4.8和Claude Mythos Preview。但在網絡安全類任務上，該模型的能力遠不及現有Opus系列模型。從今天起，免費版和專業版Claude用戶默認使用Sonnet 5，Max版、團隊版和企業版用戶也可使用，該模型還可通過Claude Code和Claude Platform使用。在Claude Platform上，Sonnet 5的首發價格為每百萬個輸入token 2美元（約合人民幣13.6元），每百萬個輸出token 10美元（約合人民幣67.9元），優惠期至2026年8月31日。優惠結束之後，價格將調整為每百萬個輸入token 3美元（約合人民幣20.4元），每百萬個輸出token 15美元（約合人民幣101.8元）；這一價格仍低於Opus 4.8的輸入5美元、輸出25美元的定價。開發者可通過Claude API使用claude-sonnet-5模型。模型一經發布，一些網友認為這是一次“巨大的更新”。有網友稱：“有趣的不是它與Opus的算法接近，而是算法接近但token的價格卻便宜60%。”有網友稱：“既然它本身就能處理多步驟Agent工作流程，再去構建更大的模型就不太划算了。”也有人稱：“終於有一個能自我檢查的模型了，它讓我們免於在長時間運行的循環中時刻關注每一個輸出結果。” ▲網友對Sonnet 5的評論（圖源：社交媒體X）但也有網友認為這款模型頗為“雞肋”。一位網友稱：“你自己也承認，這比你目前排名第二的型號要弱。訂閱用戶想要的是性能更強的模型，而不是價格便宜幾分錢卻只會給出虛假答案的玩具。”也有網友擔心所謂自主運行，反而讓用戶擔心模型犯傻、刪錯文件。有人吐槽：“促銷價過後，它的價格和Opus差不多。”也有網友認為，Sonnet 5就是面向6月17日新開源的智譜GLM-5.2展開價格戰。 GLM-5.2在OpenRouter等第三方API平臺定價為每百萬token輸入1.40美元，輸出4.40美元，Sonnet 5依然高出不少。 ▲網友對Sonnet 5的評論（圖源：社交媒體X）一、性能對標、價格骨折，Sonnet 5拳打自家Opus 4.8 下圖比較了Sonnet 5、Sonnet 4.6和Opus 4.8在不同工作量水平下，在BrowseComp智能搜索評估和OSWorld-Verified計算機使用評估中的性能表現。 Sonnet 5（橙色線）相比Sonnet 4.6（灰色線）有了顯著提升，並且比Opus 4.8（黃色線）涵蓋了更廣泛的性價比選擇。它在中等工作量下提供了更高的成本效益；在某些任務中，其高工作量下的性能可以與Opus 4.8相媲美。用戶可以在Sonnet 5和Opus 4.8之間調整工作量水平，以找到成本和性能的最佳平衡點。下圖顯示了不同投入水平下的性價比曲線。前代產品Sonnet 4.6遠遜於Opus 4.8，但Sonnet 5提供的性價比選擇範圍比Sonnet 4.6更廣，在某些情況下甚至可以與Opus 4.8的性能水平相媲美。 ▲Agent搜索 ▲Agent計算機使用圖表顯示了Sonnet 5的定價，但其實際成本甚至比圖中所示還要低。Opus 4.8的定價為每百萬輸入token 5美元，每百萬輸出token 25美元。xhigh表示，Opus 4.8達到了超高投入水平。來自早期體驗合作伙伴的反饋一致，Sonnet 5比其前代產品更具自主性。測試人員描述了它如何完成以往Sonnet型號無法完成的複雜任務，如何在無需明確要求的情況下檢查自身輸出，以及它如何以極具吸引力的價格完成所有這些自主工作。一位網友對比了Claude Sonnet 5與Claude Opus 4.8的體驗結果，讓它們分別創建一個關於Claude Sonnet 5的HTML落地頁，認為就輸出質量而言，Opus勝出；就模型速度和成本而言，Sonnet 5勝出。其中Sonnet 5使用token：輸入20.9k，輸出14.2k，總成本：3.36美元，耗時：2分11秒。Opus 4.8：使用token：輸入96.3k，輸出73.8k，總成本：20.66美元，耗時：20分15秒。 ▲左圖為Opus 4.8生成網頁，右圖為Sonnet 5生成網頁二、安全防禦提升，網絡安全任務執行遠遜於Opus與Mythos Anthropic的部署前安全評估發現，Sonnet 5總體上比Sonnet 4.6有所改進。在Agent安全方面，該模型能夠更好地拒絕惡意請求，並抵禦即時注入攻擊中的劫持嘗試。與Sonnet 4.6相比，該模型表現出更低的幻覺和奉承行為發生率。在Anthropic的自動化行為審查中，該審計測試各種不協調行為，例如濫用和欺騙等，Sonnet 5的總體得分更低（即更安全）。然而，與Opus 4.8和Claude Mythos Preview相比，Sonnet 5在此項評估中表現出的不協調行為發生率略高。 ▲Claude模型中不一致行為的發生率 Anthropic並未刻意訓練Sonnet 5執行網絡安全任務。它可以執行一些常規的、無害的網絡安全任務，但在測試潛在危險網絡安全技能的評估中，例如開發軟件漏洞利用程序，它的表現遠遜於Opus 4.8和Mythos 5等模型。下圖展示了一項評估的得分，該評估測試了模型開發針對Firefox瀏覽器漏洞的利用程序的能力。Sonnet 5從未成功開發出完整的可用漏洞利用程序，但其部分成功率略高於Sonnet 4.6。後者的變化很可能是由於其通用智能的提升，而非特定訓練的結果。 ▲衡量Claude模型在開發針對Firefox 147軟件漏洞的利用程序方面的成功率如上圖所示，對於每個模型，左側條形圖顯示模型在無安全措施的情況下，開發出有效利用程序的頻率；右側條形圖顯示模型部分成功的頻率。Sonnet的兩個模型均未能成功開發出有效利用程序，得分均為0.0%；Sonnet 5的部分成功率略高於Sonnet 4.6。Sonnet的兩個模型的網絡安全能力均遠遜於Opus 4.8和Mythos 5。由於Sonnet 5在這些任務上比其前代產品功能更強大，Anthropic默認啟用了網絡安全防護功能。這些防護功能可以實時檢測並阻止危險的網絡攻擊，與Claude Opus 4.7和4.8中的防護功能相同。因為Anthropic評估Sonnet 5的總體網絡安全風險較低，所以其防護措施比Fable 5的防護措施寬鬆，Fable 5會阻止更廣泛的網絡安全攻擊。結語：Sonnet 5來了，但全網都在等Fable 5 曾幾何時，Sonnet系列憑藉3.5至3.7版本為開發者打開了Agent工程的大門，成為編碼與工具調用的標杆。但隨後幾年，Opus系列在複雜推理和高端任務上持續領跑，讓Sonnet逐漸退居“高性價比備選”之位。如今，Sonnet 5試圖宣告迴歸：在高投入場景下性能足以比肩Opus 4.8，成本更低。不過，對於Sonnet 5這種備選方案，很多網友並不買賬，而是催著能力更強的Fable 5解禁。與此同時，Sonnet 5也被認為是面向GML-5.2等模型打響價格戰，頭部大模型廠商之間的Agent競賽似乎已進入肉搏階段。來源：Anthropic、X 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

根據智東西的原始內容，這篇消息聚焦「剛剛，Fable 5解禁！Anthropic連夜發“性價比”新模型，網友：感謝中國開源嚴父」。以下整理保留來源中的主要事實與脈絡。智東西編譯 | 李水青編輯 | 雲鵬智東西7月1日消息，剛剛，Anthropic宣佈Claude Fable 5解禁。就在6小時前，Anthropic推出一款新模型Claude Sonnet 5，面向所有套餐用戶開放。 Anthropic在推文中稱：“我們已收到通知，美國商務部已解除對Claude Fable 5和Mythos 5的出口管制。我們將於明日開始恢復訪問權限，並儘快發佈最新消息。感謝用戶的耐心等待，也感謝所有與我們合作的人員。” ▲Anthropic宣佈Fable 5解禁此前6月13日，Anthropic因美國政府發佈一項出口管制指令，終止了所有用戶的Fable 5和Mythos 5訪問權限。而後兩週，Anthropic在全球範圍內封禁了一大批賬號，使得大批原Claude用戶轉向尋找替代產品。 Fable 5迴歸的關注度雖高，但Claude最新的Sonnet 5也值得一看。據悉，其最大進步在於能夠自主運行長時間任務，用戶可以制定計劃、使用瀏覽器和終端等工具。幾個月前要達到這樣的水平，還需要更昂貴的模型。從測評成績來看，Sonnet 5性能接近Opus 4.8，但價格更低；同時，它比其前代產品Sonnet 4.6有了顯著的改進，在推理、工具使用、編程和知識工作等Agent性能方面更強。 ▲Sonnet 5與Sonnet 4.6和Opus 4.8測評得分對比 Sonnet 5在Agent環境中使用更安全，不良行為發生率總體低於Sonnet 4.6，但高於Opus 4.8和Claude Mythos Preview。但在網絡安全類任務上，該模型的能力遠不及現有Opus系列模型。從今天起，免費版和專業版Claude用戶默認使用Sonnet 5，Max版、團隊版和企業版用戶也可使用，該模型還可通過Claude Code和Claude Platform使用。在Claude Platform上，Sonnet 5的首發價格為每百萬個輸入token 2美元（約合人民幣13.6元），每百萬個輸出token 10美元（約合人民幣67.9元），優惠期至2026年8月31日。優惠結束之後，價格將調整為每百萬個輸入token 3美元（約合人民幣20.4元），每百萬個輸出token 15美元（約合人民幣101.8元）；這一價格仍低於Opus 4.8的輸入5美元、輸出25美元的定價。開發者可通過Claude API使用claude-sonnet-5模型。模型一經發布，一些網友認為這是一次“巨大的更新”。有網友稱：“有趣的不是它與Opus的算法接近，而是算法接近但token的價格卻便宜60%。”有網友稱：“既然它本身就能處理多步驟Agent工作流程，再去構建更大的模型就不太划算了。”也有人稱：“終於有一個能自我檢查的模型了，它讓我們免於在長時間運行的循環中時刻關注每一個輸出結果。” ▲網友對Sonnet 5的評論（圖源：社交媒體X）但也有網友認為這款模型頗為“雞肋”。一位網友稱：“你自己也承認，這比你目前排名第二的型號要弱。訂閱用戶想要的是性能更強的模型，而不是價格便宜幾分錢卻只會給出虛假答案的玩具。”也有網友擔心所謂自主運行，反而讓用戶擔心模型犯傻、刪錯文件。有人吐槽：“促銷價過後，它的價格和Opus差不多。”也有網友認為，Sonnet 5就是面向6月17日新開源的智譜GLM-5.2展開價格戰。 GLM-5.2在OpenRouter等第三方API平臺定價為每百萬token輸入1.40美元，輸出4.40美元，Sonnet 5依然高出不少。 ▲網友對Sonnet 5的評論（圖源：社交媒體X）一、性能對標、價格骨折，Sonnet 5拳打自家Opus 4.8 下圖比較了Sonnet 5、Sonnet 4.6和Opus 4.8在不同工作量水平下，在BrowseComp智能搜索評估和OSWorld-Verified計算機使用評估中的性能表現。

原始來源：智東西 ↗

查看原始來源

雷峰網生成式AI

Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車

根據雷峰網的原始內容，這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。根據雷峰網的原始內容，這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。

6 小時前閱讀分析

雷峰網生成式AI

全球首份大語言模型安全防範能力測評報告在北京發佈

根據雷峰網的原始內容，這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。根據雷峰網的原始內容，這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。根據雷峰網的原始內容，這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。

6 小時前閱讀分析

雷峰網生成式AI

十年ICML，十次思想浪潮，當AI開始問“為誰而算”｜ICML2026

作者｜吳思夢編輯｜岑峰引言： 2016年6月，紐約。David Silver站到了ICML的講臺上，用66頁幻燈片，從Q-Learning一路推到AlphaGo。他傳遞出一種信念：把深度網絡嫁接到強化學習上，通用智能的湧現就只是算力和工程問題。彼時距AlphaGo在首爾4∶1擊敗李世石僅三個月。十年後的2025年7月，溫哥華。

12 小時前閱讀分析

雷峰網生成式AI

Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」

這篇消息聚焦「Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」」。原始導語提到：6月30日，Anthropic和OpenAI同時在AI4S賽道投下了各自的籌碼。Anthropic發佈了科研智能體工作臺Claude Science，明確表態“不依賴新模型”，通過工作流整合現有能力來承包科學家的日常研究流程。OpenAI推出了GeneBench-Pro，一套覆蓋基因組學、定量生物學等10個領域的評測基準，其測試數據顯示，在129個真實科研workflow題目中，即便是最強的GPT-5.6 Sol，端到端通過率也只有28.7%。兩家巨頭的方向看似不同，但都是基於同一個判斷：AI4S的瓶頸已不是模型不夠強，而是模型遠未做到真正的端到端。基於這一共識，Anthropic的選擇是把現有模型裝進可擴展的工作臺，用工具鏈和流程彌補模型的不可靠；OpenAI的選擇則是搶先定義“什麼是科研任務的完成”，把話語權鎖進標準裡。而在此之前，Google DeepMind已憑藉AlphaFold等基礎模型在AI+科學領域深耕多年，其Gemini for Science平臺正將專有資產與數據庫捆綁，以平臺整合的方式切入同一市場。AI4S的戰局，已經悄然進入“巨頭生態混戰”階段，從模型能力的單點比拼，全面切換到了生態位卡位與工作流整合的戰場。01AI4S撞上了一塊怎樣的“天花板”為什麼三大巨頭偏偏在這個時間點，不約而同地把戰火燒到AI4S的底層基礎設施？開頭提到，OpenAI這次在GeneBench-Pro中設計了129道題目，完整模擬了真實科研工作流：從原始數據清洗、質控、建模、診斷，一直到得出結論。評分標準是嚴苛的二元制：只有全部決策正確才算通過。也就是說，哪怕中間分析步驟全對，只要最終結論錯了，這道題就是零分。數據顯示，OpenAI最強的GPT-5.6 Sol在Max推理設置下的通過率也只有28.7%，而在非GPT模型中表現最強的Claude Opus 4.8，其通過率僅達到16.0%。這說明，模型是能夠注意到數據異常，識別出局部診斷信號的，但無法將這一認知轉化為下游的方法論調整，做出相應的正確分析決策。注意到了問題，但沒有改變行動——OpenAI在論文中將這一缺陷，命名為“notice-act gap”。“識別”與“行動”之間的這道鴻溝從何而來？珞米科技創始人兼CEO吳昊從技術層面指出，通用大語言模型在生命科學領域存在三重結構性短板：其一，難以直接理解生物原始數據的特殊結構；其二，生物學中的許多現象無法簡單套用文本的tokenization規則，比如基因表達本身具有隨機性；其三，生物學數據中普遍存在大量未知缺失值。科研成本也是不可忽視的一個因素。GeneBench-Pro數據顯示，單道題的人工專家成本高達數千美元。當模型不可靠時，科研機構不得不繼續依賴昂貴的人力。除此之外，生命科學領域也對數據合規有著極其嚴苛的要求。這就是混戰發生在當下的原因。模型能力觸及了“notice-act gap”的天花板，堆算力的老路在科研場景裡走不通，工程化整合、生態卡位和數據主權，變成了更務實的突破口。三大巨頭不約而同的入局，是“撞”天花板撞出來的必然。02同一張牌桌，三種不同打法在這塊天花板面前，三家巨頭選擇了截然不同的AI4S方向，雷峰網注意到，它們都指向同一個終點：成為科學家工作不可或缺的底層基礎設施。Anthropic的打法最直白。Claude Science本質上是一個專門的工作臺——主AI助手像項目經理一樣拆分任務，拆解後分發給子助手執行，再由事實核驗器交叉驗證。它連接了60多個科學數據庫，預建了基因組學、蛋白質結構和化學等工具包。吳昊分析指出，其技術實質是通過MCP協議調用外部垂直模型（如scGPT處理單細胞數據、DNABERT解析基因序列等）執行具體計算，Claude自身只承擔自然語言理解、任務拆解和結果解讀的角色。這種分工使得Anthropic確實無需依賴新模型，也帶來了現實優勢：一方面避免了通用大模型直接處理生物矩陣時的高昂推理成本；另一方面，垂直模型可以獨立迭代，無需等待通用大模型的長週期更新。更重要的是，生命科學領域嚴格要求數據合規，這種做法能讓敏感數據在本地MCP Server上處理，無需上傳雲端。如果說Anthropic的做法，相當於“包攬”了一整條跑道，那麼OpenAI的邏輯，就是用GeneBench-Pro當裁判，定義“什麼是好的AI4S”，再用專用模型GPT-Rosalind當運動員，去衝擊高分。除了這次最新發布的GeneBench-Pro，OpenAI早在四個月前，就推出了GPT-Rosalind，這個模型專門做生物推理微調，以研究預覽版形式向美國合格企業客戶開放，需通過安全審查。Google DeepMind則握著獨一無二的王牌。它擁有AlphaFold、AlphaGenome等基礎科學模型，均為自有專有資產，並與Gemini for Science深度捆綁，整合30多個生命科學數據庫。關鍵優勢在於，其他玩家只能以調用工具的方式接入的模型，在Google這裡是自家的底層基礎設施。或許其他廠商能做一個更好的工作臺，或者定義更嚴苛的基準，但蛋白質結構預測的核心能力在Google手裡。在市場打法上，三家巨頭的選擇也各有不同：Anthropic走寬，靠訂閱普及化，Pro、Max、Team和Enterprise訂閱用戶均可使用Claude Science。值得一提的是，近期Anthropic還推出了$30,000 credits的資助計劃，面向50個博士後和研究生項目，申請截止7月15日，試圖在青年科學家成為獨立PI之前，先把他們鎖定在自己的工作臺裡，讓下一代科研人員養成使用Claude Science的學術習慣。OpenAI走窄，標準公開，允許更多人入局使用，但模型封閉，靠企業門禁建立門檻。Google走深，靠專有資產構築壁壘，模型即平臺，越用越深，越深越離不開。三套打法，其實對應了三種不同的思路和風險。Anthropic賭天花板短期撞不穿，先用工程化把工作流鋪開，核心風險在於模型突破萬一提前到來，或許會淪為只能做排列組合的工具箱。OpenAI賭天花板遲早會破，先佔住標準等模型能力追上來，但這種“自封裁判身份”的做法，存在不被科學界買賬的可能。Google賭天花板之上還有一層——誰掌握了基礎模型的源頭，誰就永遠有牌可打，壁壘確實夠高，但生態相對封閉。三家各有籌碼，各有盲區，沒有一家拿到了必勝的手牌，但它們都在同一時間窗口裡，把自己手上的籌碼一次性推上了桌。目前來看，勝負難以預測，至少頭部客戶尚未被任何一家鎖定：製藥巨頭Novo Nordisk同時出現在Anthropic（Claude Science案例客戶）和OpenAI（Rosalind早期合作伙伴）的名單裡。同一家甲方，正在並行試用多家方案，意味著市場還在開放競爭期，沒有哪一家的工具鏈已經強到讓科學家願意把完整workflow遷移上去。AI4S的終局，大概率不會被任何一家巨頭單獨決定。當三大玩家在同一天撞上天花板，它們不約而同地選擇了入局，但突圍的方向還沒有共識。真正的答案仍在科學家手中——他們如何在數據主權、學術獨立性和研究效率之間取捨，又將信任的一票投給誰。這個答案，可能比任何技術參數都更能決定終局。有關AI4S的更多進展與行業觀點，歡迎添加雷峰網作者微信 LorraineSummer 交流討論。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

15 小時前閱讀分析

何夕2077生成式AI

解耦邏輯解決大模型衝突

AI資訊日報｜解耦邏輯解決大模型衝突解耦邏輯解決大模型衝突。該研究設計了解耦衝突分析框架。該系統 �� 將複雜的衝突上下文拆解為推理圖譜。算法藉助強化學習策略 (๑•̀ㅂ•́) 持續優化內在邏輯。最終7B模型的判定成功率超越了強大的GPT-5.1。

17 小時前閱讀分析

何夕2077生成式AI

EvoPI框架正式面世

AI資訊日報｜EvoPI框架正式面世 EvoPI框架正式面世。一項醫學推理對齊研究近日公開發布。該機制能讓多模態模型在��中實現完全自主學習。其核心的演進原則開源代碼也已公佈在社區。動態進化監管框架讓測試指標最高提升了二四點六。這為智能醫療診斷提供了極其重要的落地參考。

17 小時前閱讀分析

相關文章

Claude Sonnet 5 上線一日差評刷屏：打不過千問和 Minimax，性價比全面翻車

全球首份大語言模型安全防範能力測評報告在北京發佈

十年ICML，十次思想浪潮，當AI開始問“為誰而算”｜ICML2026

Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」

解耦邏輯解決大模型衝突

EvoPI框架正式面世