智東西生成式AI

剛剛,Fable 5解禁!Anthropic連夜發“性價比”新模型,網友:感謝中國開源嚴父

2026年7月1日 00:14

重點摘要

這篇消息聚焦「剛剛,Fable 5解禁!Anthropic連夜發“性價比”新模型,網友:感謝中國開源嚴父」。原始導語提到:智東西 編譯 | 李水青 編輯 | 雲鵬 智東西7月1日消息,剛剛,Anthropic宣佈Claude Fable 5解禁。就在6小時前,Anthropic推出一款新模型Claude Sonnet 5,面向所有套餐用戶開放。 Anthropic在推文中稱:“我們已收到通知,美國商務部已解除對Claude Fable 5和Mythos 5的出口管制。我們將於明日開始恢復訪問權限,並儘快發佈最新消息。感謝用戶的耐心等待,也感謝所有與我們合作的人員。” ▲Anthropic宣佈Fable 5解禁 此前6月13日,Anthropic因美國政府發佈一項出口管制指令,終止了所有用戶的Fable 5和Mythos 5訪問權限。而後兩週,Anthropic在全球範圍內封禁了一大批賬號,使得大批原Claude用戶轉向尋找替代產品。 Fable 5迴歸的關注度雖高,但Claude最新的Sonnet 5也值得一看。據悉,其最大進步在於能夠自主運行長時間任務,用戶可以制定計劃、使用瀏覽器和終端等工具。幾個月前要達到這樣的水平,還需要更昂貴的模型。 從測評成績來看,Sonnet 5性能接近Opus 4.8,但價格更低;同時,它比其前代產品Sonnet 4.6有了顯著的改進,在推理、工具使用、編程和知識工作等Agent性能方面更強。 ▲Sonnet 5與Sonnet 4.6和Opus 4.8測評得分對比 Sonnet 5在Agent環境中使用更安全,不良行為發生率總體低於Sonnet 4.6,但高於Opus 4.8和Claude Mythos Preview。但在網絡安全類任務上,該模型的能力遠不及現有Opus系列模型。 從今天起,免費版和專業版Claude用戶默認使用Sonnet 5,Max版、團隊版和企業版用戶也可使用,該模型還可通過Claude Code和Claude Platform使用。在Claude Platform上,Sonnet 5的首發價格為每百萬個輸入token 2美元(約合人民幣13.6元),每百萬個輸出token 10美元(約合人民幣67.9元),優惠期至2026年8月31日。 優惠結束之後,價格將調整為每百萬個輸入token 3美元(約合人民幣20.4元),每百萬個輸出token 15美元(約合人民幣101.8元);這一價格仍低於Opus 4.8的輸入5美元、輸出25美元的定價。開發者可通過Claude API使用claude-sonnet-5模型。 模型一經發布,一些網友認為這是一次“巨大的更新”。有網友稱:“有趣的不是它與Opus的算法接近,而是算法接近但token的價格卻便宜60%。”有網友稱:“既然它本身就能處理多步驟Agent工作流程,再去構建更大的模型就不太划算了。”也有人稱:“終於有一個能自我檢查的模型了,它讓我們免於在長時間運行的循環中時刻關注每一個輸出結果。” ▲網友對Sonnet 5的評論(圖源:社交媒體X) 但也有網友認為這款模型頗為“雞肋”。一位網友稱:“你自己也承認,這比你目前排名第二的型號要弱。訂閱用戶想要的是性能更強的模型,而不是價格便宜幾分錢卻只會給出虛假答案的玩具。”也有網友擔心所謂自主運行,反而讓用戶擔心模型犯傻、刪錯文件。有人吐槽:“促銷價過後,它的價格和Opus差不多。”也有網友認為,Sonnet 5就是面向6月17日新開源的智譜GLM-5.2展開價格戰。 GLM-5.2在OpenRouter等第三方API平臺定價為每百萬token輸入1.40美元,輸出4.40美元,Sonnet 5依然高出不少。 ▲網友對Sonnet 5的評論(圖源:社交媒體X) 一、性能對標、價格骨折,Sonnet 5拳打自家Opus 4.8 下圖比較了Sonnet 5、Sonnet 4.6和Opus 4.8在不同工作量水平下,在BrowseComp智能搜索評估和OSWorld-Verified計算機使用評估中的性能表現。 Sonnet 5(橙色線)相比Sonnet 4.6(灰色線)有了顯著提升,並且比Opus 4.8(黃色線)涵蓋了更廣泛的性價比選擇。它在中等工作量下提供了更高的成本效益;在某些任務中,其高工作量下的性能可以與Opus 4.8相媲美。用戶可以在Sonnet 5和Opus 4.8之間調整工作量水平,以找到成本和性能的最佳平衡點。 下圖顯示了不同投入水平下的性價比曲線。前代產品Sonnet 4.6遠遜於Opus 4.8,但Sonnet 5提供的性價比選擇範圍比Sonnet 4.6更廣,在某些情況下甚至可以與Opus 4.8的性能水平相媲美。 ▲Agent搜索 ▲Agent計算機使用 圖表顯示了Sonnet 5的定價,但其實際成本甚至比圖中所示還要低。Opus 4.8的定價為每百萬輸入token 5美元,每百萬輸出token 25美元。xhigh表示,Opus 4.8達到了超高投入水平。 來自早期體驗合作伙伴的反饋一致,Sonnet 5比其前代產品更具自主性。測試人員描述了它如何完成以往Sonnet型號無法完成的複雜任務,如何在無需明確要求的情況下檢查自身輸出,以及它如何以極具吸引力的價格完成所有這些自主工作。 一位網友對比了Claude Sonnet 5與Claude Opus 4.8的體驗結果,讓它們分別創建一個關於Claude Sonnet 5的HTML落地頁,認為就輸出質量而言,Opus勝出;就模型速度和成本而言,Sonnet 5勝出。 其中Sonnet 5使用token:輸入20.9k,輸出14.2k,總成本:3.36美元,耗時:2分11秒。Opus 4.8:使用token:輸入96.3k,輸出73.8k,總成本:20.66美元,耗時:20分15秒。 ▲左圖為Opus 4.8生成網頁,右圖為Sonnet 5生成網頁 二、安全防禦提升,網絡安全任務執行遠遜於Opus與Mythos Anthropic的部署前安全評估發現,Sonnet 5總體上比Sonnet 4.6有所改進。在Agent安全方面,該模型能夠更好地拒絕惡意請求,並抵禦即時注入攻擊中的劫持嘗試。與Sonnet 4.6相比,該模型表現出更低的幻覺和奉承行為發生率。 在Anthropic的自動化行為審查中,該審計測試各種不協調行為,例如濫用和欺騙等,Sonnet 5的總體得分更低(即更安全)。然而,與Opus 4.8和Claude Mythos Preview相比,Sonnet 5在此項評估中表現出的不協調行為發生率略高。 ▲Claude模型中不一致行為的發生率 Anthropic並未刻意訓練Sonnet 5執行網絡安全任務。它可以執行一些常規的、無害的網絡安全任務,但在測試潛在危險網絡安全技能的評估中,例如開發軟件漏洞利用程序,它的表現遠遜於Opus 4.8和Mythos 5等模型。 下圖展示了一項評估的得分,該評估測試了模型開發針對Firefox瀏覽器漏洞的利用程序的能力。Sonnet 5從未成功開發出完整的可用漏洞利用程序,但其部分成功率略高於Sonnet 4.6。後者的變化很可能是由於其通用智能的提升,而非特定訓練的結果。 ▲衡量Claude模型在開發針對Firefox 147軟件漏洞的利用程序方面的成功率 如上圖所示,對於每個模型,左側條形圖顯示模型在無安全措施的情況下,開發出有效利用程序的頻率;右側條形圖顯示模型部分成功的頻率。Sonnet的兩個模型均未能成功開發出有效利用程序,得分均為0.0%;Sonnet 5的部分成功率略高於Sonnet 4.6。Sonnet的兩個模型的網絡安全能力均遠遜於Opus 4.8和Mythos 5。 由於Sonnet 5在這些任務上比其前代產品功能更強大,Anthropic默認啟用了網絡安全防護功能。這些防護功能可以實時檢測並阻止危險的網絡攻擊,與Claude Opus 4.7和4.8中的防護功能相同。因為Anthropic評估Sonnet 5的總體網絡安全風險較低,所以其防護措施比Fable 5的防護措施寬鬆,Fable 5會阻止更廣泛的網絡安全攻擊。 結語:Sonnet 5來了,但全網都在等Fable 5 曾幾何時,Sonnet系列憑藉3.5至3.7版本為開發者打開了Agent工程的大門,成為編碼與工具調用的標杆。但隨後幾年,Opus系列在複雜推理和高端任務上持續領跑,讓Sonnet逐漸退居“高性價比備選”之位。 如今,Sonnet 5試圖宣告迴歸:在高投入場景下性能足以比肩Opus 4.8,成本更低。不過,對於Sonnet 5這種備選方案,很多網友並不買賬,而是催著能力更強的Fable 5解禁。與此同時,Sonnet 5也被認為是面向GML-5.2等模型打響價格戰,頭部大模型廠商之間的Agent競賽似乎已進入肉搏階段。 來源:Anthropic、X 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

根據 智東西 的原始內容,這篇消息聚焦「剛剛,Fable 5解禁!Anthropic連夜發“性價比”新模型,網友:感謝中國開源嚴父」。以下整理保留來源中的主要事實與脈絡。 智東西 編譯 | 李水青 編輯 | 雲鵬 智東西7月1日消息,剛剛,Anthropic宣佈Claude Fable 5解禁。就在6小時前,Anthropic推出一款新模型Claude Sonnet 5,面向所有套餐用戶開放。 Anthropic在推文中稱:“我們已收到通知,美國商務部已解除對Claude Fable 5和Mythos 5的出口管制。我們將於明日開始恢復訪問權限,並儘快發佈最新消息。感謝用戶的耐心等待,也感謝所有與我們合作的人員。” ▲Anthropic宣佈Fable 5解禁 此前6月13日,Anthropic因美國政府發佈一項出口管制指令,終止了所有用戶的Fable 5和Mythos 5訪問權限。而後兩週,Anthropic在全球範圍內封禁了一大批賬號,使得大批原Claude用戶轉向尋找替代產品。 Fable 5迴歸的關注度雖高,但Claude最新的Sonnet 5也值得一看。據悉,其最大進步在於能夠自主運行長時間任務,用戶可以制定計劃、使用瀏覽器和終端等工具。幾個月前要達到這樣的水平,還需要更昂貴的模型。 從測評成績來看,Sonnet 5性能接近Opus 4.8,但價格更低;同時,它比其前代產品Sonnet 4.6有了顯著的改進,在推理、工具使用、編程和知識工作等Agent性能方面更強。 ▲Sonnet 5與Sonnet 4.6和Opus 4.8測評得分對比 Sonnet 5在Agent環境中使用更安全,不良行為發生率總體低於Sonnet 4.6,但高於Opus 4.8和Claude Mythos Preview。但在網絡安全類任務上,該模型的能力遠不及現有Opus系列模型。 從今天起,免費版和專業版Claude用戶默認使用Sonnet 5,Max版、團隊版和企業版用戶也可使用,該模型還可通過Claude Code和Claude Platform使用。在Claude Platform上,Sonnet 5的首發價格為每百萬個輸入token 2美元(約合人民幣13.6元),每百萬個輸出token 10美元(約合人民幣67.9元),優惠期至2026年8月31日。 優惠結束之後,價格將調整為每百萬個輸入token 3美元(約合人民幣20.4元),每百萬個輸出token 15美元(約合人民幣101.8元);這一價格仍低於Opus 4.8的輸入5美元、輸出25美元的定價。開發者可通過Claude API使用claude-sonnet-5模型。 模型一經發布,一些網友認為這是一次“巨大的更新”。有網友稱:“有趣的不是它與Opus的算法接近,而是算法接近但token的價格卻便宜60%。”有網友稱:“既然它本身就能處理多步驟Agent工作流程,再去構建更大的模型就不太划算了。”也有人稱:“終於有一個能自我檢查的模型了,它讓我們免於在長時間運行的循環中時刻關注每一個輸出結果。” ▲網友對Sonnet 5的評論(圖源:社交媒體X) 但也有網友認為這款模型頗為“雞肋”。一位網友稱:“你自己也承認,這比你目前排名第二的型號要弱。訂閱用戶想要的是性能更強的模型,而不是價格便宜幾分錢卻只會給出虛假答案的玩具。”也有網友擔心所謂自主運行,反而讓用戶擔心模型犯傻、刪錯文件。有人吐槽:“促銷價過後,它的價格和Opus差不多。”也有網友認為,Sonnet 5就是面向6月17日新開源的智譜GLM-5.2展開價格戰。 GLM-5.2在OpenRouter等第三方API平臺定價為每百萬token輸入1.40美元,輸出4.40美元,Sonnet 5依然高出不少。 ▲網友對Sonnet 5的評論(圖源:社交媒體X) 一、性能對標、價格骨折,Sonnet 5拳打自家Opus 4.8 下圖比較了Sonnet 5、Sonnet 4.6和Opus 4.8在不同工作量水平下,在BrowseComp智能搜索評估和OSWorld-Verified計算機使用評估中的性能表現。

Related

相關文章

雷峰網生成式AI

Claude Sonnet 5 上線一日差評刷屏:打不過千問和 Minimax,性價比全面翻車

根據 雷峰網 的原始內容,這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏:打不過千問和 Minimax,性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。 根據 雷峰網 的原始內容,這篇消息聚焦「Claude Sonnet 5 上線一日差評刷屏:打不過千問和 Minimax,性價比全面翻車」。以下整理保留來源中的主要事實與脈絡。

6 小時前
雷峰網生成式AI

全球首份大語言模型安全防範能力測評報告在北京發佈

根據 雷峰網 的原始內容,這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。 根據 雷峰網 的原始內容,這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。 根據 雷峰網 的原始內容,這篇消息聚焦「全球首份大語言模型安全防範能力測評報告在北京發佈」。以下整理保留來源中的主要事實與脈絡。

6 小時前
雷峰網生成式AI

十年ICML,十次思想浪潮,當AI開始問“為誰而算”|ICML2026

作者|吳思夢編輯|岑峰 引言: 2016年6月,紐約。David Silver站到了ICML的講臺上,用66頁幻燈片,從Q-Learning一路推到AlphaGo。他傳遞出一種信念:把深度網絡嫁接到強化學習上,通用智能的湧現就只是算力和工程問題。彼時距AlphaGo在首爾4∶1擊敗李世石僅三個月。 十年後的2025年7月,溫哥華。

12 小時前
雷峰網生成式AI

Anthropic、OpenAI同一天落子AI4S賽道,巨頭混戰從「拼模型」轉向「卡生態」

這篇消息聚焦「Anthropic、OpenAI同一天落子AI4S賽道,巨頭混戰從「拼模型」轉向「卡生態」」。原始導語提到:6月30日,Anthropic和OpenAI同時在AI4S賽道投下了各自的籌碼。Anthropic發佈了科研智能體工作臺Claude Science,明確表態“不依賴新模型”,通過工作流整合現有能力來承包科學家的日常研究流程。OpenAI推出了GeneBench-Pro,一套覆蓋基因組學、定量生物學等10個領域的評測基準,其測試數據顯示,在129個真實科研workflow題目中,即便是最強的GPT-5.6 Sol,端到端通過率也只有28.7%。兩家巨頭的方向看似不同,但都是基於同一個判斷:AI4S的瓶頸已不是模型不夠強,而是模型遠未做到真正的端到端。基於這一共識,Anthropic的選擇是把現有模型裝進可擴展的工作臺,用工具鏈和流程彌補模型的不可靠;OpenAI的選擇則是搶先定義“什麼是科研任務的完成”,把話語權鎖進標準裡。而在此之前,Google DeepMind已憑藉AlphaFold等基礎模型在AI+科學領域深耕多年,其Gemini for Science平臺正將專有資產與數據庫捆綁,以平臺整合的方式切入同一市場。AI4S的戰局,已經悄然進入“巨頭生態混戰”階段,從模型能力的單點比拼,全面切換到了生態位卡位與工作流整合的戰場。01AI4S撞上了一塊怎樣的“天花板”為什麼三大巨頭偏偏在這個時間點,不約而同地把戰火燒到AI4S的底層基礎設施?開頭提到,OpenAI這次在GeneBench-Pro中設計了129道題目,完整模擬了真實科研工作流:從原始數據清洗、質控、建模、診斷,一直到得出結論。評分標準是嚴苛的二元制:只有全部決策正確才算通過。也就是說,哪怕中間分析步驟全對,只要最終結論錯了,這道題就是零分。數據顯示,OpenAI最強的GPT-5.6 Sol在Max推理設置下的通過率也只有28.7%,而在非GPT模型中表現最強的Claude Opus 4.8,其通過率僅達到16.0%。這說明,模型是能夠注意到數據異常,識別出局部診斷信號的,但無法將這一認知轉化為下游的方法論調整,做出相應的正確分析決策。注意到了問題,但沒有改變行動——OpenAI在論文中將這一缺陷,命名為“notice-act gap”。“識別”與“行動”之間的這道鴻溝從何而來?珞米科技創始人兼CEO吳昊從技術層面指出,通用大語言模型在生命科學領域存在三重結構性短板:其一,難以直接理解生物原始數據的特殊結構;其二,生物學中的許多現象無法簡單套用文本的tokenization規則,比如基因表達本身具有隨機性;其三,生物學數據中普遍存在大量未知缺失值。科研成本也是不可忽視的一個因素。GeneBench-Pro數據顯示,單道題的人工專家成本高達數千美元。當模型不可靠時,科研機構不得不繼續依賴昂貴的人力。除此之外,生命科學領域也對數據合規有著極其嚴苛的要求。這就是混戰發生在當下的原因。模型能力觸及了“notice-act gap”的天花板,堆算力的老路在科研場景裡走不通,工程化整合、生態卡位和數據主權,變成了更務實的突破口。三大巨頭不約而同的入局,是“撞”天花板撞出來的必然。02同一張牌桌,三種不同打法在這塊天花板面前,三家巨頭選擇了截然不同的AI4S方向,雷峰網注意到,它們都指向同一個終點:成為科學家工作不可或缺的底層基礎設施。Anthropic的打法最直白。Claude Science本質上是一個專門的工作臺——主AI助手像項目經理一樣拆分任務,拆解後分發給子助手執行,再由事實核驗器交叉驗證。它連接了60多個科學數據庫,預建了基因組學、蛋白質結構和化學等工具包。吳昊分析指出,其技術實質是通過MCP協議調用外部垂直模型(如scGPT處理單細胞數據、DNABERT解析基因序列等)執行具體計算,Claude自身只承擔自然語言理解、任務拆解和結果解讀的角色。這種分工使得Anthropic確實無需依賴新模型,也帶來了現實優勢:一方面避免了通用大模型直接處理生物矩陣時的高昂推理成本;另一方面,垂直模型可以獨立迭代,無需等待通用大模型的長週期更新。更重要的是,生命科學領域嚴格要求數據合規,這種做法能讓敏感數據在本地MCP Server上處理,無需上傳雲端。如果說Anthropic的做法,相當於“包攬”了一整條跑道,那麼OpenAI的邏輯,就是用GeneBench-Pro當裁判,定義“什麼是好的AI4S”,再用專用模型GPT-Rosalind當運動員,去衝擊高分。除了這次最新發布的GeneBench-Pro,OpenAI早在四個月前,就推出了GPT-Rosalind,這個模型專門做生物推理微調,以研究預覽版形式向美國合格企業客戶開放,需通過安全審查。Google DeepMind則握著獨一無二的王牌。它擁有AlphaFold、AlphaGenome等基礎科學模型,均為自有專有資產,並與Gemini for Science深度捆綁,整合30多個生命科學數據庫。關鍵優勢在於,其他玩家只能以調用工具的方式接入的模型,在Google這裡是自家的底層基礎設施。或許其他廠商能做一個更好的工作臺,或者定義更嚴苛的基準,但蛋白質結構預測的核心能力在Google手裡。在市場打法上,三家巨頭的選擇也各有不同:Anthropic走寬,靠訂閱普及化,Pro、Max、Team和Enterprise訂閱用戶均可使用Claude Science。值得一提的是,近期Anthropic還推出了$30,000 credits的資助計劃,面向50個博士後和研究生項目,申請截止7月15日,試圖在青年科學家成為獨立PI之前,先把他們鎖定在自己的工作臺裡,讓下一代科研人員養成使用Claude Science的學術習慣。OpenAI走窄,標準公開,允許更多人入局使用,但模型封閉,靠企業門禁建立門檻。Google走深,靠專有資產構築壁壘,模型即平臺,越用越深,越深越離不開。三套打法,其實對應了三種不同的思路和風險。Anthropic賭天花板短期撞不穿,先用工程化把工作流鋪開,核心風險在於模型突破萬一提前到來,或許會淪為只能做排列組合的工具箱。OpenAI賭天花板遲早會破,先佔住標準等模型能力追上來,但這種“自封裁判身份”的做法,存在不被科學界買賬的可能。Google賭天花板之上還有一層——誰掌握了基礎模型的源頭,誰就永遠有牌可打,壁壘確實夠高,但生態相對封閉。三家各有籌碼,各有盲區,沒有一家拿到了必勝的手牌,但它們都在同一時間窗口裡,把自己手上的籌碼一次性推上了桌。目前來看,勝負難以預測,至少頭部客戶尚未被任何一家鎖定:製藥巨頭Novo Nordisk同時出現在Anthropic(Claude Science案例客戶)和OpenAI(Rosalind早期合作伙伴)的名單裡。同一家甲方,正在並行試用多家方案,意味著市場還在開放競爭期,沒有哪一家的工具鏈已經強到讓科學家願意把完整workflow遷移上去。AI4S的終局,大概率不會被任何一家巨頭單獨決定。當三大玩家在同一天撞上天花板,它們不約而同地選擇了入局,但突圍的方向還沒有共識。真正的答案仍在科學家手中——他們如何在數據主權、學術獨立性和研究效率之間取捨,又將信任的一票投給誰。這個答案,可能比任何技術參數都更能決定終局。有關AI4S的更多進展與行業觀點,歡迎添加雷峰網作者微信 LorraineSummer 交流討論。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

15 小時前
何夕2077生成式AI

解耦邏輯解決大模型衝突

AI資訊日報|解耦邏輯解決大模型衝突 解耦邏輯解決大模型衝突。 該研究設計了 解耦衝突分析框架。該系統 ��� 將複雜的衝突上下文拆解為推理圖譜。算法藉助 強化學習 策略 (๑•̀ㅂ•́) 持續優化內在邏輯。最終7B模型的判定成功率超越了強大的GPT-5.1。

17 小時前
何夕2077生成式AI

EvoPI框架正式面世

AI資訊日報|EvoPI框架正式面世 EvoPI框架正式面世。 一項醫學推理對齊研究近日公開發布。該機制能讓多模態模型在���中實現完全自主學習。其核心的演進原則開源代碼也已公佈在社區。動態進化監管框架讓測試指標最高提升了二四點六。這為智能醫療診斷提供了極其重要的落地參考。

17 小時前