Claude“神話”模型登場！自主科研成果超《科學》論文水平，token在燃燒

2026年6月10日 00:58

重點摘要

站內 AI 整理稿

智東西作者 | 陳駿達編輯 | 李水青 Claude的“神話”級模型，終於上線了！智東西6月10日報道，今天，Claude正式發佈新一代旗艦模型Claude Fable（寓言） 5，以及面向特定機構開放的Claude Mythos（神話） 5。這兩款模型同屬Mythos（神話）級，共享同一個底層模型，能力高於Opus級。Mythos級是Anthropic迄今為止能力最強、綜合性能最高的大模型級別。 Anthropic在技術博客中稱，面向公眾開放的Fable 5在幾乎所有AI能力基準測試中處於頂尖水平，能勝任軟件工程、知識工作、視覺理解、科學研究等多個領域的複雜任務。同時，任務越長、越複雜，Fable 5的優勢就越大。與Opus 4.8、GPT 5.5和Gemini 3.1 Pro相比，Fable 5/Mythos 5稱得上是斷層領先。 ▲Fable 5/Mythos 5基準測試成績（圖源：Anthropic） Anthropic的官方案例顯示，“動手”設計3D打印模型、玩複雜的策略遊戲，打造太陽系、流體力學模擬，這些任務對於Fable 5/Mythos 5來說都不在話下。 ▲Fable 5實測案例（圖源：Anthropic） Mythos 5與Fable 5的主要差別在於安全措施。Fable 5在處理生物學、網絡安全和前沿科研場景的部分敏感請求時，將自動降級到Opus 4.8響應。而被定位為“全球最強網絡安全模型”的Mythos 5則在某些領域移除了安全防護措施。這款模型目前率先通過Anthropic與美國政府合作的Project Glasswing項目對外開放，未來打算通過更廣泛的受信任訪問計劃擴展訪問權限。價格方面，Fable 5和Mythos 5的價格分別為每百萬輸入token 10美元（約合人民幣67.7元）和每百萬輸出token 50美元（約合人民幣338.6元），大概是Mythos Preview的一半。即便如此，這兩款模型燒起token來還是十分驚人的。有用戶反饋，在200美元/月的Claude Max套餐中，Fable 5僅用1分鐘消耗了約14%的5小時使用配額，並消耗約2%的周配額。換算下來，大概1分鐘1美元。 ▲網友吐槽Fable 5使用成本（圖源：X平臺） Fable 5模型現已全面上線。即日起至6月22日，Pro、Max、Team和按座收費的企業版用戶可免費使用。6月23日起，Fable 5將從這些套餐中移除，之後需消耗積分才能使用。Anthropic官方稱，待容量充足後，他們會盡快將其恢復為訂閱計劃的標配功能，並可能視情況延長免費期。 Anthropic對新模型的命名也值得關注。Fable和Mythos沿用了此前的文學體裁命名方式，相較此前採用的Haiku（俳句）、Sonnet（十四行詩）、Opus（鉅著），這些名字的更為宏大。這種變化或許反映出其產品定位的調整，Claude未來承擔所承擔任務的複雜度和規模，或將進一步提升。一、2個月開發工作幾天幹完，還能靠記筆記自我優化 Anthropic在其博客中格外強調了新模型的長期自主工作能力。他們稱：“Fable 5和Mythos 5可以比任何之前的Claude模型更長時間地自主運行。” 這種能力讓這代Claude模型可以完成更為複雜的任務。在軟件工程領域，參與早期測試的金融科技公司Stripe稱，Fable 5將數月的工程工作壓縮到了幾天內。在一個5000萬行的Ruby代碼庫中，該模型在一天內完成了全代碼庫的遷移，而原本這一工作需要整個團隊人工操作2個月才能完成。與過去的Claude模型相比，Fable 5的token效率也更高：在編程基準測試FrontierCode中，Fable 5僅用中等思考強度，就超過了前沿模型。 ▲Fable 5在FrontierCode上的表現（圖源：Anthropic）有不少網友已經在編程任務中驗證了Fable 5的能力。有位網友曬出了自己用Fable 5打造的《我的世界》，這一遊戲的完成度已經很高了，有完整的建造和背包系統，遊戲渲染沒有bug，甚至還添加了音效和背景音樂。完成這樣一個任務，Fable 5大概燒掉了30美元。另一位網友對比了Fable 5和Opus 4.8的能力差異。在所有任務中，都能明顯感覺到Fable 5明顯強於Opus 4.8。比如，在近地物體監控網頁上，Fable 5的設計明顯更具美感，抓取的信息豐富度也更高。 ▲Fable 5和Opus 4.8打造的近地物體監測器（圖源：X平臺）在世界盃球衣銷售監測網頁任務中，Fable 5的結果運行正常，但Opus 4.8打造的網頁出現了明顯的視覺bug。 ▲Fable 5和Opus 4.8打造的世界盃球衣銷售監測網頁（圖源：X平臺）在知識型工作方面，Fable 5在企業級AI知識管理創企Hebbia的金融基準測試中，Fable 5獲得了所有模型中最高的分數，並在基於文檔的推理、圖表和表格解讀以及問題解決方面取得了顯著提升。全球頭部的自營交易公司和做市商IMC也認為，Fable 5幾乎全面超越了IMC的交易分析評估，包括事實查詢、概念推理、根本原因分析和預期價值分析。同時，Fable 5也是一款視覺模型。這意味著它可以看懂複雜的科學圖表、僅靠一張截圖復刻應用源代碼。在執行視覺任務時，Fable 5所需要的輔助工具也變少了。在僅使用最小化、純視覺的Harness時，Fable 5就已經能夠通關《寶可夢火紅》（Pokémon FireRed），而此前的Claude模型需要更復雜的輔助工具才能玩這一遊戲。 Fable 5的記憶和長上下文能力也是一大亮點，它可以在長時間運行的任務中能夠持續保持專注，並利用其自身筆記改進輸出。二、Mythos 5自主做科研一週，成果超越《科學》期刊論文如果說Fable 5更適用於通用場景，那麼Mythos 5則是Anthropic為前沿研究打造的強力工具。在藥物設計中，蛋白質設計專家藉助Mythos 5將部分環節的效率提升至約10倍。在一個案例中，僅配備蛋白質設計和生物信息學工具、完全沒有人類協助的Mythos 5，表現達到甚至超過了熟練的人類操作者。Mythos 5自主完成了科學家通常需要親自執行的全部任務：選擇結合位點、選用並運行蛋白質設計工具、在過程中遭遇失敗時自行糾錯和恢復。 ▲Mythos 5設計的蛋白質結構（圖源：Anthropic）研究所涉的14個蛋白質靶點中，有9個產生了強候選分子，目前已進入後續研究階段。這些設計覆蓋免疫檢查點、生長因子與受體信號傳導、神經退行性疾病、肌肉疾病以及結構難度更高的靶點。在分子生物學領域，Mythos 5是首個能夠持續提出新穎且有說服力的科學假設的模型。在與Opus級模型進行雙盲對比評測時，科學家對Mythos所提假設的偏好率約為80%，已有多項假設進入實驗驗證環節。其中一項關於大腸桿菌某一蛋白質新機制的假設，得到了一個獨立研究團隊近期發表成果的驗證。在基因組學方面，Mythos 5自主開展了為期1周多的原創性研究。它彙集了橫跨138個動物物種的數百萬個單細胞數據，自行設計並訓練了一個定製的機器學習模型，用於識別在親緣關係甚遠的物種中執行相同功能的細胞。在經驗豐富的人類研究者指導下，Mythos 5訓練出的模型超越了近期發表在《科學》期刊上的一個模型，而前者的參數量僅為後者的百分之一。團隊計劃在未來數月內發表這些成果。三、採用新型安全分類器，網安、生物學和蒸餾任務或被“降智” 模型能力的大幅度提升，讓Anthropic開始重新構建模型的安全體系。在面向公眾開放的Fable 5中，Anthropic打造了安全分類器，三類請求會被路由到Opus 4.8。Anthropic的數據顯示，大約5%的請求會被降級到Opus 4.8進行處理。在網絡安全類任務中，Mythos級模型擅長髮現和利用軟件漏洞。因此，它們可以大大簡化網絡攻擊，降低實施成本。為了防止這些黑客技能被應用於網絡攻擊，Anthropic設計了網絡安全分類器，應用於Fable 5。 Anthropic對這一分類器進行了大量測試，在1000小時的測試中，暫時沒有團隊找到通用的越獄方法。不過，Anthropic也承認，完全防止越獄是基本不可能的，他們的目標是讓越獄足夠緩慢且昂貴，讓Anthropic能在大規模使用前監測到這些行為，並及時阻止。在生物學和化學任務中，Anthropic此前已經會阻止生化武器相關的任務，但隨著模型能力提升，Anthropic發現一些通用類的生物學和化學研究也有可能被用於危險用途。因此，目前Fable 5在這些領域的大部分請求都會被路由到Opus 4.8上。 Anthropic還對所謂“蒸餾”行為進行了限制，當用戶的請求被標記為蒸餾行為時，也會被路由到Opus 4.8進行處理。最後，Anthropic還要求企業客戶將Mythos級型號的數據保存30天，這些數據不會被用於訓練模型，但是會被用於防範網絡安全攻擊和減少誤報。結語：幹活的能力上去了，商業模式也在重構頭部AI企業正把競爭重點，轉向真實任務的閉環交付能力。通讀Anthropic的Fable 5/Mythos 5博客，可以感受到性能指標與榜單成績的佔比似乎沒有那麼多了，Anthropic更希望強調，這一模型能獨立把活幹完、幹對的能力。同時，在這一代Claude模型上，我們也看到了算力成本與訂閱模式之間張力的進一步加劇。頂級模型燒token的速度遠超當前訂閱制的承載能力，按量計費、混合計費模式乃至按結果計費的新模式可能會加速普及。這些新型商業化模式的探索也值得關注。

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析

36氪生成式AI

微軟，考慮接入DeepSeek

這篇消息聚焦「微軟，考慮接入DeepSeek」。原始導語提到：Copilot Cowork轉為按量計費。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前閱讀分析

相關文章