雷峰網生成式AI

Anthropic、OpenAI同一天落子AI4S賽道,巨頭混戰從「拼模型」轉向「卡生態」

2026年7月2日 02:11

重點摘要

Anthropic 與 OpenAI 在 6 月 30 日同一天於 AI4S 賽道出手:Anthropic 推出 Claude Science 科研智能體工作臺,不依賴新模型,而是透過工作流整合現有工具;OpenAI 則發布 GeneBench-Pro 評測基準,測試顯示最強模型端到端通過率僅 28.7%。兩家公司均認為 AI4S 的瓶頸在於模型無法真正端到端,因此分別從工作流整合與標準定義切入。加上 Google DeepMind 以 AlphaFold 等基礎模型深耕多年,AI4S 戰局已從模型能力比拼轉向生態位卡位與工作流整合。

站內 AI 整理稿

### 重點整理:AI4S 賽道從「模型競賽」轉向「生態卡位」

6 月 30 日,人工智慧公司 Anthropic 與 OpenAI 不約而同在 AI for Science(AI4S)領域投下新棋子。Anthropic 推出科研智能體工作臺 Claude Science,強調不依賴新模型,而是透過工作流整合現有工具,直接承包科學家的日常研究流程。OpenAI 則發布 GeneBench-Pro,一套涵蓋基因組學、定量生物學等十個領域的評測基準,其測試結果顯示,即便是最強的 GPT-5.6 Sol 模型,在 129 道真實科研工作流程題目中的端到端通過率也僅有 28.7%。兩家巨頭的策略看似不同,但背後共享同一判斷:AI4S 當前瓶頸不是模型不夠強,而是模型無法真正完成從資料到結論的端到端任務。與此同時,Google DeepMind 早已憑藉 AlphaFold 等基礎模型深耕多年,其 Gemini for Science 平台正以整合專有資產與資料庫的方式切入同一市場。這意味著 AI4S 戰局已從「拼模型參數」全面升級為「拼生態系統」的混戰。 ### 背景脈絡:模型觸及「識別與行動鴻溝」

為什麼三大巨頭偏偏選在這個時間點集體加碼 AI4S 基礎設施?關鍵在於現有模型在科學場景中撞上了一道名為「notice-act gap」的天花板。OpenAI 在 GeneBench-Pro 中設計的題目完整模擬真實科研流程:從原始數據清洗、質控、建模、診斷到結論,評分標準是嚴格的二元制——只要最終結論錯誤,即使中間步驟全對也算零分。測試數據顯示,即便是表現最好的模型,通過率也僅不到三成。這說明模型能夠識別數據異常或局部信號,卻無法將認知轉化為下游的分析決策。這種「注意到了問題卻沒有改變行動」的缺陷,正是當前通用大語言模型在生命科學領域的結構性短板。此外,生命科學數據具有特殊結構、基因表達隨機性強、存在大量未知缺失值,加上數據合規要求極為嚴格,使得單純堆疊算力的老路在科研場景中難以走通。 ### 三家巨頭的差異化打法

面對同一塊天花板,三家巨頭選擇了截然不同的路徑,但終點都是成為科學家不可或缺的底層基礎設施。Anthropic 採取「包攬跑道」策略:Claude Science 本質上是一個專門的工作臺,主 AI 助手像專案經理一樣拆解任務,再分發給子助手執行,並透過事實核驗器交叉驗證。它連接六十多個科學資料庫,預建基因組學、蛋白質結構等工具包,同時透過 MCP 協議調用外部垂直模型(如 scGPT、DNABERT)處理具體計算,Claude 自身只負責自然語言理解與任務協調。這種分工不僅降低推理成本,還能讓敏感數據在本地處理,滿足合規需求。OpenAI 則扮演「裁判兼運動員」:用 GeneBench-Pro 定義「什麼是好的 AI4S」,再用專用模型 GPT-Rosalind(四個月前推出)去衝擊高分,標準公開但模型封閉,靠企業安全審查建立門檻。Google DeepMind 握有獨家王牌:AlphaFold、AlphaGenome 等基礎模型均為自有專利,與 Gemini for Science 深度捆綁,整合三十多個資料庫,其他玩家只能以工具形式接入的模型,在 Google 這裡是自家基礎設施,形成「越用越深、越深越離不開」的封閉生態。 ### 可能影響:科學家工作模式與生態競爭重構

這三套打法各自對應不同的風險與機會。Anthropic 賭短期內模型天花板不會被突破,先靠工程化把工作流鋪開,近期甚至推出三萬美元 credits 的資助計畫,鎖定五十個博士後與研究生,試圖讓年輕科學家養成使用 Claude Science 的習慣。其風險在於一旦模型能力有重大突破,這種「工具整合」可能淪為缺乏核心競爭力的排列組合。OpenAI 賭天花板遲早會被打破,先佔住評測標準,

Related

相關文章

Claude Fable 5,名存實亡

assistant: 根據提供的內容,這似乎是一則關於AI模型服務的報導或評論。摘要如下:Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。

剛剛
智東西生成式AI

對話Kimi B端負責人黃震昕:把國產大模型搬上亞馬遜雲科技,未來與海外“御三家”掰手腕

月之暗面Kimi與亞馬遜雲科技展開四層合作,涵蓋基礎設施、平台服務、業務合作及垂直行業,藉此拓展全球市場。Kimi B端負責人黃震昕透露,公司提供業界最高人均算力,B端業務快速增長,並在Token效率、長程推理及Agent集群等方面取得技術突破,目標是與海外頂尖模型競爭。他預測,雖然算力成本上漲推升模型價格,但技術優化將持續提升性價比。

5 小時前
雷峰網生成式AI

算力之外的博弈:ICML 2026 透露了哪些學術硬通貨?

告別盲目刷榜,28頁 PPT 帶你摸透 ICML 新風向。 作者丨陳淑瑜 編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇,幾近翻倍。然而,最終的接收率卻牢牢釘在 26.56%,與去年幾乎持平。這一數據傳遞出一個明確的信號:並非競爭變得盲目激烈,而是學術評審標準經歷了一次深刻的“重新校準”。

6 小時前
智東西生成式AI

獨家:阿里全面禁用Claude

智東西 作者 | 李水青 編輯 | 雲鵬 智東西7月3日獨家獲悉,今日,阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品,包括Sonnet、Opus、Fable等多個系列模型,以及Claude Code在內的Agent產品。禁令於7月10日正式生效。

8 小時前
智東西生成式AI

超190億!AI視頻最大單筆融資誕生,阿里騰訊百度都投了

快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資,阿里、騰訊、百度均參與投資,快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次,2025年營收約11億元,年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵,並計劃在未來12個月內推動可靈AI赴港上市。

11 小時前
MarkTechPost AI生成式AI

RAG-Anything 教學:在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道

本教學示範如何在 Google Colab 中建立 RAG-Anything 多模態檢索管道,支援文字、表格、方程式與圖像。流程包括安裝依賴、設定 OpenAI API、建立合成多模態報告與 PDF,並測試 naive、local、global 與 hybrid 等不同檢索模式。最終實現從內容列表格式插入資料,並透過多模態嵌入與視覺功能進行靈活檢索。

15 小時前