Anthropic、OpenAI同一天落子AI4S賽道,巨頭混戰從「拼模型」轉向「卡生態」
重點摘要
6月30日,Anthropic和OpenAI同時在AI4S賽道投下了各自的籌碼。Anthropic發佈了科研智能體工作臺Claude Science,明確表態“不依賴新模型”,通過工作流整合現有能力來承包科學家的日常研究流程。OpenAI推出了GeneBench-Pro,一套覆蓋基因組學、定量生物學等10個領域的評測基準,其測試數據顯示,在129個真實科研workflow題目中,即便是最強的GPT-5.6 Sol,端到端通過率也只有28.7%。兩家巨頭的方向看似不同,但都是基於同一個判斷:AI4S的瓶頸已不是模型不夠強,而是模型遠未做到真正的端到端。基於這一共識,Anthropic的選擇是把現有模型裝進可擴展的工作臺,用工具鏈和流程彌補模型的不可靠;OpenAI的選擇則是搶先定義“什麼是科研任務的完成”,把話語權鎖進標準裡。而在此之前,Google DeepMind已憑藉AlphaFold等基礎模型在AI+科學領域深耕多年,其Gemini for Science平臺正將專有資產與數據庫捆綁,以平臺整合的方式切入同一市場。AI4S的戰局,已經悄然進入“巨頭生態混戰”階段,從模型能力的單點比拼,全面切換到了生態位卡位與工作流整合的戰場。01AI4S撞上了一塊怎樣的“天花板”為什麼三大巨頭偏偏在這個時間點,不約而同地把戰火燒到AI4S的底層基礎設施?開頭提到,OpenAI這次在GeneBench-Pro中設計了129道題目,完整模擬了真實科研工作流:從原始數據清洗、質控、建模、診斷,一直到得出結論。評分標準是嚴苛的二元制:只有全部決策正確才算通過。也就是說,哪怕中間分析步驟全對,只要最終結論錯了,這道題就是零分。數據顯示,OpenAI最強的GPT-5.6 Sol在Max推理設置下的通過率也只有28.7%,而在非GPT模型中表現最強的Claude Opus 4.8,其通過率僅達到1
6月30日,Anthropic和OpenAI同時在AI4S賽道投下了各自的籌碼。Anthropic發佈了科研智能體工作臺Claude Science,明確表態“不依賴新模型”,通過工作流整合現有能力來承包科學家的日常研究流程。OpenAI推出了GeneBench-Pro,一套覆蓋基因組學、定量生物學等10個領域的評測基準,其測試數據顯示,在129個真實科研workflow題目中,即便是最強的GPT-5.6 Sol,端到端通過率也只有28.7%。兩家巨頭的方向看似不同,但都是基於同一個判斷:AI4S的瓶頸已不是模型不夠強,而是模型遠未做到真正的端到端。基於這一共識,Anthropic的選擇是把現有模型裝進可擴展的工作臺,用工具鏈和流程彌補模型的不可靠;OpenAI的選擇則是搶先定義“什麼是科研任務的完成”,把話語權鎖進標準裡。而在此之前,Google DeepMind已憑藉AlphaFold等基礎模型在AI+科學領域深耕多年,其Gemini for Science平臺正將專有資產與數據庫捆綁,以平臺整合的方式切入同一市場。AI4S的戰局,已經悄然進入“巨頭生態混戰”階段,從模型能力的單點比拼,全面切換到了生態位卡位與工作流整合的戰場。01AI4S撞上了一塊怎樣的“天花板”為什麼三大巨頭偏偏在這個時間點,不約而同地把戰火燒到AI4S的底層基礎設施?開頭提到,OpenAI這次在GeneBench-Pro中設計了129道題目,完整模擬了真實科研工作流:從原始數據清洗、質控、建模、診斷,一直到得出結論。評分標準是嚴苛的二元制:只有全部決策正確才算通過。也就是說,哪怕中間分析步驟全對,只要最終結論錯了,這道題就是零分。數據顯示,OpenAI最強的GPT-5.6 Sol在Max推理設置下的通過率也只有28.7%,而在非GPT模型中表現最強的Claude Opus 4.8,其通過率僅達到16.0%。這說明,模型是能夠注意到數據異常,識別出局部診斷信號的,但無法將這一認知轉化為下游的方法論調整,做出相應的正確分析決策。注意到了問題,但沒有改變行動——OpenAI在論文中將這一缺陷,命名為“notice-act gap”。“識別”與“行動”之間的這道鴻溝從何而來?珞米科技創始人兼CEO吳昊從技術層面指出,通用大語言模型在生命科學領域存在三重結構性短板:其一,難以直接理解生物原始數據的特殊結構;其二,生物學中的許多現象無法簡單套用文本的tokenization規則,比如基因表達本身具有隨機性;其三,生物學數據中普遍存在大量未知缺失值。科研成本也是不可忽視的一個因素。GeneBench-Pro數據顯示,單道題的人工專家成本高達數千美元。當模型不可靠時,科研機構不得不繼續依賴昂貴的人力。除此之外,生命科學領域也對數據合規有著極其嚴苛的要求。這就是混戰發生在當下的原因。模型能力觸及了“notice-act gap”的天花板,堆算力的老路在科研場景裡走不通,工程化整合、生態卡位和數據主權,變成了更務實的突破口。三大巨頭不約而同的入局,是“撞”天花板撞出來的必然。02同一張牌桌,三種不同打法在這塊天花板面前,三家巨頭選擇了截然不同的AI4S方向,雷峰網注意到,它們都指向同一個終點:成為科學家工作不可或缺的底層基礎設施。Anthropic的打法最直白。Claude Science本質上是一個專門的工作臺——主AI助手像項目經理一樣拆分任務,拆解後分發給子助手執行,再由事實核驗器交叉驗證。它連接了60多個科學數據庫,預建了基因組學、蛋白質結構和化學等工具包。吳昊分析指出,其技術實質是通過MCP協議調用外部垂直模型(如scGPT處理單細胞數據、DNABERT解析基因序列等)執行具體計算,Claude自身只承擔自然語言理解、任務拆解和結果解讀的角色。這種分工使得Anthropic確實無需依賴新模型,也帶來了現實優勢:一方面避免了通用大模型直接處理生物矩陣時的高昂推理成本;另一方面,垂直模型可以獨立迭代,無需等待通用大模型的長週期更新。更重要的是,生命科學領域嚴格要求數據合規,這種做法能讓敏感數據在本地MCP Server上處理,無需上傳雲端。如果說Anthropic的做法,相當於“包攬”了一整條跑道,那麼OpenAI的邏輯,就是用GeneBench-Pro當裁判,定義“什麼是好的AI4S”,再用專用模型GPT-Rosalind當運動員,去衝擊高分。除了這次最新發布的GeneBench-Pro,OpenAI早在四個月前,就推出了GPT-Rosalind,這個模型專門做生物推理微調,以研究預覽版形式向美國合格企業客戶開放,需通過安全審查。Google DeepMind則握著獨一無二的王牌。它擁有AlphaFold、AlphaGenome等基礎科學模型,均為自有專有資產,並與Gemini for Science深度捆綁,整合30多個生命科學數據庫。關鍵優勢在於,其他玩家只能以調用工具的方式接入的模型,在Google這裡是自家的底層基礎設施。或許其他廠商能做一個更好的工作臺,或者定義更嚴苛的基準,但蛋白質結構預測的核心能力在Google手裡。在市場打法上,三家巨頭的選擇也各有不同:Anthropic走寬,靠訂閱普及化,Pro、Max、Team和Enterprise訂閱用戶均可使用Claude Science。值得一提的是,近期Anthropic還推出了$30,000 credits的資助計劃,面向50個博士後和研究生項目,申請截止7月15日,試圖在青年科學家成為獨立PI之前,先把他們鎖定在自己的工作臺裡,讓下一代科研人員養成使用Claude Science的學術習慣。OpenAI走窄,標準公開,允許更多人入局使用,但模型封閉,靠企業門禁建立門檻。Google走深,靠專有資產構築壁壘,模型即平臺,越用越深,越深越離不開。三套打法,其實對應了三種不同的思路和風險。Anthropic賭天花板短期撞不穿,先用工程化把工作流鋪開,核心風險在於模型突破萬一提前到來,或許會淪為只能做排列組合的工具箱。OpenAI賭天花板遲早會破,先佔住標準等模型能力追上來,但這種“自封裁判身份”的做法,存在不被科學界買賬的可能。Google賭天花板之上還有一層——誰掌握了基礎模型的源頭,誰就永遠有牌可打,壁壘確實夠高,但生態相對封閉。三家各有籌碼,各有盲區,沒有一家拿到了必勝的手牌,但它們都在同一時間窗口裡,把自己手上的籌碼一次性推上了桌。目前來看,勝負難以預測,至少頭部客戶尚未被任何一家鎖定:製藥巨頭Novo Nordisk同時出現在Anthropic(Claude Science案例客戶)和OpenAI(Rosalind早期合作伙伴)的名單裡。同一家甲方,正在並行試用多家方案,意味著市場還在開放競爭期,沒有哪一家的工具鏈已經強到讓科學家願意把完整workflow遷移上去。AI4S的終局,大概率不會被任何一家巨頭單獨決定。當三大玩家在同一天撞上天花板,它們不約而同地選擇了入局,但突圍的方向還沒有共識。真正的答案仍在科學家手中——他們如何在數據主權、學術獨立性和研究效率之間取捨,又將信任的一票投給誰。這個答案,可能比任何技術參數都更能決定終局。有關AI4S的更多進展與行業觀點,歡迎添加雷峰網作者微信 LorraineSummer 交流討論。
Related
相關文章
歷時18個月研發,葡萄牙國家級大模型“阿馬利婭”正式亮相
7月1日,葡萄牙發佈國家AI大語言模型“阿馬利婭”,以葡語為核心構建本土底座,驅動公共服務數字化,強化本國及歐洲技術主權。歷時18個月,將全面賦能教育、國防、文醫政等,確保迭代與自主AI基建。
曝美國最強AI公司暗藏針對中國的「監視代碼」,已持續3個月;優必選CEO:珍惜做牛馬的時光,20年後全是機器人幹活;iPhone17價格將迎調整
要聞提示1.美國最強AI公司被曝暗藏針對中國的“監視代碼”,官方回應:將在更新中刪除2.優必選CEO:珍惜做牛馬的時光吧,20年後全是機器人幹活3.小米人事調整:中國區總裁王曉雁不再兼任銷售運營一部總經理,陳幕楠接任4.山姆砍單多個蘋果漲價前已付款訂單,轉頭加價600元新上架遭質疑5.百度持續加碼AI技術投入:再次引入年輕技術人才6.消息稱iPhone17價格即將迎來調整7.“家電不換成格力,憑什麼分紅?” 董明珠股東會言論惹爭議,婉拒簽名稱“我不是雷總”8.特斯拉超級芯片工廠迎來首位高管,英特爾17年老將掌舵今日頭條美國最強AI公司被曝暗藏針對中國的“監視代碼”,官方回應:將在更新中刪除7 月 1 日消息,近日,有外國網民在海外社交平臺上爆出猛料,稱美國目前最強的AI科技企業之一Anthropic推出的AI編程工具Claude Code的客戶端裡,暗藏著一段針對中國的“監視代碼”,且該代碼已經存在了長達3個月之久。網友稱,這段代碼會在用戶使用代理時,暗中進行兩項檢測:檢查系統時區是否為中國時區(Asia / Shanghai 或 Asia / Urumqi),以及 URL 是否匹配一份包含 147 個條目的域名清單(包括百度、阿里巴巴、字節跳動等中國科技企業及 AI 實驗室的域名,以及大量 Claude API 中轉服務地址)。而一旦檢測到上述情況,那段可疑的代碼就會在用戶使用其程序向Anthropic的大模型發送指令時,悄悄篡改系統提示詞中的日期格式和部分表達符號,向Anthropic 的服務器發送隱藏標記,從而令該公司識別到這些中國用戶。對此,有開發者直言:“這甚至有些類似後門。”在網友們的質疑聲浪下,Anthropic公司Claude Code產品負責人Thariq Shihipar在7月1日回應稱,這是“一個實驗”,目的是防止未經授權的賬戶轉售以及防範模型蒸餾攻擊
美國出口管制解除,Anthropic 於7月1日重新部署 Claude Fable 5,並新增網路安全分類器
Anthropic 重新部署其最強大的通用模型 Claude Fable 5。該公司於6月30日宣佈美國出口管制已解除,這項管制先前涵蓋 Claude Fable 5 與 Claude Mythos 5。Fable 5 已於7月1日(週三)重新向全球用戶開放,而 Mythos 5 則恢復提供給特定美國組織。這些模型於6月12日被下架,原因是美國政府指令限制其僅供非外國籍人士使用,但 Anthropic 無法即時驗證用戶國籍,因此暫停所有人使用。本文說明觸發封鎖的原因,涵蓋新的安全防護機制與提出的越獄框架,並比較 Fable 5 與 GLM-5.2 等競爭對手的表現。快速事實:模型為 Claude Fable 5(一種經安全處理的 Mythos 級模型),事件為7月1日重新部署。

谷歌貼身對標字節:最新輕量版 Nano Banana 2 四秒出圖,單張僅 0.034 美元,還能直出視頻
谷歌最新發布輕量版 Nano Banana 2,能在四秒內生成圖片,單張成本僅 0.034 美元,價格低於字節跳動的競品。該模型在出圖品質與延遲上實現雙重反超,並具備直接生成影片的功能。

時隔4個月,谷歌Nano Banana再發新模型
這篇消息聚焦「時隔4個月,谷歌Nano Banana再發新模型」。原始導語提到:4秒生成1K圖片,僅需0.23元。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

美團開源萬億參數大模型 LongCat-2.0,五萬卡國產算力全流程訓練
美團開源了萬億參數的大模型 LongCat-2.0,該模型採用五萬張國產算力卡進行全流程訓練。此模型特別強調 Agentic Coding 能力,即具備自主編碼與任務執行的特性。