全球最大 AI 聚合平臺上線“拼好模”:Deepseek+Kimi+Gemini 以一半成本實現 Claude Fable 5 級智能

重點摘要
全球最大 AI 大模型 API 聚合平臺 OpenRouter 於 6 月 14 日發佈公告,宣佈推出 Fusion API 複合 AI 模型,只需約一半成本就能實現 Claude Fable 5 級別性能。
**OpenRouter 推出 Fusion API:多模型「組團」協作,半價逼近 Claude Fable 5 水準**
全球最大 AI 大模型 API 聚合平臺 OpenRouter 於 6 月中旬正式推出 Fusion API 複合 AI 模型服務,標榜以約一半成本即可實現接近 Claude Fable 5 的智慧水準。這項功能一經發布便在開發者社群引發高度關注,被許多網友戲稱為 AI 界的「拼好模」——讓 DeepSeek、Kimi 與 Gemini 等多個模型組團協作,合力完成單一模型難以企及的複雜任務。
**Fusion 的核心機制:平行研究、交叉評審、綜合產出**
Fusion 本質上是一套「多模型協作」機制。傳統上開發者呼叫 AI 模型是單一模型獨立完成思考與回答,但 Fusion 會將同一個問題同時派送給多個模型平行處理,再由一個「裁判模型」(Judge Model)負責融合所有輸出。
具體運作分為三個步驟:第一步是**平行研究**,多個參與模型在相同工具權限下各自獨立完成搜尋、資料整理與答案生成;第二步是**交叉評審**,裁判模型閱讀所有 panel 成員的回應,產出結構化分析,包含共識點、矛盾點、獨到見解與盲點;第三步是**生成結論**,主模型根據評審結果完成資訊整合,輸出最終答案。整個流程在伺服器端執行,開發者只要一個 API call 就能完成,使用體驗與呼叫單一模型幾乎相同。
**DRACO 基準實測:Fusion 全面輾壓單體模型**
OpenRouter 採用 Perplexity AI 發布的 DRACO 深度研究基準進行評測,該基準涵蓋 100 道橫跨學術、金融、法律、醫療等 10 個領域的複雜研究任務。評分標準包含事實正確性、廣度與深度、呈現品質及引用品質等多個面向,且設有負權重機制,模型若給出錯誤資訊會受到懲罰。
測試結果顯示,前四名全部都是 Fusion 組合,而非任何單一模型。表現最好的是由 Fable 5 與 GPT-5.5 分別執行任務、再由 Claude Opus 4.8 負責綜合的組合,得分達到 69.0%,超越 Fable 5 單獨運作的 65.3%。其他多種 Fusion 組合也全面勝過單體模型:Opus 4.8+GPT-5.5+Gemini 3.1 Pro 得分 68.3%,Opus 4.8+GPT-5.5 得分 67.6%。
**預算面板最驚豔:三款平價模型合體只輸 Fable 不到 1%**
最令市場驚豔的結果來自一組「預算面板」——由 Gemini 3 Flash、Kimi K2.6 與 DeepSeek V4 Pro 三個相對便宜的模型組成團隊,經 Fusion 融合後拿到 64.7% 的 DRACO 分數。這個成績不僅擊敗了 GPT-5.5 單體的 60.0% 和 Opus 4.8 單體的 58.8%,更只差 Claude Fable 5 不到 1 個百分點,而成本僅需後者的一半。
另一個值得注意的發現是「自己融合自己」也有效——讓兩個 Opus 4.8(同型號兩份)同時回答,再以同一個 Opus 4.8 作為裁判融合,得分 65.5%,比單一 Opus 4.8 的 58.8% 高出 6.7 分。這顯示 Fusion 的效能提升有很大一部分來自「綜合環節」本身的價值——即使同一模型跑兩次,不同的推理路徑、不同的工具呼叫與來源選擇,也能帶來顯著增益。
**時機敏感:Fable 5 遭禁用當日上線**
Fusion 上線的時間點相當敏感。就在 OpenRouter 推出 Fusion 的前一天,Anthropic 最強大的新模型 Claude Fable 5 遭到全球禁用。OpenRouter 隨即推出 Fusion 功能,被外界解讀為應對突發技術斷供的敏捷回應。OpenRouter CEO Alex Atallah 在 X 平臺上表示,Fusion 可達到「Fable 等級的智慧,價格只要一半」。
不過團隊也坦承,DRACO 基準並未包含長時間序列任務(long-horizon),而這正是 Claude Fable 5 真正的強項。對於需要多步驟推理、長時間上下文的複雜任務,Fable 短期內仍難以被完全取代。至於程式開發場景,Fusion 並非直接取代程式設計模型的方案,而是被設計為一個 server tool,當基礎模型遇到需要深度研究的問題時可自動決定是否呼叫 Fusion。
**對產業的潛在影響**
Fusion API 的出現可能對 AI 產業帶來幾個層面的影響。首先是**成本結構的改變**——開發者不再需要為了追求頂級效能而被迫使用最昂貴的單一模型,可以透過多個平價模型的協作達到接近頂級模型的水準。其次是**模型選擇邏輯的翻轉**——過去開發者選模型是「哪個最強用哪個」,現在變成了「哪些模型組合起來效果最好、成本最低」。第三是**對單一模型供應商的依賴降低**——Fusion 讓開發者可以靈活調度不同來源的模型,不必被任何一家廠商綁死。
**開發者可關注的後續**
Fusion 現已全面整合至 OpenRouter 的聊天介面與 API。開發者有四種使用方式:在 Chatroom 直接試玩、在 API 中指定 `"model": "openrouter/fusion"` 自動帶入預設面板、以 server tool 形式讓主模型自主決定何時呼叫、或以 plugin 模式自訂 panel 模型組合。OpenRouter 表示會持續根據用戶反馈改善效能。值得留意的是,Fusion 預設面板的呼叫成本雖然比 Fable 低約一半,但響應時間約為標準呼叫的 2 到 3 倍,開發者在導入時需在成本、效能與延遲之間取得平衡。未來是否有更多模型組合被發掘、以及 OpenRouter 能否進一步優化響應速度,都是值得持續追蹤的焦點。
Related
相關文章
Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages
This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather
Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight
Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途
這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

華為昇騰 0 Day 支持智譜 GLM-5.2 模型,提供全面推理優化
華為昇騰 AI 宣佈在智譜開源 GLM-5.2 大模型當天即完成深度推理優化。通過 MOE 大融合算子、通信計算融合、高併發調度等七項關鍵技術,顯著提升編程和長程任務的處理效率,現已支持 A3 系列產品部署。#AI 大模型# #國產算力#
企業AI轉型再添利器:青雲科技算力雲接入 MiniMax-M3 模型
企業AI落地面臨高效低成本難題。青雲科技旗下基石智算平臺接入國產開源大模型MiniMax-M3,提供新算力支持。MiniMax-M3以卓越上下文處理能力等三大核心技術見長,依託自研架構,助企業便捷部署AI業務。
阿里開源統一科學大模型 LOGOS,僅用五十六分之一參數超越微軟
阿里 ATH-Token Foundry 聯閤中國人民大學高瓴人工智能學院開源科學基礎模型 LOGOS。該模型採用統一科學語法與純序列建模範式,在六大科學任務上匹配或超越傳統專用方法。其中 LOGOS-1B 僅 1B 參數,即展現出極高效率,性能超越參數量達 8×7B 的微軟模型。