Hermes新功能上線!比Opus 4.8和GPT-5.5還猛
重點摘要
Hermes Agent 近日上線 MoA(Mixture of Agents)功能,讓用戶自由組合多種開源模型,在基準測試中評分超越 Opus 4.8 和 GPT-5.5 等頂尖閉源模型。此模式透過參考模型提供意見、聚合模型執行任務,實測顯示雖成本與時間略增,但生成品質明顯提升。未來多模型協作可能成為 Agent 預設工作方式。
Hermes Agent 近日正式上線 MoA(Mixture of Agents)功能,允許用戶自由組合多種開源模型作為虛擬模型使用,以提升輸出品質。這項舉措的背景正是當前頂尖閉源模型如 Fable 5、Mythos 5 等遭到禁用或限制訪問,迫使業界轉向更靈活的模型協作方案。Nous Research 在官方推文中直言「最強大的模型是受限的」,揭露了少數企業壟斷頂級模型權限的現狀。在這種環境下,MoA 模式試圖透過多個開源模型的協同工作,達到甚至超越最強閉源模型的水準,正如 Hermes 聯合創始人 Teknium 所說,他們正在探索能否用更經濟的模型組合複現 Opus 等級的效能。 MoA 的技術核心早在 2024 年便由 Together AI 在《Mixture-of-Agents Enhances Large Language Model Capabilities》論文中提出,其關鍵在於分層協作:系統將模型分為「參考模型」與「聚合模型」。當用戶輸入問題時,多個參考模型先分別對任務進行分析與判斷,生成初步的參考意見;這些意見隨後交由聚合模型進行綜合權衡,並執行具體指令或工具呼叫。參考模型不具備工具使用能力,只專注於規劃與建議,而聚合模型則負責實際落地,如此一來便能集合不同模型的長處,例如讓擅長邏輯推理的模型負責拆解任務,讓執行穩定的模型負責生成最終結果。 這套思路與日本 AI 獨角獸 Sakana AI 推出的 Sakana Fugu 系列編排器模型相似,後者同樣會根據任務動態挑選最合適的模型進行處理。這些案例共同指向一個趨勢:與其等待一個「全能型」的單一模型,不如利用模型間的能力互補,以組合的方式突破單體模型的瓶頸。在 Hermes 的實際操作中,用戶只需在桌面版設定中啟用 Mixture of Agents 選項,預設包含兩個參考模型與一個聚合模型,也可以手動添加更多參考模型,自由度相當高。 針對 MoA 的實測結果也頗具參考價值。有海外博主先後測試了遊戲開發與互動頁面設計兩種場景。使用單一模型(如 glm-5.2)生成遊戲時,耗時 13 分鐘、成本 0.38 美元,成品流暢度與可玩性仍有不足;啟用 MoA(以 kimi-k2.6 和 minimax-m3 為參考、glm-5.2 為聚合)後,耗時增加至 35 分鐘、成本升至 0.47 美元,但生成的遊戲在移動流暢度、關卡合理性上均有顯著提升。另一方面,在動漫儀表盤的生成測試中,使用 GPT-5.5 單一模型耗時 7 分鐘,品質尚可;改用三個 Grok 模型為參考、GPT-5.5 為聚合後,不僅生成速度出乎意料地更快,最終畫面的質感與交互細膩度也明顯優於單一模型,成為 MoA 潛力的有力佐證。 值得注意的是,MoA 的代價並非固定不變。在不同任務中,參考模型的選擇會直接影響生成速度與總耗時,並不一定會比單一模型更慢,而 Token 的消耗量也沒有想像中驚人。這意味著若用戶針對任務特性謹慎挑選模型組合,有機會在成本與品質之間取得較佳平衡。當然,當前 MoA 仍以更高的推理成本與潛在的延遲為代價,並非所有場景都適合啟用;但隨著開源模型能力持續提升與推理成本逐步下降,這類多模型協作機制的吸引力將會越來越強。 從更宏觀的角度看,MoA 代表了大模型競爭從「誰家模型更強」轉向「誰能有效組織模型協作」的重要轉折。過去用戶必須在不同模型之間手動切換,尋找最適合特定任務的選項;如今 Agent 扮演起調度與編排的角色,讓擅長思考的模型擔任參謀、擅長執行的模型負責行動。這剛好符合 Agent 時代對底層能力整合的需求,也使「編排」逐漸成為核心競爭力。未來,當推理成本不再構成障礙,多模型協作很可能成為 AI 應用的預設模式,並進一步拉近開源生態與頂尖閉源模型之間的距離。
Related
相關文章

Claude Fable 5,名存實亡
assistant: 根據提供的內容,這似乎是一則關於AI模型服務的報導或評論。摘要如下:Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。</think>Claude的Fable 5模型在更新後性能大幅下滑,跑分結果出現斷崖式下跌。官方文檔揭露,用戶在付費使用Fable 5的過程中,實際運行的可能一直是舊版的Opus模型。此事件引發了對模型服務透明度的質疑。
對話Kimi B端負責人黃震昕:把國產大模型搬上亞馬遜雲科技,未來與海外“御三家”掰手腕
月之暗面Kimi與亞馬遜雲科技展開四層合作,涵蓋基礎設施、平台服務、業務合作及垂直行業,藉此拓展全球市場。Kimi B端負責人黃震昕透露,公司提供業界最高人均算力,B端業務快速增長,並在Token效率、長程推理及Agent集群等方面取得技術突破,目標是與海外頂尖模型競爭。他預測,雖然算力成本上漲推升模型價格,但技術優化將持續提升性價比。
算力之外的博弈:ICML 2026 透露了哪些學術硬通貨?
告別盲目刷榜,28頁 PPT 帶你摸透 ICML 新風向。 作者丨陳淑瑜 編輯丨岑峰 ICML 2026 的投稿量從去年的 12107 篇直接飆升至 23,918 篇,幾近翻倍。然而,最終的接收率卻牢牢釘在 26.56%,與去年幾乎持平。這一數據傳遞出一個明確的信號:並非競爭變得盲目激烈,而是學術評審標準經歷了一次深刻的“重新校準”。
獨家:阿里全面禁用Claude
智東西 作者 | 李水青 編輯 | 雲鵬 智東西7月3日獨家獲悉,今日,阿里巴巴內部宣佈反向禁用Claude。阿里全員被要求卸載Anthropic相關產品,包括Sonnet、Opus、Fable等多個系列模型,以及Claude Code在內的Agent產品。禁令於7月10日正式生效。
超190億!AI視頻最大單筆融資誕生,阿里騰訊百度都投了
快手旗下AI視頻生成業務「可靈AI」完成190.48億元融資,阿里、騰訊、百度均參與投資,快手持股比例降至約68.33%。可靈AI自2024年6月上線以來已更新30多次,2025年營收約11億元,年化收入運行率達5億美元。快手同時宣布首次授予員工股權獎勵,並計劃在未來12個月內推動可靈AI赴港上市。
RAG-Anything 教學:在 Colab 中建立支援文字、表格、方程式與圖像的多模態檢索管道
本教學示範如何在 Google Colab 中建立 RAG-Anything 多模態檢索管道,支援文字、表格、方程式與圖像。流程包括安裝依賴、設定 OpenAI API、建立合成多模態報告與 PDF,並測試 naive、local、global 與 hybrid 等不同檢索模式。最終實現從內容列表格式插入資料,並透過多模態嵌入與視覺功能進行靈活檢索。