Hermes新功能上線!比Opus 4.8和GPT-5.5還猛
重點摘要
AI應用風向標(公眾號:ZhidxcomAI) 作者|畢偉豪 編輯|漠影 智東西6月30日報道,現在,Fable 5和Mythos 5等頂尖閉源模型沒法使用,就算能用,單一模型也總有搞不定的問題,那麼,想要高質量輸出結果的用戶該怎麼辦呢? 近日,Hermes Agent上線了MoA(Mixture of Agents)功能,支持用戶自由組合多種模型作為虛擬模型使用,在Nous Research即將發佈的基準測試中,這個混合模型的評分超過了Opus 4.8 和GPT-5.5。 一、Fable 5、Mythos 5被禁,多模型組合成為潮流 Nous Research在官推上說了這樣一句話:“最強大的模型是受限的,只有少數人才能獲得訪問權限。”這句話明晃晃地指向了Fable 5等模型被封禁的事件。 在這種背景下,不難看出,MoA這個混合模型模式的終極目的,是用開源模型的組合達到頂尖閉源模型的水準,就像Hermes Agent聯合創始人Teknium說的,他們正在測試各種開源模型組合,看看是否能用更便宜的模型達到Opus的水平。 這種多模型組合比肩頂尖模型的思路,最近其實有不少實踐的例子,比如前段時間日本AI獨角獸Sakana AI發佈的Sakana Fugu系列編排器模型,會根據任務選擇最佳的模型來處理,和MoA的思路非常相似。 而MoA的技術也在很久之前就已存在了,2024年6月Together AI曾發表過一篇論文《Mixture-of-Agents Enhances Large Language Model Capabilities》,核心是多LLM組合,每一層模型都會參考上一層模型的輸出,再繼續生成自己的回答。同時,論文也將模型分成了兩類,也就是現在Hermes所用的參考模型和聚合模型。 當用戶提出問題時,參考模型會先對問題進行分析判斷,然後給出參考意見,隨後由聚合模型來
AI應用風向標(公眾號:ZhidxcomAI) 作者|畢偉豪 編輯|漠影 智東西6月30日報道,現在,Fable 5和Mythos 5等頂尖閉源模型沒法使用,就算能用,單一模型也總有搞不定的問題,那麼,想要高質量輸出結果的用戶該怎麼辦呢? 近日,Hermes Agent上線了MoA(Mixture of Agents)功能,支持用戶自由組合多種模型作為虛擬模型使用,在Nous Research即將發佈的基準測試中,這個混合模型的評分超過了Opus 4.8 和GPT-5.5。 一、Fable 5、Mythos 5被禁,多模型組合成為潮流 Nous Research在官推上說了這樣一句話:“最強大的模型是受限的,只有少數人才能獲得訪問權限。”這句話明晃晃地指向了Fable 5等模型被封禁的事件。 在這種背景下,不難看出,MoA這個混合模型模式的終極目的,是用開源模型的組合達到頂尖閉源模型的水準,就像Hermes Agent聯合創始人Teknium說的,他們正在測試各種開源模型組合,看看是否能用更便宜的模型達到Opus的水平。 這種多模型組合比肩頂尖模型的思路,最近其實有不少實踐的例子,比如前段時間日本AI獨角獸Sakana AI發佈的Sakana Fugu系列編排器模型,會根據任務選擇最佳的模型來處理,和MoA的思路非常相似。 而MoA的技術也在很久之前就已存在了,2024年6月Together AI曾發表過一篇論文《Mixture-of-Agents Enhances Large Language Model Capabilities》,核心是多LLM組合,每一層模型都會參考上一層模型的輸出,再繼續生成自己的回答。同時,論文也將模型分成了兩類,也就是現在Hermes所用的參考模型和聚合模型。 當用戶提出問題時,參考模型會先對問題進行分析判斷,然後給出參考意見,隨後由聚合模型來綜合判斷,並調用工具執行具體任務。 參考模型只生成意見、不會使用任何工具,也不能執行任何命令。這種模式可以發揮不同模型的獨特優勢,集各家之所長,讓擅長規劃的模型來提意見,讓長於實踐的模型來完成任務。 使用這個模式也很簡單,以桌面版為例,只需要在設置裡點開模型選項,向下翻就可以看到Mixture of Agents的選項了,直接選擇你想用的模型進行組合即可,默認狀態下是兩個參考模型和一個聚合模型,也可以自己手動添加多個參考模型。 二、實測做遊戲更絲滑,Token消耗量相差不大 海外有博主專門做了實測,用兩種組合方式分別生成了遊戲和交互頁面,實測結果發現,使用MoA任務完成的時間並不一定會變長,會因為模型選擇的不同而發生變化,同時,Token的消耗量也沒有想象中恐怖。 博主先是測試了一個小遊戲的製作,使用Three.js開發一個原力海盜訓練競技場遊戲,為了對比效果,他先使用單一模型glm-5.2來做測試,輸入提示詞: Hermes花費了0.38美元,用時13分鐘搞定了這個遊戲,可以看到,單一glm-5.2模型生成的遊戲效果整體上還不錯,但是在移動速度和流暢程度上存在一些問題,比如飛船很難躲避敵人的攻擊,可玩性稍弱。 隨後博主啟用了MoA,用kimi-k2.6和minimax-m3做參考模型,glm-5.2做聚合模型,然後新開對話,輸入同樣的提示詞。 這一次,Hermes花費了0.47美元,用時35分鐘完成任務,價格比單一模型稍高一些,時間上翻了接近三倍。雖然在時間和成本上更高,但MoA模式下的生成效果也明顯更好,可以看到其移動速度、流暢程度以及關卡合理性都比單一模型的輸出結果好很多。 隨後,博主又使用頂尖閉源模型GPT-5.5進行了測試,這一次是讓Hermes生成一個可交互的動漫多元宇宙儀表盤,包括火影忍者、海賊王、龍珠等IP。對照組依舊是單一模型,使用GPT-5.5執行任務,由於是訂閱制,因此博主直言沒辦法核算成本。 Hermes用了接近7分鐘完成任務,設計的儀表盤中間的光球周圍的光圈有一些簡單,缺少質感,但交互上非常流暢。 隨後博主用了三個grok模型做參考模型,GPT-5.5為聚合模型進行同樣的測試,令他意想不到的是,MoA模式下的Hermes生成速度竟然更快,博主推測可能是由於使用了grok快速模型的原因。 能看到這次的生成結果明顯更有質感,尤其是中間的光球設計感很強,整體交互也非常絲滑,而且點擊不同的星球還有遠近景的切換。 結語:未來比拼的,不只是模型 過去,大模型競爭幾乎都是圍繞著“誰家的模型更強”展開的,用戶需要不斷切換不同模型,在編程、寫作、推理之間尋找最適合的那個。 但MoA、Sakana Fugu等已然在另一個思路上前進:與其等待一個“萬能模型”,不如讓多個擅長不同能力的模型共同完成一項任務。 這種走向“編排”的趨勢,其實剛好符合Agent的要求,模型是底層能力,Agent負責組織不同模型協作,讓規劃能力強的模型負責思考,讓執行能力強的模型負責落地。 當然,目前MoA需要承擔更高的推理成本,在部分任務上耗時也會明顯增加,並不是所有場景都值得開啟。但隨著推理成本持續下降、開源模型能力不斷提升,多模型協作很可能會成為Agent未來的默認工作方式。
Related
相關文章

軟件沒被AI殺死,但全球市場都捲上天了
AI寫程式能力崛起,但軟體並未被取代,反而在全球市場面臨更加激烈的競爭。軟體開發的門檻降低,促使各國廠商紛紛投入,導致市場「捲」上加「捲」。軟體業者需在效率與創新之間找到新平衡,才能應對這場無止境的挑戰。

Token管夠的時代結束了
這篇消息聚焦「Token管夠的時代結束了」。原始導語提到:企業的錢也不是大風颳來的 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Claude Code之父版「職場MBTI」:AI洗牌後只剩5類人,你選哪種?
這篇消息聚焦「Claude Code之父版「職場MBTI」:AI洗牌後只剩5類人,你選哪種?」。原始導語提到:未來是屬於這5種職業的 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
中國信通院牽頭,首個智算運維智能體評測基準正式落地,覆蓋 5 款主流國產芯片
6月29日,在中國信通院人工智能軟硬件協同創新與適配驗證中心、中國人工智能產業發展聯盟、工信部人工智能標準化技術委員會聯合主辦的2026“眾智”大模型開放智算生態協同高級別研討會中,中國信通院副院長魏亮,正式發佈AISHPerf人工智能軟硬件基準體系3.0版本,包含兩項 AI Infra 領域核心評測基準——AISHPerf-智算運維智能體評測基準以及AISHPerf-算子生成智能體評測基準,兩大基準由國內頂尖AI原生基礎設施服務商無問芯穹及清華大學團隊作為重點技術支持方參與建設。前者是首個面向 AI Infra 的運維智能體評測基準,依託百億級真實運維數據構建,核心考核智算運維智能體在真實生產場景中解決實際問題的落地能力。後者則跳出 “模型能否生成可運行 GPU 算子” 的基礎維度,將評測重心錨定在 “模型生成的算子能否在真實量化推理部署中替代現有算子” 的工程可部署性上,更貼合產業實際落地需求。二者從底層算力優化到上層集群運維,共同為智算產業的標準化升級與高質量發展提供了統一的能力參照框架。 AISHPerf(Performance Benchmarks of Artificial Intelligence Software and Hardware)是中國信通院與人工智能大模型及軟硬件評測工業和信息化部重點實驗室,依託人工智能軟硬件協同創新與適配驗證中心(位於國家信創園)聯合構建的人工智能軟硬件基準體系,旨在設置多維度指標,考察端到端方案對模型及應用場景的真實承載能力,系統評估軟硬件各層級間的協同優化水平、兼容適配能力及整體交付效能。在此次發佈的兩項基準中,AISHPerf-智算運維智能體評測基準尤為引人注目,它不僅標誌著我國在智算集群運維智能體領域擁有了首個權威評測體系,更率先將國產芯片集群運維場景納入評測體系、填補了國產智算運維智能體評測領域的空白,為構建自主自治

Claude Code之父最新判斷:AI時代團隊分工被重寫,這「五種人」最吃香
這篇消息聚焦「Claude Code之父最新判斷:AI時代團隊分工被重寫,這「五種人」最吃香」。原始導語提到:工程師、PM、設計師……崗位邊界正在消失! 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
獨家丨字節、大疆背景創業者入局AI運動訓練,APP排名進入多國榜單前列
一位前自動駕駛工程師,把創業方向選在網球場上。作者丨黃豔冰編輯丨姚單雷峰網·鯨犀獨家獲悉,AI體育創業項目“小球圈”已形成商業化與產品矩陣。目前小球圈APP已在全球上線,網球拍進入量產銷售階段,智能球拍、智能球搭子及球場攝像硬件處於原型機階段,整體產品形態仍在迭代中,但已明確以APP作為核心數據入口,並逐步向硬件延展。“小球圈”(運營主體為北京光躍極樞智能科技有限公司)成立於2025年7月,專注於為網球、羽毛球、乒乓球、匹克球等拍類運動愛好者打造一款AI教練軟件。據瞭解,“小球圈”創始人為楊光垚,曾先後在字節跳動、百度、大疆車載(後獨立為卓馭)和蔚來任職,從事自動駕駛相關工作。在卓馭期間,他主要負責視覺感知、系統決策以及軟硬件協同等方向。作為其首個創業項目,早期從產品定義、數據閉環架構、軟件設計到內容運營等均由楊光垚一人獨立完成,硬件端則採用與深圳成熟ODM廠商合作的模式。過往職業經歷成為其後續創業判斷的基礎。在他看來,自動駕駛和體育訓練本質上是同一類問題:都是基於多模態數據輸入,核心是大模型架構和數據算法飛輪,底層打通即可快速迭代。小球圈的誕生,來源於一個非常具體的日常場景。楊光垚在長期網球訓練過程中捕捉到一些穩定存在的用戶痛點:訓練視頻拍攝後人工剪輯效率低下,動作缺乏系統覆盤,進步無法量化,同時找球友與預約訓練的成本較高。最終,楊光垚萌生了用AI解決這些問題的創業想法。楊光垚對雷峰網·鯨犀表示,最終鎖定體育AI賽道,主要基於三個原因:一是AI智能依賴數據,體育場景的多模態數據長期未被數據化,一旦被數據化便可衍生多種商業服務;二是體育場景涉及到多模態理解、多模態生成、長期記憶、球員教練場地多方交互,非常適合Agent落地;三是在他看來,這個領域仍由Wilson、Head、Yonex等海外品牌主導,缺少一個真正由技術驅動的國產品牌。痛點背後,也映射出當前AI進入運動訓練賽道