智東西生成式AI

又一大模型發佈!號稱比肩Fable 5和Mythos

2026年6月22日 12:37

重點摘要

智東西 作者 | 畢偉豪 編輯 | 心緣 智東西6月22日報道,今天,日本AI獨角獸Sakana AI發佈了Sakana Fugu系列編排器模型,包括Fugu Ultra和Fugu兩款模型。其中Fugu Ultra模型在工程、科學和推理基準測試中,性能接近或超越了Fable 5以及Mythos Preview等頂尖模型。 和傳統大語言模型不同的是,Sakana Fugu不會自己回答問題,它會調用世界上各種模型來完成任務。簡單來說,Sakana Fugu像一個“總指揮”,會根據任務選擇最佳的模型來處理。 Fugu在日文中是河豚的意思,從官方發佈的動畫可以看出,Sakana Fugu是要用多個“小魚”匯聚成一個“大河豚”這種美味食材。 Sakana AI是一家日本AI獨角獸,成立於2023年,由Transformer論文第五作者Llion Jones聯合創辦,曾用“進化”的方式,通過小模型組合實現堪比大模型的能力。如今,他們在Sakana Fugu在技術報告提出了訓練模型的新思路:讓一個模型學會調度多個模型,把不同特長不同的大模型組織起來,形成一種“集體智能”。 Sakana AI在博客中提出,編排模型將會超越傳統大模型成為新的前沿方向。他們認為,過去幾年AI進步靠暴力堆算力和數據,但現實複雜任務需要的專業知識遠超單一模型的能力邊界。充分發揮模型的最佳性能需要集體智慧,需要知道何時該用哪個模型、什麼時候委派、怎麼組合擅長不同領域的模型。 同時,這種編排不僅是技術上的進步,更是地緣政治的產物。Sakana AI從近期Anthropic模型被施加出口管制中吸取教訓,認為綁定單一供應商,訪問權限可能會一夜消失,而Fugu的底層模型池完全可替換,一家斷供就換另一家,Sakana AI稱之為“AI主權的現實藍圖”。 Sakana AI在博客中提出,Fugu本身是一個專門用於理解何時委派任

站內 AI 整理稿

智東西 作者 | 畢偉豪 編輯 | 心緣 智東西6月22日報道,今天,日本AI獨角獸Sakana AI發佈了Sakana Fugu系列編排器模型,包括Fugu Ultra和Fugu兩款模型。其中Fugu Ultra模型在工程、科學和推理基準測試中,性能接近或超越了Fable 5以及Mythos Preview等頂尖模型。 和傳統大語言模型不同的是,Sakana Fugu不會自己回答問題,它會調用世界上各種模型來完成任務。簡單來說,Sakana Fugu像一個“總指揮”,會根據任務選擇最佳的模型來處理。 Fugu在日文中是河豚的意思,從官方發佈的動畫可以看出,Sakana Fugu是要用多個“小魚”匯聚成一個“大河豚”這種美味食材。 Sakana AI是一家日本AI獨角獸,成立於2023年,由Transformer論文第五作者Llion Jones聯合創辦,曾用“進化”的方式,通過小模型組合實現堪比大模型的能力。如今,他們在Sakana Fugu在技術報告提出了訓練模型的新思路:讓一個模型學會調度多個模型,把不同特長不同的大模型組織起來,形成一種“集體智能”。 Sakana AI在博客中提出,編排模型將會超越傳統大模型成為新的前沿方向。他們認為,過去幾年AI進步靠暴力堆算力和數據,但現實複雜任務需要的專業知識遠超單一模型的能力邊界。充分發揮模型的最佳性能需要集體智慧,需要知道何時該用哪個模型、什麼時候委派、怎麼組合擅長不同領域的模型。 同時,這種編排不僅是技術上的進步,更是地緣政治的產物。Sakana AI從近期Anthropic模型被施加出口管制中吸取教訓,認為綁定單一供應商,訪問權限可能會一夜消失,而Fugu的底層模型池完全可替換,一家斷供就換另一家,Sakana AI稱之為“AI主權的現實藍圖”。 Sakana AI在博客中提出,Fugu本身是一個專門用於理解何時委派任務、Agent之間如何通信以及如何將它們的工作整合為一個可靠答案的語言模型。這套技術路線建立在此前團隊關於學習模型編排的研究之上,包括在ICLR 2026上發表的論文Trinity和Conductor。 技術報告地址: https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf 體驗地址: https://sakana.ai/fugu 一、超越Mythos Preview和Fable 5,調度最強模型完成任務 技術報告列出了Fugu系列在覆蓋編程、推理、科學、Agent能力四個維度的八個基準測試上的表現,報告顯示Fugu系列在這些評測中達到或接近尖端模型的水平。 技術報告顯示,Fugu模型僅通過智能調度,就在三項基準測試中超越了Mythos Preview和Fable 5的能力。 在跨領域的適應性方面,Terminal Bench測試中,Fugu和Fugu Ultra調用模型的峰值都集中於在該測試中表現頂尖的GPT-5.5。而在GPQADiamond測試中,Gemini-3.1-Pro作為領先模型,兩款Fugu模型都將其調度核心圍繞Gemini展開。 Fugu拿高分的方式跟傳統模型完全不同,它沒有訓練一個更強的基座去解題,而是去判斷這道題該派交給哪個模型、怎麼拆解任務、如何校驗檢查,最終綜合得到的答案的質量超過多個單一模型獨立作答所得。 這正是技術報告反覆強調的核心定位:Fugu的技術價值不在於替代GPT、Claude、Gemini這些模型,而在於把這些模型的能力組合起來。現在的大模型中,有的擅長數學推理、有的擅長代碼工程、有的擅長安全分析,隨著不同模型各自形成特長,編排能力本身正在成為一種獨立的競爭力。 二、四大機制讓Fugu指揮模型軍團 報告解讀了Fugu的四個基礎機制: 第一,識別問題類型。判斷用戶問題是代碼、數學、推理、信息檢索、科學分析還是多模態任務,這一步決定了後續整個派活邏輯的起點。 第二,選擇合適的worker模型。不同模型在不同任務上的表現差異很大,Fugu被訓練的目標之一就是學會在什麼問題上該調用什麼模型,報告提到,即使在同一類任務內部,比如競賽性質的編程,不同模型也可能分別擅長直接實現、制定解題計劃或組合多種算法思路,Fugu需要把這些細微的差異也納入決策。 第三,設計Agent工作流。對複雜問題,Fugu Ultra會生成完整的agentic workflow,包括任務拆分、子任務分配、上下文共享策略以及最終答案合成,全部可以在模型內部以自然語言完成。 第四,根據反饋優化。Fugu的訓練不止監督微調,還包括進化算法和強化學習,用真實任務結果來反向優化編排策略,這種策略讓它知道怎麼讓合適的模型去做合適的事。 Sakana Fugu共有兩個版本的模型,分別為Fugu和Fugu-Ultra。Fugu更強調日常使用,側重性能和延遲平衡,在保證較高質量的同時,儘量快速響應。因此它不會每次都進行非常複雜的多Agent協作,會通過一個輕量選擇機制,快速判斷哪個worker模型更適合當前任務。 Fugu-Ultra則更偏向質量優先。它會使用更復雜的編排方式,把任務拆成多個子任務,安排不同Agent去處理,隨後再進行綜合。這種方式響應時間可能更長,但更適合高難度問題,例如複雜代碼任務、數學推理、科學問題、多步驟規劃等。 兩者的共同點是與模型無關的完全模塊化,Sakana Fugu不需要訪問worker模型的權重,甚至不需要它們是開源的。新模型發佈後可以直接加入worker模型池,用戶可以根據成本、隱私、合規等需求定製可用的模型列表。 三、解魔方、下盲棋,沒被洗車問題難倒 Sakana Fugu技術報告附錄中有幾個實驗: 一個是“一次性魔方求解器”。模型需要一次性寫出一個Python標準庫實現的魔方求解程序,並在300個亂序魔方上測試。報告稱Fugu和Fugu-Ultra都成功解出了全部魔方,其中Fugu-Ultra的平均步數更短,Fugu的運行速度更快。 另一個是“盲棋測試”。模型在看不到棋盤、沒有合法走法列表、沒有FEN的情況下,只根據歷史走法繼續下棋。這個實驗主要測試模型是否能長期維護內部狀態。報告展示的幾盤代表性對局中,Fugu戰勝了多個基線模型和限制強度的Stockfish。 還有一個是“在線股票交易”實驗。模型只能看到過去和當前的匿名市場數據,不能偷看未來價格,需要逐周做買入、持有或賣出決策。報告稱Fugu-Ultra在五次運行中取得了更高平均收益。 這些實驗未必可以直接代表模型的實際能力,但它們展示了Fugu想證明的一件事:編排模型可以處理好需要長期運行、策略調整以及多步驟執行的任務。 有網友使用Fugu-Ultra去處理了一些讓很多模型崩潰的問題,比如strawberry(草莓)中有幾個“r”、5.11比5.1大嗎以及經典洗車問題,他直呼把Fable找回來了。可以看到Fugu-Ultra在這三個問題上的回答都是正確的。 Sakana Fugu技術報告中最值得關注的,是它提出了一種模型研究的新路徑。 過去我們常問哪個模型最強,而Sakana Fugu提出的新問題是如何讓多個尖端模型協同起來更強。 這會帶來幾個變化:第一,模型能力會變得更加模塊化。新模型發佈後,可以直接加入worker池,成為某類任務的專家;第二,用戶控制權更強。企業或個人可以根據隱私、合規、成本、延遲、供應商偏好來配置模型池。第三,AI競爭可能從“單一模型能力”擴展到“系統組織能力”。誰更會調度模型、使用工具、設計工作流、整合反饋,誰就會擁有更強大的能力。 當然,技術報告中的測試結果來自於廠商,實際能力還要看真實開發者的使用體驗,其次,多模型編排會帶來更高成本和更高的延遲,特別是Fugu-Ultra這類深度協作模式。同時,多模型系統的錯誤歸因會更復雜,一旦最終答案出錯,很難分清是路由、worker模型還是綜合過程出錯。 此外,編排器模型本身也可能出現偏差,它如果錯誤判斷任務類型,或者過度依賴某個模型,就可能削弱整體表現。因此,Sakana Fugu的路線雖然很有潛力,但真正落地仍需要大量工程驗證。 結語:入局大模型訓練的新方式 Sakana Fugu系列模型的發佈表明,AI的下一階段,可能不只是更大更強的單一模型,還有更會協作的模型系統。 如果說過去的大模型競爭是在培養“超級智能”,那麼Sakana Fugu的方向就是在訓練“超級指揮”讓模型專門去學習如何分工、協調、驗證以及綜合。在大模型領域被少數頂尖模型廠商統治的現在,這個只調度不執行的模型訓練方式,或許是當下入局大模型訓練的新方式。

Related

相關文章

智東西生成式AI

庫克攤牌了:漲價!

智東西 編譯 | 陳佳 編輯 | 雲鵬 智東西6月22日消息,據《華爾街日報》昨日報道,AI行業對存儲芯片的海量需求正引發一場波及全球的消費電子漲價潮。蘋果、微軟、任天堂、索尼等廠商近期密集上調產品售價,蘋果公司CEO蒂姆·庫克(Tim Cook)坦言公司已無力獨自消化上游成本上漲壓力,計劃在未來數月上調產品售價。 這場漲價的根源直指AI產業擴張。DRAM和NAND閃存既是手機、筆記本、遊戲主機等消費設備的基礎硬件,也是AI企業訓練和運行大模型的關鍵資源。AI行業的爆發式增長大量吞噬了同類芯片產能,導致全球存儲芯片供應陷入嚴重緊缺。 芯片廠商從中大幅獲益,全球三家存儲芯片巨頭——SK海力士、三星電子和美光科技,成為最大贏家。過去半年SK海力士與美光市值均飆漲約四倍,各自突破1萬億美元(約合人民幣6.77萬億元)。 而成本壓力層層向消費者端傳導,過去一年美光一款主流數據中心內存芯片合約價漲幅接近4倍。 據Investing 2026年6月20日報道,高盛下調了2026年和2027年全球智能手機出貨量預測,理由是存儲芯片價格持續上漲抑制市場需求。 在新設備售價持續走高的背景下,二手翻新設備市場正迎來新一輪增長窗口,多家翻新交易平臺在品質管控和售後保障方面持續加碼。 與此同時,分析師預測新建晶圓廠需要兩到三年才能投產,芯片短缺和漲價態勢還將持續數年,消費電子買家短期內難以等到降價拐點。 一、各品類消費電子密集漲價,成本壓力轉嫁給消費者 消費者已在各類產品上切身感受到漲價衝擊。微軟上週公佈新款Surface Pro筆記本起售價為1599美元(約合人民幣1.08萬元),較上一代產品上漲600美元(約合人民幣4062元)。 任天堂5月將Switch 2遊戲主機售價上調50美元(約合人民幣339元)至499美元(約合人民幣3378元),官方就此致歉稱“為本次調價給消費者帶來的影響致以誠摯

6 小時前
智東西生成式AI

剛剛,阿里HappyHorse1.1上線,我用它把國足送進世界盃

智東西 作者 | 陳駿達 編輯 | 心緣 智東西6月22日報道,今天,阿里巴巴發佈了其最新一代視頻生成模型HappyHorse 1.1(快樂小馬1.1)。阿里稱,相比HappyHorse 1.1,這代模型在動態表現力、主體一致性、指令遵循、視覺質感和音頻能力等維度有了一定提升。 HappyHorse 1.1的技術規格與HappyHorse 1.0保持一致,單次生成時長為3至15秒,支持720p和1080p分辨率和自由寬高比。 阿里官方曬出了幾個HappyHorse 1.1的生成結果。在舞蹈這類考驗模型動態表現力和動作連貫性的任務上,HappyHorse 1.1生成的動作流暢自然,沒有像過去許多視頻生成模型一樣出現慢動作、殘影等問題,人體特徵符合正常情況,長相也保持了一致。 在風格化內容方面,HappyHorse 1.1在下方案例中很好地保持了傳統中國畫的畫風,沒有出現風格偏移等問題。 模型發佈後,智東西第一時間對HappyHorse 1.1進行了實測,並將其表現與HappyHorse 1.0和近期發佈的Seedance 2.0 Mini進行了對比。從實測結果看來,HappyHorse 1.1較上一代模型的確實現了一定提升,尤其是畫面“油膩感”問題得到了較好的解決。不過,在部分邊緣場景、多參考主體的任務上,其生成結果的真實感、物理規律遵循還有優化空間。 目前,HappyHorse 1.1已經上線阿里雲百鍊平臺和HappyHorse官網。以文生視頻為例,其生成720p清晰度畫面的價格為每秒0.9元(優惠後0.54元),與HappyHorse 1.0保持一致;生成1080p清晰度畫面的價格為每秒1.2元(優惠後為0.72元),與HappyHorse 1.0相比下調了25%。 體驗鏈接:www.happyhorse.cn API接入:bailian.console.aliyun.c

8 小時前