MiniMax M3來了!12小時無人幹預煉出4個模型,還把CUDA內核加速到9.4倍
重點摘要
智東西 作者 | 陳駿達 編輯 | 李水青 智東西6月1日報道,今天,MiniMax正式發佈了其新一代旗艦大模型MiniMax M3,在多個衡量編程與Agent能力的基準測試中達到前沿水平。在真實軟件工程能力基準測試SWE-Bench Pro上,MiniMax M3的表現小幅度超過GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。 MiniMax M3採用了全新的稀疏注意力架構——MSA(MiniMax Sparse Attention)。這一架構的引入讓MiniMax M3得以支持100萬上下文窗口,同時也大幅提升了計算速度:與上一代採用全注意力機制的MimiMax M2相比,該模型在prefilling(預填充)階段實現了超過9倍的加速倍率,在decoding(解碼)階段有超過15倍的加速倍率。 同時,MiniMax M3還是一個原生多模態模型,支持圖片和視頻的輸入,並能操作電腦桌面。在多模態測試集OmniDocBench上,MiniMax M3的得分超過Gemini 3.1 Pro,在面向自主Agent的端到端評測框架Claw-Eval上,MiniMax M3得到最高分。 這種能力的結合,讓MiniMax M3得以駕馭高度複雜的任務。在考察模型後訓練能力的PostTrainBench測試中,研究團隊交予M3一項挑戰:在12小時內,從零開始訓練4個僅有預訓練基座的模型。全程無人幹預,M3自主完成了“數據合成、訓練、評測到迭代”的完整閉環,最終驅動這4個模型在數學推理、工具調用、代碼生成等五項任務上習得了基本能力。M3最終得分0.37,緊追GPT-5.5(0.39)與Opus 4.7(0.42),並大幅領先其他模型。 MiniMax M3還可以連續工作24小時,在147次benchmark提交、1959次工具調用之後完成對CUDA內核的優化
智東西 作者 | 陳駿達 編輯 | 李水青 智東西6月1日報道,今天,MiniMax正式發佈了其新一代旗艦大模型MiniMax M3,在多個衡量編程與Agent能力的基準測試中達到前沿水平。在真實軟件工程能力基準測試SWE-Bench Pro上,MiniMax M3的表現小幅度超過GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。 MiniMax M3採用了全新的稀疏注意力架構——MSA(MiniMax Sparse Attention)。這一架構的引入讓MiniMax M3得以支持100萬上下文窗口,同時也大幅提升了計算速度:與上一代採用全注意力機制的MimiMax M2相比,該模型在prefilling(預填充)階段實現了超過9倍的加速倍率,在decoding(解碼)階段有超過15倍的加速倍率。 同時,MiniMax M3還是一個原生多模態模型,支持圖片和視頻的輸入,並能操作電腦桌面。在多模態測試集OmniDocBench上,MiniMax M3的得分超過Gemini 3.1 Pro,在面向自主Agent的端到端評測框架Claw-Eval上,MiniMax M3得到最高分。 這種能力的結合,讓MiniMax M3得以駕馭高度複雜的任務。在考察模型後訓練能力的PostTrainBench測試中,研究團隊交予M3一項挑戰:在12小時內,從零開始訓練4個僅有預訓練基座的模型。全程無人干預,M3自主完成了“數據合成、訓練、評測到迭代”的完整閉環,最終驅動這4個模型在數學推理、工具調用、代碼生成等五項任務上習得了基本能力。M3最終得分0.37,緊追GPT-5.5(0.39)與Opus 4.7(0.42),並大幅領先其他模型。 MiniMax M3還可以連續工作24小時,在147次benchmark提交、1959次工具調用之後完成對CUDA內核的優化,將Hopper FP8硬件峰值利用率從首版7.6%推進至71.3%,實現相較於原始版本的9.4×加速。 與MiniMax M3一同發佈的,還有更新後的AI編程工具MiniMax Code。MiniMax Code專為M3設計、並與M3一起訓練,能夠充分發揮M3在長上下文、Coding/Agentic、原生多模態方面的能力。 得益於M3的原生多模態能力,MiniMax Code具備Computer Use能力,可在電腦端完成跨應用、跨文件、跨系統的操作。 智東西第一時間對MiniMax M3進行了實測體驗,它展現出不錯的Agentic能力和紮實的多模態分析底子:能主動迭代需求、規劃項目並持續反思糾錯,視覺任務中對細節的描述也相當詳盡。但在具體任務交付上,不少結果的完成度還不夠高。 目前,MiniMax M3已在MiniMax Code、Token Plan和API中上線,接下來10天內MiniMax會更新模型的技術報告、以及開源對應的模型權重。MiniMax Code也計劃在未來進行開源。 MiniMax M3的API調用價格以512k上下文為界分為兩檔,並提供優先調用和標準模式兩種方案。512k以內上下文的調用有7天限時五折的優惠,標準模式下的調用價格分別為2.1元/百萬輸入tokens、8.4元/百萬輸出tokens,緩存讀取的價格為0.42元/百萬tokens。 API調用入口: https://platform.minimaxi.com/docs/api-reference/api-overview MiniMax Code: agent.minimaxi.com/download 值得一提的是,MiniMax已在上週向上海證監局提交了上市輔導備案報告,開啟A股上市進程,衝刺A股大模型第一股。截至港股今天午間休市,MiniMax今日股價下跌14.64%至717.00港元,最新市值為2248.77億港元(約合1942.71億元人民幣)。 一、編程與Agent能力成提升重點,能理解真實開發工作流 編程與Agent能力是MiniMax M3本次性能提升的重點,該模型也在多個相關基準測試中達到領先水平。不過,MiniMax發現,目前主流的編程測試基準存在一個比較明顯的侷限:很難完整反映出真實的用戶體驗。 現在大多數編程智能體的訓練和評測,都假設任務是單輪完成的。但在實際的開發場景中,開發者往往會反覆溝通需求、持續調整方案、同時推進多個任務,還要根據中間結果不斷迭代優化。 為了縮小測試基準和真實體驗之間的差距,MiniMax做了一個交互式用戶模擬器框架。這個框架可以模擬真實開發者的協作行為,讓模型在訓練和評測階段,就能接觸到更接近實際工作環境的交互場景。它能還原需求補充、方案討論、反饋修正、連續切換任務,以及複雜項目迭代這些典型行為,讓智能體不只是被動執行指令,而是能夠主動和用戶協作完成任務。 我們迅速體驗了MiniMax M3在編程與Agent任務方面的能力。 在網頁遊戲生成任務中,MiniMax M3製作的賽車遊戲從審美上看還不錯,但是實際試玩後,我們發現這一遊戲的可玩性比較差。 在動態SVG圖生成任務中,MiniMax M3畫出了個大概,但是自行車、鵜鶘的外觀很難說完全準確。 在更為複雜的任務中,我們要求MiniMax M3實現一個類似谷歌文檔的文檔協作系統MVP版本。MiniMax M3拿到這一任務後,先與用戶討論並確定了技術選型,然後進行了10分鐘左右的思考,最終給出項目的完整規劃。 同時,MiniMax M3也考慮到了項目的驗證,規劃了單元測試環節,還考慮到這一項目的關鍵風險與權衡。 這一項目的規模較大,截至發稿,MiniMax M3還在執行CRDT單元測試編寫的任務。從其執行過程中來看,MiniMax M3可以在任務中不斷反思、修改自己的代碼,展現出不錯的自我糾錯與持續優化能力。 總體來看,MiniMax M3在編程Agent任務中確實理解了真實協作流程,能主動溝通、迭代優化,但任務的完成度還有提升空間 二、具備原生多模態能力,訓練數據規模達100萬億個token 多模態能力方面,MiniMax稱M3是一個從Step 0開始進行多模態混合訓練的模型。這種原生多模態的路線能讓不同模態數據的語義空間更天然、更高度的融合。 同時,在數據配比和構成上,MiniMax的大量實驗顯示,Interleaved data(交錯數據)對模型性能帶來的提升,比一般認為的更加關鍵。 這些文本和圖像或其他模態在序列中交替自然排列的數據,對於整體訓練數據的規模擴展也很重要。在MiniMax為這些數據重構整套數據管線後,訓練數據的規模提升至100萬億個token的量級。 我們迅速跑了幾個多模態相關的任務。第一個任務是地點識別,我們將一張隨手拍攝的照片發給MiniMax M3,並讓它推斷具體拍攝地點。 MiniMax M3的確對圖片內容進行了詳細的分析,觀察到了高樓層、防塵網等細節,但它認為圖中沒有具體的地理標誌物,無法直接鎖定城市,只能判斷這裡應該是中國北方城市的郊區。 而在我們此前進行的實測中,DeepSeek識圖模式、Qwen3.7 Max Preview等模型能在相同任務中將地點精確識別到離實際地點10公里左右的範圍內。 我們又嘗試了另一個地鐵線路規劃的任務。上傳後,我們讓MiniMax M3找出一條從昌平西山口到首都機場的最快路線。MiniMax M3推薦的路線其實並不太合理,有點“繞路”了,總耗時也比地圖軟件上的推薦路線要長。 總體來看,MiniMax M3原生多模態的底子紮實,視覺描述詳細,但在視覺QA任務上,跟頭部模型比還有一定差距。 三、採用新型稀疏注意力方案,解碼階段加速15X 看完實測後,MiniMax M3在架構層面的創新也尤為值得關注。此前,MiniMax團隊在新型注意力機制上做了不少探索,但在M2上卻選擇迴歸全注意力,當時他們給出的理由是基礎設施成熟度不夠、評估困難等。而到了這一代的M3,他們推出了一種名為MSA的全新稀疏注意力方案。 稀疏注意力要解決的問題,是全注意力機制計算複雜度平方級增長的“先天缺陷”。稀疏注意力通常通過引入一個初篩階段,來避免複雜度急劇膨脹。與DSA和MoBA等現有方案相比,MSA能夠更精確地對KV進行分塊,從而實現更高的有效上下文覆蓋。 與此同時,MiniMax團隊還在算子層面做了直接優化,採用了以KV塊為外層來聚合命中query的“KV outer gather Q”策略——每個塊只讀取一次,訪存連續。 在M3當前的head配比下,這一設計的計算訪存比顯著優於主流方法,比開源的Flash-Sparse-Attention和FlashMoBA快4倍以上。 在100萬上下文長度下,M3每token的計算量僅為上代模型的1/20。在prefilling階段,加速倍率超過9倍;在decoding階段,加速優勢更達到15倍以上。而且在多個對照實驗中,MSA的絕大部分能力都能與全注意力打平。 結語:國內大模型廠商積極探索架構創新 越來越多的中國大模型廠商,正通過架構維度的創新實現突圍。MiniMax M3本次在稀疏注意力上的探索,以及原生多模態的嘗試,讓這一模型實現了效率和性能的平衡。 可以預見,圍繞新型注意力機制、原生多模態混合訓練與Agent端到端能力的技術探索,將成為下一階段大模型發展的主流趨勢。
Related
相關文章

Edge AI Daily 早報(6月19日)
AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

今天起,Claude Design要把設計師和程序員變成同一種人了
猝不及防!Anthropic深夜甩出Claude Design大更新,設計系統一鍵導入,代碼雙向同步,9大平臺一鍵導出。Anthropic設計師親自下場錄屏:AI跑了八輪自查,才敢把設計稿給你看。

OpenAI 成為 Rust 基金會白金會員,合計贊助 60 萬美元
OpenAI 正式成為 Rust 基金會白金會員,將提供總計 60 萬美元資金,用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

Claude Design 上線首周用戶破百萬,和 Claude Code 共享 AI 配額
Anthropic 今天(6 月 18 日)發佈公告,在宣佈 Claude Design 上線首周用戶規模突破 100 萬後,進一步強化和 Claude Code 的雙向聯動,實現從設計到編程的無縫工作流。
谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元
智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

微軟,考慮接入DeepSeek
這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。