MiniMax M3來了！12小時無人幹預煉出4個模型，還把CUDA內核加速到9.4倍

2026年6月1日 04:06

重點摘要

站內 AI 整理稿

智東西作者 | 陳駿達編輯 | 李水青智東西6月1日報道，今天，MiniMax正式發佈了其新一代旗艦大模型MiniMax M3，在多個衡量編程與Agent能力的基準測試中達到前沿水平。在真實軟件工程能力基準測試SWE-Bench Pro上，MiniMax M3的表現小幅度超過GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。 MiniMax M3採用了全新的稀疏注意力架構——MSA（MiniMax Sparse Attention）。這一架構的引入讓MiniMax M3得以支持100萬上下文窗口，同時也大幅提升了計算速度：與上一代採用全注意力機制的MimiMax M2相比，該模型在prefilling（預填充）階段實現了超過9倍的加速倍率，在decoding（解碼）階段有超過15倍的加速倍率。同時，MiniMax M3還是一個原生多模態模型，支持圖片和視頻的輸入，並能操作電腦桌面。在多模態測試集OmniDocBench上，MiniMax M3的得分超過Gemini 3.1 Pro，在面向自主Agent的端到端評測框架Claw-Eval上，MiniMax M3得到最高分。這種能力的結合，讓MiniMax M3得以駕馭高度複雜的任務。在考察模型後訓練能力的PostTrainBench測試中，研究團隊交予M3一項挑戰：在12小時內，從零開始訓練4個僅有預訓練基座的模型。全程無人干預，M3自主完成了“數據合成、訓練、評測到迭代”的完整閉環，最終驅動這4個模型在數學推理、工具調用、代碼生成等五項任務上習得了基本能力。M3最終得分0.37，緊追GPT-5.5（0.39）與Opus 4.7（0.42），並大幅領先其他模型。 MiniMax M3還可以連續工作24小時，在147次benchmark提交、1959次工具調用之後完成對CUDA內核的優化，將Hopper FP8硬件峰值利用率從首版7.6%推進至71.3%，實現相較於原始版本的9.4×加速。與MiniMax M3一同發佈的，還有更新後的AI編程工具MiniMax Code。MiniMax Code專為M3設計、並與M3一起訓練，能夠充分發揮M3在長上下文、Coding/Agentic、原生多模態方面的能力。得益於M3的原生多模態能力，MiniMax Code具備Computer Use能力，可在電腦端完成跨應用、跨文件、跨系統的操作。智東西第一時間對MiniMax M3進行了實測體驗，它展現出不錯的Agentic能力和紮實的多模態分析底子：能主動迭代需求、規劃項目並持續反思糾錯，視覺任務中對細節的描述也相當詳盡。但在具體任務交付上，不少結果的完成度還不夠高。目前，MiniMax M3已在MiniMax Code、Token Plan和API中上線，接下來10天內MiniMax會更新模型的技術報告、以及開源對應的模型權重。MiniMax Code也計劃在未來進行開源。 MiniMax M3的API調用價格以512k上下文為界分為兩檔，並提供優先調用和標準模式兩種方案。512k以內上下文的調用有7天限時五折的優惠，標準模式下的調用價格分別為2.1元/百萬輸入tokens、8.4元/百萬輸出tokens，緩存讀取的價格為0.42元/百萬tokens。 API調用入口： https://platform.minimaxi.com/docs/api-reference/api-overview MiniMax Code： agent.minimaxi.com/download 值得一提的是，MiniMax已在上週向上海證監局提交了上市輔導備案報告，開啟A股上市進程，衝刺A股大模型第一股。截至港股今天午間休市，MiniMax今日股價下跌14.64%至717.00港元，最新市值為2248.77億港元（約合1942.71億元人民幣）。一、編程與Agent能力成提升重點，能理解真實開發工作流編程與Agent能力是MiniMax M3本次性能提升的重點，該模型也在多個相關基準測試中達到領先水平。不過，MiniMax發現，目前主流的編程測試基準存在一個比較明顯的侷限：很難完整反映出真實的用戶體驗。現在大多數編程智能體的訓練和評測，都假設任務是單輪完成的。但在實際的開發場景中，開發者往往會反覆溝通需求、持續調整方案、同時推進多個任務，還要根據中間結果不斷迭代優化。為了縮小測試基準和真實體驗之間的差距，MiniMax做了一個交互式用戶模擬器框架。這個框架可以模擬真實開發者的協作行為，讓模型在訓練和評測階段，就能接觸到更接近實際工作環境的交互場景。它能還原需求補充、方案討論、反饋修正、連續切換任務，以及複雜項目迭代這些典型行為，讓智能體不只是被動執行指令，而是能夠主動和用戶協作完成任務。我們迅速體驗了MiniMax M3在編程與Agent任務方面的能力。在網頁遊戲生成任務中，MiniMax M3製作的賽車遊戲從審美上看還不錯，但是實際試玩後，我們發現這一遊戲的可玩性比較差。在動態SVG圖生成任務中，MiniMax M3畫出了個大概，但是自行車、鵜鶘的外觀很難說完全準確。在更為複雜的任務中，我們要求MiniMax M3實現一個類似谷歌文檔的文檔協作系統MVP版本。MiniMax M3拿到這一任務後，先與用戶討論並確定了技術選型，然後進行了10分鐘左右的思考，最終給出項目的完整規劃。同時，MiniMax M3也考慮到了項目的驗證，規劃了單元測試環節，還考慮到這一項目的關鍵風險與權衡。這一項目的規模較大，截至發稿，MiniMax M3還在執行CRDT單元測試編寫的任務。從其執行過程中來看，MiniMax M3可以在任務中不斷反思、修改自己的代碼，展現出不錯的自我糾錯與持續優化能力。總體來看，MiniMax M3在編程Agent任務中確實理解了真實協作流程，能主動溝通、迭代優化，但任務的完成度還有提升空間二、具備原生多模態能力，訓練數據規模達100萬億個token 多模態能力方面，MiniMax稱M3是一個從Step 0開始進行多模態混合訓練的模型。這種原生多模態的路線能讓不同模態數據的語義空間更天然、更高度的融合。同時，在數據配比和構成上，MiniMax的大量實驗顯示，Interleaved data（交錯數據）對模型性能帶來的提升，比一般認為的更加關鍵。這些文本和圖像或其他模態在序列中交替自然排列的數據，對於整體訓練數據的規模擴展也很重要。在MiniMax為這些數據重構整套數據管線後，訓練數據的規模提升至100萬億個token的量級。我們迅速跑了幾個多模態相關的任務。第一個任務是地點識別，我們將一張隨手拍攝的照片發給MiniMax M3，並讓它推斷具體拍攝地點。 MiniMax M3的確對圖片內容進行了詳細的分析，觀察到了高樓層、防塵網等細節，但它認為圖中沒有具體的地理標誌物，無法直接鎖定城市，只能判斷這裡應該是中國北方城市的郊區。而在我們此前進行的實測中，DeepSeek識圖模式、Qwen3.7 Max Preview等模型能在相同任務中將地點精確識別到離實際地點10公里左右的範圍內。我們又嘗試了另一個地鐵線路規劃的任務。上傳後，我們讓MiniMax M3找出一條從昌平西山口到首都機場的最快路線。MiniMax M3推薦的路線其實並不太合理，有點“繞路”了，總耗時也比地圖軟件上的推薦路線要長。總體來看，MiniMax M3原生多模態的底子紮實，視覺描述詳細，但在視覺QA任務上，跟頭部模型比還有一定差距。三、採用新型稀疏注意力方案，解碼階段加速15X 看完實測後，MiniMax M3在架構層面的創新也尤為值得關注。此前，MiniMax團隊在新型注意力機制上做了不少探索，但在M2上卻選擇迴歸全注意力，當時他們給出的理由是基礎設施成熟度不夠、評估困難等。而到了這一代的M3，他們推出了一種名為MSA的全新稀疏注意力方案。稀疏注意力要解決的問題，是全注意力機制計算複雜度平方級增長的“先天缺陷”。稀疏注意力通常通過引入一個初篩階段，來避免複雜度急劇膨脹。與DSA和MoBA等現有方案相比，MSA能夠更精確地對KV進行分塊，從而實現更高的有效上下文覆蓋。與此同時，MiniMax團隊還在算子層面做了直接優化，採用了以KV塊為外層來聚合命中query的“KV outer gather Q”策略——每個塊只讀取一次，訪存連續。在M3當前的head配比下，這一設計的計算訪存比顯著優於主流方法，比開源的Flash-Sparse-Attention和FlashMoBA快4倍以上。在100萬上下文長度下，M3每token的計算量僅為上代模型的1/20。在prefilling階段，加速倍率超過9倍；在decoding階段，加速優勢更達到15倍以上。而且在多個對照實驗中，MSA的絕大部分能力都能與全注意力打平。結語：國內大模型廠商積極探索架構創新越來越多的中國大模型廠商，正通過架構維度的創新實現突圍。MiniMax M3本次在稀疏注意力上的探索，以及原生多模態的嘗試，讓這一模型實現了效率和性能的平衡。可以預見，圍繞新型注意力機制、原生多模態混合訓練與Agent端到端能力的技術探索，將成為下一階段大模型發展的主流趨勢。

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

2 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

15 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

19 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

22 小時前閱讀分析