MiniMax M3 實測：第一流的模型，已經對執行層動手了

2026年7月1日 02:46

重點摘要

站內 AI 整理稿

雷峰網訊一款開源模型，能否同時擁有頂級編程能力、超長上下文理解能力和原生多模態能力？這幾乎就是 Agent 的全部意涵。而我們提出這個問題，是因為從 OpenClaw 時代開始，一家公司就已經無法僅僅憑藉在模型上的投入，證明自己是一家押注未來的公司。勝負全在 Agent。MiniMax M3 似乎也意識到了這一點。作為 MiniMax 的最新款旗艦模型，M3 重點強化了 Coding 與 Agent 能力。相比傳統代碼模型的“把代碼寫出來”，它更強調長期規劃、多輪協作和自主執行復雜任務的能力。通俗地說，這些能力共同指向一個目標，那就是讓模型獨立學習幾十萬字的資料、持續工作數小時、調用工具、編寫代碼，並最終交付一個真正可用的結果。這成為了同步推出的 MiniMax Code 產品的核心技術基礎。那麼衍生出來的問題是，當 Claude Code 已經成為開發者最認可的 Agent 工具之一，M3 的能力，又是否足以支撐 MiniMax 建立一個自己的，真正有競爭力的 Agent 生態？0112 小時自主工作，你說的長任務有多長？Coding 能力的進化，已經不僅僅是寫代碼了。如果只把 MiniMax M3 當成一個更擅長寫代碼的模型，會嚴重低估此次發佈的重點。M3 更值得拿出來討論的，是它在長任務、長上下文和 Agentic 工作流上的能力。官方給出的兩個案例很能說明這一點。一個是 M3 用接近 12 小時自主復現 ICLR 論文，另一個是用約 24 小時、147 輪迭代完成 CUDA Kernel 優化。這兩個例子本質上都是典型的長鏈路任務，模型需要理解目標、拆解步驟、不斷檢查中間結果，並在失敗之後繼續調整。從模型架構上看，MiniMax M3 的 1M token 上下文和 MSA 稀疏注意力架構，就是為這類場景服務的。長上下文的意義不只是能塞進更多文本，更重要的是降低長任務中的信息斷裂。比如一個真實代碼倉庫、一個複雜需求文檔、一組歷史修改記錄，這些真實需求都不是幾千 token 就能講清楚的。如果模型每次只能看到局部，就很容易出現“前面答得對，後面改崩了”的情況。而更長的上下文窗口，則給了模型跨文件、跨階段理解任務的可能。02創業模擬器，M3 與 Sonnet 4.6 的直接競技為了測試 M3 的代碼交付能力，我設計了一個相對完整的小項目，讓模型從零實現一個“創業模擬器”小遊戲。同樣接受這項考驗的，還有 Claude Sonnet 4.6。請從零開發一個 AI 創業模擬器 Web App。要求：1. 用戶可以創建一家初創公司，輸入公司名、行業、初始資金、目標用戶。2. 遊戲採用回合制，每一輪代表一個月。3. 用戶每輪可以選擇 3 個經營決策，例如產品開發、市場推廣、招聘、融資、降本、用戶調研。4. AI 根據當前公司狀態和用戶決策生成月度報告。5. 頁面需要展示資金、用戶數、收入、團隊士氣、產品完成度、市場熱度、競爭壓力。6. 每輪結束後更新這些指標。7. 需要有成功和失敗結局。8. 使用 React + Tailwind 實現，界面要像一個現代化創業經營遊戲。9. AI 接口可以先用 mock 數據，但代碼結構要方便之後接入真實 LLM API10。10. 請保證項目可以運行，並提供啟動方式。提示詞並不複雜，但這項任務其實很適合測試 Coding Agent 的綜合能力。因為它同時考驗需求理解、狀態管理、UI 設計、數值系統和平衡性。用戶在遊戲中扮演創業者，每一輪需要決定做什麼產品、招什麼人、怎麼定價、要不要融資、如何營銷，AI 則根據這些決策反饋用戶增長、現金流、團隊士氣、市場反應和競爭壓力。具體來說，真正的難點主要包括三個維度：狀態管理：小遊戲一旦進入多輪決策，就很容易出現頁面刷新後數據丟失、上一輪數據覆蓋下一輪、歷史記錄無法回看、進度條超過 100% 之類的問題。甚至遊戲只是這些問題的高發場景，類似的需求，在很多軟件開發任務中都可以看到。UI 表現：很多模型生成的“遊戲”其實只是一個表單加幾個按鈕，功能能跑，但一眼看過去就有股“塑料感”。數值平衡：這是最難的一環，數值設計不當很容易出現一兩輪遊戲之後現金流爆炸、用戶數異常增長、遊戲迅速失控的問題，最終影響可玩性。什麼樣的數值設計可以說是平衡？這需要模型在複雜任務拆解之外，更有一層對遊戲的審美和品味。M3 用大約 11 分鐘完成了程序編寫和代碼檢查。最終生成的小遊戲可以正常運行，界面簡潔，並且帶有一定動畫效果。更重要的是，它基本處理好了前面提到的幾個核心難點，公司數據展示清晰，歷史記錄可以回看，遊戲進度和經營指標也沒有明顯混亂。作為對比的是，Sonnet 4.6 完成同一任務大約用了 19 分鐘。它同樣讓遊戲正常跑了起來，還在內容設計上增加了一點小巧思。比如加入突發事件，讓遊戲難度和不確定性更強，遊戲性確實更高。這是個很有意思的差異。基於 M3 的 MiniMax Code 更像是一個執行力很強的工程師 Agent，它會非常忠實地圍繞你的 prompt 做交付。優勢也在這裡，動作快，完成度高，指令給過去，他會圍繞最終產物，把頁面、邏輯、狀態和基礎交互一起搭出來。而基於 Sonnet 4.6 的 Claude Code 則更像一個會主動補充產品想法的合作者，它可能會在需求之外加入一些額外的設計。這兩種風格沒有絕對好壞。如果你的需求非常明確，希望模型嚴格按照指令快速完成，M3 的表現會非常令人舒適，畢竟誰不想要一個指哪打哪的員工。但如果你期待模型主動補完產品創意、增強玩法、提出更多可能性，Sonnet 4.6 目前在創造性擴展上仍然更有優勢。03看圖寫前端：原生多模態能力實測相比於長任務和 Coding 能力，多模態可能是 MiniMax M3 身上最容易被低估的一項能力。很多模型宣傳自己支持圖片輸入，但實際體驗下來，往往停留在“看圖說話”的階段，能夠描述頁面裡有哪些元素，卻很難將這些視覺信息進一步轉化為可運行的代碼。而 M3 此次給我的最大驚喜恰恰在於，它展現出了從視覺理解到工程交付的完整鏈路能力。為了測試這一點，我選擇了一個非常直接的場景，將 MiniMax 自己的官網首頁作為測試對象。我向 M3 提供了兩張首頁截圖，並要求它使用 React 與 Tailwind CSS 對頁面進行復刻。請根據這張網頁截圖，使用 React + Tailwind CSS 完整復刻頁面。要求：1. 儘可能還原原頁面的：整體佈局字體層級卡片設計配色方案間距與留白按鈕樣式2. 頁面必須響應式，適配：DesktopTabletMobile3. 識別並還原：Hero Section導航欄Feature CardsCTA ButtonBannerFooter4. 使用組件化結構：Navbar.tsxHero.tsxFeatureCard.tsxFooter.tsx5. 不要使用佔位符代碼。6. 輸出完整可運行代碼。讓生成頁面與截圖視覺相似度達到 90% 以上。之所以選擇官網首頁，是因為這類營銷頁面往往包含大量視覺設計細節：導航欄、卡片模塊、漸變背景、按鈕樣式、信息層級以及複雜的頁面佈局。對於模型而言，這不僅是在識別圖片中的文字，更是在理解整個頁面背後的設計邏輯。最終結果讓我有些意外。首先是頁面結構的還原度。僅憑兩張截圖，M3 對首頁整體佈局的復刻已經達到了極高的水平。導航欄、Hero 區域、功能介紹模塊以及各個內容板塊之間的層級關係都被準確識別出來，頁面整體結構與原網頁幾乎保持一致。如果只從宏觀佈局來看，幾乎已經到了以假亂真的程度。剩下的差異主要集中在一些字體間距、元素對齊方式等細節層面。但就是把這些不一樣的局部畫面單獨截圖出來，你都得回憶一下，MiniMax 那個正版的官網畫面是不是就長這樣。更有意思的是，M3 並沒有機械地“照抄截圖”。由於測試時我只提供了首頁部分內容，理論上模型無法得知頁面下半部分應該如何設計。但在實際生成過程中，M3 並沒有簡單地留下空白，而是主動分析了官網整體的視覺風格和配色特點，自行為後續頁面補充了若干風格一致的內容模塊。雖然這些內容並不完全對應真實官網，但無論是配色方案還是設計語言，都與原頁面保持了高度一致，整體看起來並不會讓人產生明顯的割裂感。這一點其實非常重要。因為它說明模型並不僅僅是在做 OCR 或者截圖復刻，而是在嘗試理解頁面背後的設計規律，並利用這種理解完成合理推斷。除了視覺層面的還原之外，M3 對交互元素的識別也給我留下了不錯的印象。在生成結果中，模型正確識別出了導航欄、按鈕等交互式組件，併為這些元素賦予了實際功能，例如導航欄中的菜單項可以直接跳轉到對應內容區域，按鈕組件也被正確實現為可點擊元素。更進一步，M3 還主動為頁面補充了交互動效。當鼠標懸停在按鈕上時，頁面會出現過渡動畫與視覺反饋。這些效果並沒有出現在我的提示詞中，而是模型根據現代 Web 產品的設計習慣自行加入的細節。綜合來說，M3 展現出了相當強的競爭力。它不僅能夠理解網頁截圖中的結構信息，還能識別交互邏輯、推斷缺失內容，並最終生成一個能夠運行、能夠交互、視覺風格高度一致的前端頁面。當然，它並非沒有不足。頁面中仍然存在一些排版細節上的偏差，但考慮到整個過程幾乎完全由模型自主完成，並且輸入僅僅是兩張截圖，這樣的結果已經遠超最初的預期。04價格也是生產力價格是大模型競爭中最現實的話題。過去一年，AI 行業幾乎經歷了一輪全面價格戰，DeepSeek 用極低的 API 成本掀翻市場，OpenAI、Anthropic 和 Google 持續提升模型能力的同時也在不斷調整定價策略。從官方定位來看，M3 主打的是 Frontier Coding、Agent、多模態與百萬級上下文能力。這首先決定了它的競爭對手，不是那些用於智能客服、會議紀要的中端模型，而是當前行業最前沿的一批旗艦模型，比如 Claude Opus 4.8、GPT-5.5、Gemini 2.5 Pro、GLM-5.2 以及 DeepSeek V4-Pro 等。直接看價格，目前 Claude Opus 4.8 的 API 價格為輸入 5 美元/百萬 Token、輸出 25 美元/百萬 Token。GPT-5.5 為輸入 5 美元、輸出 30 美元。DeepSeek V4-Pro 在最新降價後為輸入 0.435 美元、輸出 0.87 美元。相比之下，MiniMax M3 官方價格為輸入 0.6 美元、輸出 2.4 美元。如果以 Claude Opus 4.8 為基準，M3 的輸入成本僅約為其 12%，輸出成本不到 10%，即便面對 OpenAI 最新的 GPT-5.5，M3 的調用成本也只有其十分之一左右。換句話說，在同樣消耗 100 萬輸入 Token 和 100 萬輸出 Token 的情況下，使用 GPT-5.5 需要 35 美元，使用 Claude Opus 4.8 需要30美元，而 M3 僅需 3 美元。對於用量不大的普通用戶來說，這種差異尚不明顯，但如果你是已經習慣了每天靠大量 Agent 處理長文檔、批量生成代碼或者構建 AI 應用的開發者，成本差距則會被迅速放大。假設一個項目每月消耗 1000 萬輸入 Token 和 1000 萬輸出 Token，使用 Claude Opus 4.7 的成本約為 300 美元，而使用 M3 僅需 30 美元左右。在保持接近旗艦模型能力的前提下，十倍左右的成本優勢已經足以影響技術選型。當然，價格從來不能脫離能力討論。如果 M3 只有廉價可圈可點，那麼這樣的比較並沒有意義。但有意思的是，在 MiniMax 公佈的多項評測中，M3 瞄準的正是 Claude Opus 4.7、GPT-5.5 和 Gemini 旗艦模型所在的競爭區間。在 SWE-Bench Pro 等代碼能力測試中，M3 已經超過 GPT-5.5 與 Gemini 旗艦模型，接近 Claude Opus 4.7，在長任務 Agent 場景下，官方展示的論文復現和 CUDA 優化案例甚至能夠持續自主運行十幾個小時以上。更關鍵的是，M3 並非依靠閹割能力來換取低價格。如前所述，這份價格背後是 100 萬 Token 上下文窗口、原生多模態架構以及 Agent 工作流能力，而 Claude、GPT 和 Gemini 恰恰也是沿著同樣的方向演進。換句話說，M3 試圖參與競爭的並不是“便宜模型市場”，而是最昂貴、也是技術含量最高的旗艦模型市場。因此，如果只看絕對價格，DeepSeek V4-Pro 仍然是目前最激進的價格屠夫。但如果同時考慮Coding、Agent、多模態和超長上下文這些旗艦能力，那麼 M3 可能是目前整個市場裡最具衝擊力的性價比選手之一。05MiniMax Code 的野心幾項測試下來，MiniMax M3 給我的感受是，它已經可以位列國產模型裡最值得關注的 Coding / Agentic 底座模型之一，尤其在長任務、長上下文、多模態輸入和代碼交付方面，展現出了很強的競爭力。注意底座模型這個定位，此前城頭變幻大王旗的各種 Benchmark 一度讓性能水平成為衡量大模型的唯一角度。但是當我們討論 Agent，討論落地，更現實的維度是可用性。MiniMax M3 看起來無意再去挑戰“最強模型”的地位，而是在嘗試成為 Agent 時代最具性價比的基礎設施。這是一條更清晰的路徑。隨著 Claude Code、Codex 等 Agent 產品逐漸成為開發者的主要入口，模型越來越迴歸其原本的角色，即一種底層能力。對於開發者而言，一個模型是否能完成長任務、調用工具、理解圖像並控制成本，遠比單純跑分更重要。從這個角度看，MiniMax 的策略相當清晰。M3 在長上下文、多模態和 Coding 能力上穩穩躋身第一梯隊，同時又以遠低於 GPT、Claude 的價格，將這些能力帶到更多真實工作流之中。真實工作流，這也是 MiniMax Code 此刻問世的原因。賣 Token 的商業模式曇花一現，事實是開發者用腳投票的時候毫不猶豫，API 供應商越來越容易被替代。在這種情況下，模型能力領先 3 個月，不代表就有 3 個月的商業優勢。這迫使模型廠商追問，為什麼要把最有議價權的入口拱手讓人？此外今天生產級的 Agent，已經是一種高度集成的系統工程能力。一個複雜任務的交付水平，只有部分取決於模型，還有部分取決於 Agent Runtime。如果找對測評角度，每家都有 “SOTA” 模型，那麼執行層的爭奪將成為新的競爭焦點之一。所以 MiniMax Code 是一個寫代碼的軟件嗎？這仍然是 IDE 的視角。它實際上是模型、代碼庫上下文、工具調用、執行環境、工作流編排，所有決定 Agent 最終效果的東西都在這裡了。有了這些，MiniMax 才有了爭奪開發者工作流入口的資格。雷峰網文章

原始來源：雷峰網 ↗

查看原始來源

AIBase生成式AI

歷時18個月研發，葡萄牙國家級大模型“阿馬利婭”正式亮相

7月1日，葡萄牙發佈國家AI大語言模型“阿馬利婭”，以葡語為核心構建本土底座，驅動公共服務數字化，強化本國及歐洲技術主權。歷時18個月，將全面賦能教育、國防、文醫政等，確保迭代與自主AI基建。

4 小時前6400閱讀分析

雷峰網生成式AI

Anthropic、OpenAI同一天落子AI4S賽道，巨頭混戰從「拼模型」轉向「卡生態」

6月30日，Anthropic和OpenAI同時在AI4S賽道投下了各自的籌碼。Anthropic發佈了科研智能體工作臺Claude Science，明確表態“不依賴新模型”，通過工作流整合現有能力來承包科學家的日常研究流程。OpenAI推出了GeneBench-Pro，一套覆蓋基因組學、定量生物學等10個領域的評測基準，其測試數據顯示，在129個真實科研workflow題目中，即便是最強的GPT-5.6 Sol，端到端通過率也只有28.7%。兩家巨頭的方向看似不同，但都是基於同一個判斷：AI4S的瓶頸已不是模型不夠強，而是模型遠未做到真正的端到端。基於這一共識，Anthropic的選擇是把現有模型裝進可擴展的工作臺，用工具鏈和流程彌補模型的不可靠；OpenAI的選擇則是搶先定義“什麼是科研任務的完成”，把話語權鎖進標準裡。而在此之前，Google DeepMind已憑藉AlphaFold等基礎模型在AI+科學領域深耕多年，其Gemini for Science平臺正將專有資產與數據庫捆綁，以平臺整合的方式切入同一市場。AI4S的戰局，已經悄然進入“巨頭生態混戰”階段，從模型能力的單點比拼，全面切換到了生態位卡位與工作流整合的戰場。01AI4S撞上了一塊怎樣的“天花板”為什麼三大巨頭偏偏在這個時間點，不約而同地把戰火燒到AI4S的底層基礎設施？開頭提到，OpenAI這次在GeneBench-Pro中設計了129道題目，完整模擬了真實科研工作流：從原始數據清洗、質控、建模、診斷，一直到得出結論。評分標準是嚴苛的二元制：只有全部決策正確才算通過。也就是說，哪怕中間分析步驟全對，只要最終結論錯了，這道題就是零分。數據顯示，OpenAI最強的GPT-5.6 Sol在Max推理設置下的通過率也只有28.7%，而在非GPT模型中表現最強的Claude Opus 4.8，其通過率僅達到1

6 小時前閱讀分析

雷峰網生成式AI

曝美國最強AI公司暗藏針對中國的「監視代碼」，已持續3個月；優必選CEO：珍惜做牛馬的時光，20年後全是機器人幹活；iPhone17價格將迎調整

要聞提示1.美國最強AI公司被曝暗藏針對中國的“監視代碼”，官方回應：將在更新中刪除2.優必選CEO：珍惜做牛馬的時光吧，20年後全是機器人幹活3.小米人事調整：中國區總裁王曉雁不再兼任銷售運營一部總經理，陳幕楠接任4.山姆砍單多個蘋果漲價前已付款訂單，轉頭加價600元新上架遭質疑5.百度持續加碼AI技術投入：再次引入年輕技術人才6.消息稱iPhone17價格即將迎來調整7.“家電不換成格力，憑什麼分紅？” 董明珠股東會言論惹爭議，婉拒簽名稱“我不是雷總”8.特斯拉超級芯片工廠迎來首位高管，英特爾17年老將掌舵今日頭條美國最強AI公司被曝暗藏針對中國的“監視代碼”，官方回應：將在更新中刪除7 月 1 日消息，近日，有外國網民在海外社交平臺上爆出猛料，稱美國目前最強的AI科技企業之一Anthropic推出的AI編程工具Claude Code的客戶端裡，暗藏著一段針對中國的“監視代碼”，且該代碼已經存在了長達3個月之久。網友稱，這段代碼會在用戶使用代理時，暗中進行兩項檢測：檢查系統時區是否為中國時區（Asia / Shanghai 或 Asia / Urumqi），以及 URL 是否匹配一份包含 147 個條目的域名清單（包括百度、阿里巴巴、字節跳動等中國科技企業及 AI 實驗室的域名，以及大量 Claude API 中轉服務地址）。而一旦檢測到上述情況，那段可疑的代碼就會在用戶使用其程序向Anthropic的大模型發送指令時，悄悄篡改系統提示詞中的日期格式和部分表達符號，向Anthropic 的服務器發送隱藏標記，從而令該公司識別到這些中國用戶。對此，有開發者直言：“這甚至有些類似後門。”在網友們的質疑聲浪下，Anthropic公司Claude Code產品負責人Thariq Shihipar在7月1日回應稱，這是“一個實驗”，目的是防止未經授權的賬戶轉售以及防範模型蒸餾攻擊

7 小時前閱讀分析

MarkTechPost AI生成式AI

美國出口管制解除，Anthropic 於7月1日重新部署 Claude Fable 5，並新增網路安全分類器

Anthropic 重新部署其最強大的通用模型 Claude Fable 5。該公司於6月30日宣佈美國出口管制已解除，這項管制先前涵蓋 Claude Fable 5 與 Claude Mythos 5。Fable 5 已於7月1日（週三）重新向全球用戶開放，而 Mythos 5 則恢復提供給特定美國組織。這些模型於6月12日被下架，原因是美國政府指令限制其僅供非外國籍人士使用，但 Anthropic 無法即時驗證用戶國籍，因此暫停所有人使用。本文說明觸發封鎖的原因，涵蓋新的安全防護機制與提出的越獄框架，並比較 Fable 5 與 GLM-5.2 等競爭對手的表現。快速事實：模型為 Claude Fable 5（一種經安全處理的 Mythos 級模型），事件為7月1日重新部署。

11 小時前閱讀分析