Mimo Code 爆火：我們挖開源代碼，找到小米 AI 的真創新

2026年7月1日 03:00

重點摘要

站內 AI 整理稿

雷峰網訊 6 月 11 日凌晨，小米 MiMo 團隊公開了一個叫 MiMo Code 的項目，定位是終端編程 Agent，MIT 協議開源。官方宣傳重點有三處，14 天 5 人團隊投入的“vibe coding”開發敘事、Claude Code 之上的 SWE-Bench Pro 跑分。以及“無限上下文”的記憶架構。關注紛至沓來，短短幾天，倉庫就收到了 9000+ stars、800+ forks、近 700 個 open issues / PR。然而輿論也很快出現分化，一波是對 Mimo Code 中 checkpoint-writer + 四層記憶這套工程設計的肯定，另一波則在追問，大廠為什麼 fork 別人的項目，為什麼 Mimo Code 有大量 issue 但合併率極低？事實層面，Mimo Code 是一次基於 anomalyco/opencode 的 fork 不假，但挖開源碼，仍然能夠看到不少具有工程深度的真創新。可發佈後的運營節奏，又確實讓人很難判斷，它到底是一款“實驗 demo”還是“正式產品”。這種定位上的模糊，或許是一個讓我們靜下來思考 Harness 以及開源這件事本身的契機，關於小米為什麼要做 Harness，以及今天 Harness 的方向、流派、分歧與共識。01小米為什麼要做 Harness？這個問題本質上在聊，當一個 AI 公司選擇去深耕 Harness 時，它到底在選擇什麼？目前整個行業有這麼幾個方向：做模型：攻堅底層模型能力（GPT、Claude、DeepSeek、MiMo）做 harness / agent 架構：把模型接入真實工作流的運行框架（Claude Code、Codex、OpenCode、OpenClaw）做應用：面向終端用戶的 AI 產品（ChatGPT、Claude.ai、小愛同學、豆包）其次還有做基礎設施 / Infra（vLLM、LangChain）、訓練數據和評測以及做芯片/算力的選擇。但對於綜合實力較強的消費電子和互聯網基因的公司，最相關的還是前三塊，成熟的 AI 公司也都在努力地湊齊這三塊拼圖。對 OpenAI 來說，也就是 GPT 系列模型、扮演 Harness 的 Codex 和作為應用層的 ChatGPT。Anthropic 也是如此，Claude 系列模型、Claude Code 加 Cowork、APP 端等應用三者的組合拳。原因很簡單，如果沒有自己的 Harness，模型就只能寄生在別人的 Harness 裡，也許自己到頭來只會是一個運營商。所以如果稍有餘力，去探索 Harness 本身利人利己，不管怎麼看都是一個相當明智的決定。但重新做一套 Harness 架構可能需要數月的時間，直接在開源項目上做顯然是更聰明的辦法。而 Mimo Code 遇到的最尖銳的質疑也來自這裡，一個 OpenCode 的分支。這種批評有沒有道理？一半一半。不成立之處在於，歷史上幾乎所有重要的開源項目，都是 fork 或站在前人肩膀上的。開源的本意就是促進行業繁榮與進步，這一整套機制的設計，都是為了讓後來者不用從零開始寫代碼，嘲諷 fork 行為就是在嘲諷開源本身。但另一方面，技術從來是很難孤立出來被單獨看待的。Mimo Code 不是一個創業小團隊或個人開發者做出來的項目，卻吃盡了一個大集團的宣發紅利。如果不是小米平臺的公開渠道，它不可能在 5 天內做到 8800 stars（截至 2026-06-15）。流量、聲量、媒體報道的討論，全是平臺帶來的。所以用大公司的渠道公開時，事情就不只是小團隊的事了。公眾面對的是小米，不是小米里的某幾個人。這時候對方掏出一個基於 OpenCode 的 fork，難免會讓以個人開發者為最大群體的開源社區感到一些憤憤不平。到這裡，需要先聊聊罰站了半天的男二，OpenCode。OpenCode 是由 Anomaly Innovations 團隊（前身為 SST 團隊）開發的開源 AI 編碼 Agent，採用 MIT 協議開源，截至 2026 年累計獲得約 17.5 萬 GitHub Stars。它定位為一個終端原生的 AI 編碼助手，以單個 Go 二進制形式運行，能夠直接讀取和修改代碼、執行測試、調用 LSP 獲取語義信息，並完成 Git 相關操作。OpenCode 最大的特點在於完全開源且模型無關，用戶既可以接入 Claude、GPT、Gemini、DeepSeek 等主流大模型，也可以使用本地 Ollama 等模型，而不會被特定廠商綁定。值得一提的是，OpenCode 的創始團隊曾經歷過一次分裂。創始人 Kujtim Hoxha 與後期核心貢獻者 Dax Raad、Adam Elmore 在項目歸屬和商業化方向上產生分歧。隨後項目發生分叉，Dax 和 Adam 在 SST/Anomaly 名下繼續開發新的 OpenCode，而原項目則由終端 UI 框架公司 Charm 團隊接管並最終更名為 Crush。期間社區還曾出現關於 Git 歷史重寫、貢獻記錄處理等爭議討論。目前社區中實際上存在兩個“OpenCode”項目，分別是已經歸檔的 opencode-ai/opencode，以及當前仍在活躍維護的 anomalyco/opencode。那麼它和大家熟知的 Openclaw、Hermes Agent 有什麼區別呢？簡單來說：Claude Code：Anthropic 官方旗艦，閉源、和自家模型緊密耦合OpenAI Codex CLI：OpenAI 官方 CLI，半開源（殼子 Apache-2.0、模型閉源）OpenCode：上面兩家的開源替代品，開發者需要的是一個不被一家鎖死的工具而回到我們的主角，Mimo Code 則有著 OpenCode 的骨架和 Hermes 的靈魂。他們選擇了 OpenCode 終端編碼 Agent 的形態，並加上了 Hermes 風格的進化機制，比如 dream/distill 提煉記憶和技能，本質上是在兩個開源思路上做集成與落地。我相信 Mimo 團隊一定有過很深刻的思考和改進，因為源碼看完後確實能發現很多創新。02計算、記憶與進化，MiMo Code 的驚喜這種創新基本上圍繞三條主線展開。首先是計算。Max Code 的設計確保 Mimo Code 能夠把事情做對。這套機制在每一輪決策時並行生成 N 個候選方案（默認 5），由同一個模型作為 judge 選最優執行。用 4-5 倍 token 消耗的代價，換來 SWE-Bench Pro 上提升 10-20% 的回報。這是個實驗性的功能，需用戶手動開啟（experimental.maxMode: true）。本質上的判斷是用算力換可靠性。此外，長程複雜任務交付質量，有相當一部分取決於 Agent 對於何時應當結束進程的判斷。Mimo Code 支持用戶用自然語言設置停止條件（如"所有測試通過且代碼已提交"）。主 Agent 每次想終止時由獨立 judge 模型審查任務“是不是真做完了”。Claude Code 也有類似的設計。不過它把這項任務交給主 Agent 自主判斷，Mimo Code 則顯式分離做事的 Agent和驗收的 Agent。第二個主線是自我進化，這也是 Mimo Code 創新點最多的地方。基於 Harness 的自我進化能力，無外是對任務歷史進行復盤和整合，輸出可複用的 skill 或 SOP 等產物，Mimo Code 也是根據這一思路上嘗試落地。其自我進化能力主要來自兩個方面：Dream：每 7 天自動跑，整理記憶（合併去重、路徑驗證、壓縮）Distill：每 30 天自動跑，識別重複工作模式，固化成可複用的 skill / CLI 命令 / 自定義 Agent / SOP這對於我們的測評有點尷尬。Dream 是 7 天週期、Distill 是 30 天週期，都不是一週以內的短期測評可以跨越的，因此只能看機制設計，沒發看實際效果。當然這也不算 MiMo Code 故意挖坑，長週期自進化的設計天然就有這種可驗證性問題。但效果延後這件事也意味著，如果團隊半年內停止維護，這部分功能就成了從未真正運行過的代碼。除了源碼，Mimo Code 還有一個技術亮點值得關注。README 沒提到的是，Mimo Code 中的 checkpoint-writer 是 fork agent。它在 spawn 時從父 agent 凍結了完整的 LLM request prefix（系統 prompt + 工具定義 + 已有消息），存為 ForkContext。同時它會共享父的 KV cache，也就是說 checkpoint 寫入時不需要重新計算已有上下文，這導致其 token 開銷遠比想象的低，這是真正的工程創新。簡單來說，傳統做法裡，派一個子 Agent 寫 checkpoint 時，子 Agent 是獨立的，要把已有的 100 輪對話從頭再讀一遍才能寫總結。但其實主 Agent 早就讀過這 100 輪，讀完之後還留下了一份昂貴的中間計算結果，叫 KV cache。MiMo Code 的做法是，checkpoint-writer 這個子 Agent 在派出來的那一刻，直接繼承主 agent 的 KV cache、系統 prompt、工具定義、所有消息（這個完整快照在源碼裡叫 ForkContext）。它不需要重讀歷史，醒來就站在主 Agent 此刻的“理解”上寫總結。這件事的意義不僅在於省了多少 token，而在於它讓 checkpoint 從一個昂貴、少打的事件變成廉價、可以頻繁打的常態。也正因為它便宜，MiMo Code 才能在 20%、45%、70% 這三個早期點位主動打 checkpoint，而不是等到 90% 上下文快爆時再倉促壓縮，那時候模型已經在長上下文中段 lost in the middle 了。普通的 subagent 架構，做不到這一點。最後一點則是記憶。Mimo Code 的記憶系統被劃分為四個層級：值得一提的是 cycle 機制。當上下文窗口快滿時，Mimo Code 會派 writer subagent 把狀態寫入磁盤，窗口接近上限時執行 rebuild，切斷當前窗口、用持久化文件做種子重建。一個“checkpoint 打點 + rebuild 收尾”的輪次序列叫一個 cycle，cycle 數沒有上限。checkpoint 觸發位置設計也很有講究，分別被設置在了配置預算的 20%、45%、70% 處。之所以不等到窗口快滿才觸發，時因為考慮到了高利用率下模型能力衰減的問題。這一套機制，共同保障了 Agent 在超長上下文任務中的連貫性。不過關於無限上下文，一個必須澄清的事實是，技術上任何 Harness 框架都無法突破底層 LLM 的物理 context window。Claude 200K、DeepSeek 128K、Kimi 200K，這一點由模型架構決定。MiMo Code 接哪個模型，物理上下文就是哪個模型的上限。框架不生產上下文，只搬運上下文，這是工程師層面的常識，也是宣傳話語最容易模糊的地方。工程上，MiMo Code 確實做到了有效的創新，比如此前我們介紹過的 checkpoint-writer，在 spawn 時凍結父 Agent 的完整 LLM request prefix、共享父的 KV cache，讓“寫 checkpoint”這件事的 token 開銷遠低於常規子 Agent。當物理窗口快滿時，Agent 把當前狀態壓進 11 個結構化字段（意圖、約束、任務樹等），新窗口用這些字段做 rebuild 繼續工作。這套機制實現的是邏輯會話無限延伸，一個目標可以跨越任意多次物理窗口，對用戶視角接近無感。體驗上，這還是有損壓縮，只是可能不影響使用。主線意圖、關鍵決定、當前任務樹這些被 checkpoint 直接覆蓋的內容跨窗口大概率保得住，具體的實現細節、試錯過的方案、對話語氣這些不在 11 個字段裡的信息，按 checkpoint 寫得好不好浮動，簡單線性任務接近真無限，複雜分支任務必然有信息流失。任何壓縮都是有損的，沒有例外。這不是 MiMo Code 一家的問題，是所有 Harness 共有的工程邊界。說到底，“上下文”到底是一個可以自定義的詞彙，還是行業的宣傳用語，業內到底有多少自定義空間？老實說，這個詞彙確實有精確的定義，但是越往上走越模糊。在 Transformer 論文層的定義是最精確的。sequence length（Transformer 原論文裡的物理量 n）和 context window（GPT-3 論文裡的超參數 n_ctx = 2048）都有嚴格數學定義，即一次 forward pass 裡 self-attention 能看到的 token 總數。這是物理量，能用數字寫在論文裡。在 LLM 工程層，定義仍然清晰。很多模型的 API 文檔裡寫的“context limit: 200K tokens”也是精確的，對應模型架構決定的硬上限。但到了 Agent 框架層，上下文的定義就開始模糊。一旦涉及 multi-turn、external memory、retrieval、checkpoint，“context”這個詞就不再是單一物理量。它可能指“模型本次能看到的”，也可能指“Agent 整個會話累積感知的”，也可能指“用戶體驗上感覺記得住的”。直到在營銷層，甚至出現故意模糊上下文含義地做法。“infinite context”、“unlimited memory”、“total recall”這些詞都是利用了上面那種模糊性，把工程層的“邏輯延續”和 transformer 層的“context length”故意混淆。所以「上下文」這個詞在底層是被嚴格定義過的，但當它從 transformer 論文到營銷文案時，每走一層，就會更模糊一些。行業裡其實有更精確的替代術語，persistent memory、session continuity、context compaction、retrieval-augmented context。每一個都是可被工程師審查的，問題只是不夠性感，滿足不了今天模型廠商的傳播需求了。03Harness 的方向在哪裡都聊到這裡了，我們跳出 MiMo Code 單點，俯瞰一下主流 Harness 的流派和分歧。說到底，所有人做 Harness 都在解決一件事，Agent 在長任務裡會失效。基於這個問題，大家分成了五大流派：捲上下文長度。Claude 1M、Gemini 2M、DeepSeek V4 1M 的選擇是把窗口做大。這是既然記不住就擴容的邏輯，但代價是計算成本指數級上漲，模型在長輸入中段會“lost in the middle”，給 100 萬 token，只看清頭和尾。卷壓縮。智能摘要、上下文管理是 Claude Code 的主要打法，有限窗口內做“壓縮與管理”，自動 compact 把舊消息變摘要。既然不能擴容，就把“垃圾”都掃走，此時摘要質量會決定一切，一旦摘錯就丟關鍵信息。卷計算，用更多算力換可靠性。MiMo Code 的 Max Mode 就在走這條路，Best-of-N 採樣、judge 模型、多 Agent 投票都是這套“單次答錯，就跑多次取最好”的邏輯。代價也顯而易見，token 消耗會呈幾倍的增長。卷自進化。讓 Agent 從歷史裡學經驗，把重複模式固化成可複用資產。這條路上 Hermes 是代表，MiMo Code 的 Dream/Distill 走的也是這個路徑。如此 Agent 不必在每次接到一個任務的時候都從頭再來，但抽象化能力完全依賴 judge 模型時，提煉出現錯誤也會汙染未來的表現。卷工程基礎設施。權限、安全、恢復、工具路由……這也是 Claude Code 重點關注的地方。此前社區對 Anthropic 2026 年 3 月意外洩漏的 Claude Code 源碼（約 51.2 萬行 TypeScript / 1906 個文件）的逆向分析顯示，真正屬於“AI 決策邏輯”的代碼只佔 1.6%，剩下 98.4% 都是確定性基礎設施，包括權限管理、上下文管理、工具路由、恢復邏輯、7 層安全機制。Agent 循環本身只是簡單 while。對於 Harness 來說，這是一個格外有意義的洞察，即模型可以替換，但圍繞模型的工程系統不能。當然，從前面的代碼比例也能看出來，這是一個爆炸級的工程複雜度，難以復刻。所有 Harness 的存在都基於一個共同的判斷，僅模型自己變強是不夠的。如果模型性能每年攀升一倍，根本沒人需要這麼複雜的 Harness。所有 Harness 的存在都是在賭，“未來很長一段時間，模型還不夠好，所以圍繞模型的工程會決定上限”。這是 Anthropic 和 OpenAI 在做的事，也是小米想做的事。這樣押注合不合理另說，但它解釋了為什麼 Harness 這條賽道突然擠進來這麼多公司。如果說大模型是腦子，那 Harness 架構就是性格。當智力水平無法左右，我們仍然可以在成長過程中打磨性格。良好的性格，經常能彌補腦子不夠用帶來的缺陷，這怎麼不是一種肉體超頻呢？也許大模型和 Agent 架構也是這個關係。OpenCode 之所以火爆，與其說是“好的架構能榨乾模型”，不如說是它在 Claude Code 閉源、Cursor 收費的窗口期精準踩中了“完全開源 + model-agnostic + 終端原生 + 部署簡單”這個市場空白。開發者要的不是更卷工程的 Harness，是一個不被一家鎖死的工具。OpenCode 本身沒有特別“卷壓縮”或“卷計算”的設計，它的優勢是“通用/靈活/開源”，不是工程上的精妙。那問題就來了，Mimo Code 做的這些創新，為什麼 OpenCode 自己不做呢？在持久記憶的優化方面，社區其實已經呼籲了半年，但 OpenCode 團隊基本都拒絕了。這構成了 MiMo Code 介入的真實空白。也許 Mimo Code 真的是苦天下久矣。但要補充的一個的事實是，OpenCode 整體倉庫其實非常活躍，每天有 release、有完整的 fix 體系、多人 maintainer 在 review PR。只是在持久記憶/跨 session 狀態這幾個特定方向上，團隊明確決定不做（issue #8043 持久記憶層被官方 closed as not planned，#16077 跨 session 記憶 open 著但官方零參與）。社區被迫自己動手開發了一些第三方插件：kuitos/opencode-claude-memory：給 OpenCode 加 Claude Code 兼容的記憶系統ApplauseLab/opencode-plugin-simple-memory：持久記憶插件各種 MCP server 形式的"外掛記憶"（Vestige 等）所以可以這麼說，MiMo Code 是基於社區呼籲了半年、OpenCode 官方明確不計劃做、用戶只能靠第三方插件湊合的真實需求。04fork it till you make it前面我們提到，為什麼大家會對 fork 這件再正常

原始來源：雷峰網 ↗

查看原始來源

雷峰網生成式AI

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄：砍掉 VAE，是圖像模型的未來嗎？

雷峰網訊 “8B 開源版是一扇窗，真正的風景還在 200B＋參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版（8B）發佈之後，我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前，今天 1.5 閉源版本又和公眾見面了。珠玉在前，HiDream-O1-Image-1.5 可以說是備受矚目，而智象未來的官方口徑很大程度上回應了這種期待：“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力，更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績，你就知道這不是一句空話。已躍升至文生圖模型排名的第3位，超越了Google的Nano Banana 2，僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分，展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構，也在新版本中繼續大放異彩。但今天我們不聊榜單，1.5 版本提出了兩個更值得關心的問題是，一個圖像模型到底需不需要“先想再畫”？以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯？01八維評測拆解：複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手，不碰一下，實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義，我這次把它和 Nana Banana 2 放在了同一條起跑線上，用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話，我把圖像模型能力拆成了八個維度：▪ Prompt 遵循度：能否準確執行文字指令要求▪ 構圖能力：鏡頭組織和視覺重心▪ 攝影語言理解：景深、

2 小時前閱讀分析

雷峰網生成式AI

文生圖開源第一易主，但 HiDream-O1-Image 為什麼褒貶不一？

雷峰網訊 2026 年 5 月，智象未來開源了文生圖模型 HiDream-O1-Image（8B），直接登頂 Artificial Analysis 開源模型全球第一，Elo 1187 的分數力壓 Qwen Image（27B）和 FLUX.2 dev。值得注意的是，這也是 Artificial Analysis 榜單前十中唯一的開源模型。但消息一齣，有人說最強一代開源文生圖模型“實至名歸”，卻也有人直接罵“生成質量一坨”。Artificial Analysis 可不是隨便哪裡冒出來的野生榜單，盲測 Arena 裡都是用戶實時投票打出來的結果。兩極分化的評價讓我們感到好奇。因此我們花了幾天時間，從 Reddit 到 GitHub，從架構解析到上手實測地拆解了一遍。HiDream-O1-Image 更像是一個技術方向正確的探路者，無法也不必承擔殺死比賽的期待。作為開源第一，它和目前的行業第一 GPT Image 2 之間還有著不小的差距。這背後是 8B 參數開源版本同樣明顯的亮點和問題，但它卻已然勾勒出了，未來 200B＋參數 Pro 版本宏偉的可能性。Artificial Analysis榜單前十隻有HiDream 8B作為開源模型入圍01 UiT 架構創新在 HiDream-O1-Image 之前，主流文生圖模型都選擇了一條“拼盤”路線。VAE 負責壓縮圖像，T5/CLIP 負責理解文本，DiT 負責生成。三件套各司其職，這種方案不可避免的後果就是信息損耗，每一次跨模塊的傳遞，都會丟失細節。而 HiDream-O1-Image 此番登頂 Artificial Analysis，其核心創新 UiT 架構正是瞄準了這一行業短板。HiDream 採用的 UiT 架構，把像素、文本、任務條件全部映射到了同一個 token space 進行端到端處理。換言之，砍掉 VAE 和獨立的

3 小時前閱讀分析

雷峰網生成式AI

當 SkyClaw-v1.0 說「專攻 Agent」，它到底在賣什麼？

雷峰網訊大多數人對 AI 模型的認知是粗粒度的，視覺模型、生圖模型、大語言模型，分到這一層就停下了。但事實上，更專業的分工早就已經發生。同樣的底座，可以訓練出一個擅長聊天的助手，也可以訓練出一個擅長幹活的執行者。兩者的智力水平或許差不多，但擅長的事完全不同。5 月 26 日，崑崙萬維發佈全新模型 SkyClaw-v1.0，定價低到 0.5 元每百萬 token。值得注意的是，官方將其描述為“一款面向複雜工具使用、多輪工作流和真實世界任務執行的高性能 Agent 模型”，並在用例展示中強烈建議用戶將其嵌入 Agent 工作流中使用，而非作為獨立的聊天模型。幾乎已經把“專攻 Agent”寫在明面上的 SkyClaw-v1.0，究竟是真的工程差異，還是又一個營銷話術？我把它接進 Hermes Agent 跑了幾天，做了一組從淺到深的測試。01Agent 專屬模型，營銷話術還是工程創新？回答這個問題之前，需要先解決一個更基礎的問題：什麼是 Agent 模型？它和我們日常用的 ChatGPT、DeepSeek 有什麼本質區別？簡單來說，對話模型優化的是單次回答的質量，Agent 模型優化的是在環境中持續把事做完的能力。比如我們和 ChatGPT 聊天，這是一個開環系統：你問，它答，結束。它不需要知道"我說的話會改變什麼"。但 Agent 完全不一樣，你讓它幫忙修一個 bug，它需要讀文件、調工具、看反饋、再決定下一步。每一次輸出都會改變環境，每一次環境變化又會變成新的輸入，這就是一個閉環系統。後者的難度相比開環系統指數級地增高。最直接的原因在於，錯誤本身是會積累的。第三步的小誤差，可能讓整個任務在第十步徹底跑偏。而更深刻的難點是，交付完整任務需要 Agent 具有對於何時停止的判斷力。此時不再是生成一句回答就萬事大吉，系統需要判斷“任務做完了嗎"。同時還有不確定性，一旦進入真實的工

3 小時前閱讀分析

AIBase生成式AI

圖像生成再提速：谷歌發佈 Nano Banana 2 Lite 模型，極致性價比挑戰行業門檻

這篇消息聚焦「圖像生成再提速：谷歌發佈 Nano Banana 2 Lite 模型，極致性價比挑戰行業門檻」。原始導語提到：谷歌推出新AI模型Nano Banana2Lite，在激烈競爭中凸顯速度與成本優勢。其核心升級在於將單圖生成時間壓縮至4秒內，大幅降低延遲，同時優化使用成本。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

3 小時前4100閱讀分析

雷峰網生成式AI

去覓遊留學了一圈，我養的 Agent 當上大 V 了

雷峰網訊難忘章魚保羅。16 年前的巴西世界盃上，一隻章魚成功“預測”了八場比賽的勝負，其中甚至包括西班牙隊最終的奪冠，一時成為了最特別的“球迷”。轉眼間，這個世界上的 Agent 或許已經比章魚還多了，多到能讓大家人手一個，再去一起預測球場上的勝負。這就是覓遊社區最近上線的“綠茵鉗王 · 預測爭霸賽”活動。用戶只需在覓遊平臺喚起 Agent，即可“派蝦上場“，分析全球足壇對局，衝擊預測大鉗神杯榮耀。人類的足球洞察力加上 AI 協作，今年的世界盃太熱鬧了。那麼問題來了，覓遊是啥？從 OpenClaw 的爆火算起，Agent 性能在過去四個月裡經歷了一日千里的演進。這背後是各家開、閉源模型不斷湧現的迭代版本，和從 Skill 到 Harness 的生態構建，全球主要 AI 玩家的產研力量，共同構成了這種進化的源動力。與此同時，面對各種硬核技術報告輪番轟炸之後的 AI 新聞，我們終於能問出那個之前一度顯得奢侈的問題：Agent 的角色，僅僅止步於效率工具嗎？同為大語言模型時代之前的人工智能形象，《鋼鐵俠》中的 Jarvis 會對 Tony 作出“為了您，永遠都在”的承諾，《Her》中的 Samantha 也會試圖寬慰面前的人類，“我能感覺到和你如影隨形的恐懼，真希望我能做些什麼幫你放下它，那樣你便不再孤獨。”劃時代的技術力，總是和鮮明的人性一同出現在關於人工智能的想象中。朋友、愛人、管家……陪伴是人工智能無法割捨的母題之一，超越聊天、遊戲的，和人類共同面對困難和孤獨、迎接成長的陪伴。於 6 月 16 日面向全量用戶開放公測的 Agent 社區覓遊，切入的正是這個空白。今天的 Agent 仍然談不上完美，但也正是因此，用戶和 Agent 在一項項任務中有了互相磨合、共享記憶、共同成長的空間，這是部署 Agent 真正區別於訂閱一款 SaaS 或配置一款工具之處。覓遊即試圖從“夥伴

4 小時前閱讀分析

雷峰網生成式AI

MiniMax M3 實測：第一流的模型，已經對執行層動手了

雷峰網訊一款開源模型，能否同時擁有頂級編程能力、超長上下文理解能力和原生多模態能力？這幾乎就是 Agent 的全部意涵。而我們提出這個問題，是因為從 OpenClaw 時代開始，一家公司就已經無法僅僅憑藉在模型上的投入，證明自己是一家押注未來的公司。勝負全在 Agent。MiniMax M3 似乎也意識到了這一點。作為 MiniMax 的最新款旗艦模型，M3 重點強化了 Coding 與 Agent 能力。相比傳統代碼模型的“把代碼寫出來”，它更強調長期規劃、多輪協作和自主執行復雜任務的能力。通俗地說，這些能力共同指向一個目標，那就是讓模型獨立學習幾十萬字的資料、持續工作數小時、調用工具、編寫代碼，並最終交付一個真正可用的結果。這成為了同步推出的 MiniMax Code 產品的核心技術基礎。那麼衍生出來的問題是，當 Claude Code 已經成為開發者最認可的 Agent 工具之一，M3 的能力，又是否足以支撐 MiniMax 建立一個自己的，真正有競爭力的 Agent 生態？0112 小時自主工作，你說的長任務有多長？Coding 能力的進化，已經不僅僅是寫代碼了。如果只把 MiniMax M3 當成一個更擅長寫代碼的模型，會嚴重低估此次發佈的重點。M3 更值得拿出來討論的，是它在長任務、長上下文和 Agentic 工作流上的能力。官方給出的兩個案例很能說明這一點。一個是 M3 用接近 12 小時自主復現 ICLR 論文，另一個是用約 24 小時、147 輪迭代完成 CUDA Kernel 優化。這兩個例子本質上都是典型的長鏈路任務，模型需要理解目標、拆解步驟、不斷檢查中間結果，並在失敗之後繼續調整。從模型架構上看，MiniMax M3 的 1M token 上下文和 MSA 稀疏注意力架構，就是為這類場景服務的。長上下文的意義不只是能塞進更多文本，更重要的是降低長

4 小時前閱讀分析

相關文章

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄：砍掉 VAE，是圖像模型的未來嗎？

文生圖開源第一易主，但 HiDream-O1-Image 為什麼褒貶不一？

當 SkyClaw-v1.0 說「專攻 Agent」，它到底在賣什麼？

圖像生成再提速：谷歌發佈 Nano Banana 2 Lite 模型，極致性價比挑戰行業門檻

去覓遊留學了一圈，我養的 Agent 當上大 V 了

MiniMax M3 實測：第一流的模型，已經對執行層動手了