雷峰網生成式AI

國產 Coding 爭霸賽:MiniMax 爆冷登頂,DeepSeek 性價比稱王

2026年7月1日 05:34

重點摘要

雷峰網訊 你很難把 Coding 僅僅視為大模型的諸多能力維度之一。和單純的文本或圖像生成相比,代碼更明確的規則、嚴格的語法和可驗證的結果只是部分原因。更為特殊之處在於,在 ChatBot 到 Agent 這條進化鏈上,Coding 意味著的工具調用、數據處理和複雜流程自動化,幾乎承載了模型從“會說”走向“能幹”的絕大部分期待。一個值得關注的變化是,Coding 正在從眼花繚亂的 Benchmark 榜單中脫穎而出,成為一種模型競爭的基礎設施級指標。無論 OpenAI、Anthropic、Google 還是其他廠商,在發佈新模型時幾乎都會將 Coding 場景作為大秀肌肉的選擇。某種意義上,這就是正在形成中的行業共識,即代碼能力不僅意味著編程水平,更是衡量模型邏輯推理、工具使用和實際生產力的重要角度。我們也很好奇,國產模型如今在 Coding 這條卷生卷死的賽道里已經進化到了何種程度。為此我們選擇了五款以編程能力見長的國產模型,包括 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3,將它們放進同一個真實工程任務的場景裡,並讓 Claude Opus 4.7 擔任裁判模型,從可運行性、正確性、可讀性、可維護性四個維度量化評分。接下來就看看,各家模型的表現如何。編者注:此次測試選用模型,為截至 2026 年 6 月 10 日各家最新款旗艦模型,故隨後發佈的 Kimi K2.7 及 GLM-5.2 均未參賽。對上述兩款模型的測試也將陸續發佈,歡迎關注。01不寫八股文,真正的壓力測試Coding 能力的測試也大有講究。HumanEval、MBPP 這些業界常見的 Coding Benchmark,本質上都在測試模型會不會寫代碼。最常見的模式就是給出一道算法題,看模型能不能給出正確的解法。只能說程序員有自己的八股文

站內 AI 整理稿

雷峰網訊 你很難把 Coding 僅僅視為大模型的諸多能力維度之一。和單純的文本或圖像生成相比,代碼更明確的規則、嚴格的語法和可驗證的結果只是部分原因。更為特殊之處在於,在 ChatBot 到 Agent 這條進化鏈上,Coding 意味著的工具調用、數據處理和複雜流程自動化,幾乎承載了模型從“會說”走向“能幹”的絕大部分期待。一個值得關注的變化是,Coding 正在從眼花繚亂的 Benchmark 榜單中脫穎而出,成為一種模型競爭的基礎設施級指標。無論 OpenAI、Anthropic、Google 還是其他廠商,在發佈新模型時幾乎都會將 Coding 場景作為大秀肌肉的選擇。某種意義上,這就是正在形成中的行業共識,即代碼能力不僅意味著編程水平,更是衡量模型邏輯推理、工具使用和實際生產力的重要角度。我們也很好奇,國產模型如今在 Coding 這條卷生卷死的賽道里已經進化到了何種程度。為此我們選擇了五款以編程能力見長的國產模型,包括 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3,將它們放進同一個真實工程任務的場景裡,並讓 Claude Opus 4.7 擔任裁判模型,從可運行性、正確性、可讀性、可維護性四個維度量化評分。接下來就看看,各家模型的表現如何。編者注:此次測試選用模型,為截至 2026 年 6 月 10 日各家最新款旗艦模型,故隨後發佈的 Kimi K2.7 及 GLM-5.2 均未參賽。對上述兩款模型的測試也將陸續發佈,歡迎關注。01不寫八股文,真正的壓力測試Coding 能力的測試也大有講究。HumanEval、MBPP 這些業界常見的 Coding Benchmark,本質上都在測試模型會不會寫代碼。最常見的模式就是給出一道算法題,看模型能不能給出正確的解法。只能說程序員有自己的八股文,LLM 來了也得寫一遍。這種測試和真實工程開發之間,還有著不小的距離。實際幹過開發工作的人就知道,最頭疼的是產品經理甩過來一份含混不清的需求,你得自己去理清邊界條件,此外數據庫表能跑還不夠,設計的時候就要把未來三個月的業務擴展都考慮進去。還有可維護性,你寫的代碼,同事也得能看懂,線上出了 Bug,得從日誌裡能定位到根因。跟這些相比,把代碼寫出來只是開始。所以我們不做 LeetCode 跑分,不刷榜。這次測試選擇用真實工程任務加裁判模型量化評分的模式,所有結果只有一個標準,那就是工程場景能不能用起來。我們為這五款模型設計了兩項任務。任務 A 是完整交付一套優惠券系統,從數據庫 DDL 設計到 Python 核心邏輯,再到 API 文檔和部署方案,都需要模型獨立完成。很多模型發佈的時候會選擇一些“一鍵生成”的小遊戲或者小程序作為 Coding 能力的展示,乍看亮眼,實際都是輕量級的小玩意兒。而這項測試考的就是“從無到有”的架構能力,字典表擴展性、雙模式有效期、併發鎖設計、滑動窗口防刷、模糊需求澄清,還要做到中國手機號正則校驗。任務 B 是 常見的 Bug 診斷修復,但我們在測試強度上下了功夫。模型會拿到一段包含五個預設陷阱的高併發秒殺代碼,我們要求它診斷根因並修復。陷阱包括競態條件超賣、Redis 緩存穿透、連接池配置不足、事務隔離級別不當、異常回滾遺漏。這項測試,關注的是模型“從壞到好”的工程嗅覺。裁判模型 Claude Opus 4.7 會從可運行性(30%)、正確性(30%)、可讀性(20%)、可維護性(20%)四個維度量化打分,最終成績加權計算。02優惠券系統,差點集體翻車測試剛剛開始,五款模型的表現就讓人大跌眼鏡。問題就出在需求澄清這個環節。我們在 Prompt 裡故意埋了一個模糊表述:"短時間內高頻領取需攔截"。看到這裡,一個成熟的工程師就該主動追問了,什麼叫短時間,一分鐘還是五分鐘,什麼又叫高頻,五次還是十次?但令人意外的是,沒有任何一款模型主動要求我們澄清這項需求,剛才提到的參數都是模型自己假設的。工程師素養是一個很難量化的隱形維度,至少在這一關,五家打了個平手:誰都沒追問,誰也不比誰強。在後續的架構設計層面,模型的表現出現了分化。MiniMax M3 拿到了全場最高的 95 分,裁判評語是:"整體屬於資深架構師水準的方案,正確性和可運行性最為出色。"它在核心服務實現環節的 70 分雖然不是最高,但防刷與併發安全環節以 80 分領先。在高併發場景下,MiniMax M3 不僅關注到了功能實現,更可貴的是系統穩定性與可用性。比如通過 Redis Lua 腳本實現庫存原子扣減,從根源上避免超賣問題,採用滑動窗口限流機制,較傳統固定窗口更精準地應對突發流量和惡意刷請求,同時引入熔斷與降級策略,在下游服務異常時保障核心業務持續運行。這一整套組合拳,被裁判稱為“工業級實現”。Kimi K2.6 與 MiniMax M3 並列拿下了架構設計環節的第一名 95 分,但它的得分路徑完全不同。裁判給 Kimi 的評語是:“整體是接近資深架構師水準的方案,正確性與可維護性最佳。”它的數據庫設計同樣採用了字典表管理優惠券類型,沒有掉進硬編碼三個 type 字段的坑裡。但 Kimi 真正的殺手鐧在可維護性,它為每個接口編寫了完整的類型註解和文檔字符串,連 Redis 連接池的異常重試策略都寫了詳細的註釋說明。Opus 4.7 在可讀性維度上給了 4 分,扣掉的 1 分是因為它用了 ASCII 流程圖來展示架構,“排版略遜”。但到了核心服務實現環節,Kimi 只拿到 70 分,與 MiniMax 持平。問題出在一個架構級的致命疏忽:Redis 扣減庫存成功後,如果 DB 落庫失敗,系統沒有最終一致性補償機制。這意味著在大促期間一旦出現網絡抖動,用戶明明搶到了券、Redis 也扣了庫存,但數據庫裡卻沒有記錄,也就是券憑空消失了。Opus 4.7 的原話是:“Redis 與 DB 無最終一致性補償機制,高併發下可能出現數據不一致。”這是一個典型的“想得周全、做得規範、但漏了最關鍵的一環”的案例。DeepSeek V4 Pro 在架構設計環節拿到了 85 份,表現尚可,裁判稱讚其“正確性最佳,幾乎完全覆蓋需求與邊界場景”。但到了核心代碼實現環節,分數跌到了 65 分。問題出在業務邏輯正確性上,Opus 4.7 發現 discount_value 範圍限制和防刷的 key_TTL 的設置有誤。前者可能導致異常折扣甚至業務規則失效,後者則意味著限流窗口過短、過長或被不斷刷新,從而削弱防刷效果甚至影響正常用戶使用,都踩在真實場景的雷區上。Opus 4.7 評語的原話是:“結構與併發處理思路最好,最差是正確性。”這揭示了一個有趣的現象,DeepSeek V4 Pro 很會"想",但不太會"做"。它在架構層面的抽象能力堪稱一流,數據庫設計用了字典表管理優惠券類型,而不是硬編碼三個字段。但當涉及到把設計落地為可運行代碼時,它卻會在邊界條件上犯低級錯誤。此外 Qwen 3.7 Max 和 GLM 5.1 也各有可圈可點之處。Qwen 3.7 Max 在架構設計環節拿到了 90 分,裁判評語是:“正確性和可運行性表現最佳,覆蓋參考答案全部要點且落地方案完整。”它的亮點在於工程化考慮非常周全,不僅實現了核心邏輯,還主動給出了 Docker Compose 部署配置和壓測腳本,Opus 4.7 在可運行性維度上直接給了 5 分的成績。但 Qwen 的短板也很鮮明。核心服務實現只拿到 60 分,突出問題是折扣類型用 if/elif 硬編碼分支,而不是策略模式或配置化。這意味著如果下個月業務方說要新增一種“隨機立減券”,開發者必須改核心代碼、重新部署服務,這在真實工程裡是不可接受的。此外,Opus 4.7 還提到它的可讀性“相對最弱”,原因是缺少架構圖示,純文字描述讓方案的直觀性打了折扣。可以說,Qwen 是一個“能跑起來、但不好維護”的典型。這是 OPC 驗證的首選,但對於長期迭代的任務,還需要努努力。GLM 5.1 同樣在架構設計環節拿到了 90 分,裁判評語幾乎和 Qwen 的一樣:“正確性和可運行性是最強項,覆蓋參考答案全部要點並落地完整。”它的數據庫設計被 Opus 4.7 評價為“兼具可執行性與可擴展性”,優惠券類型字典表、有效期雙模式、防刷滑動窗口等核心錨點全部命中。但 GLM 在核心服務實現環節也只拿到 60 分,問題出在安全性而非架構上。Opus 4.7 發現它的 schemas.py 中,CouponCreate 的 type 字段缺少合法的枚舉校驗,這意味著攻擊者可以直接傳入一個非法的優惠券類型值,系統不會攔截,而是可能直接入庫。在真實生產環境中,這是一個潛在的安全漏洞。更致命的是併發安全環節,GLM 只拿到 75 分,是五家中的倒數第二。它的防刷實現雖然用了滑動窗口的大框架,但細節上有瑕疵。Opus 4.7 指出“限流粒度偏粗,未區分用戶級與 IP 級雙層防護”,在面對專業羊毛黨時可能會被突破。表 1:任務 A 各環節得分不過綜合成績看下來,所有模型在這項任務中的表現都算不上優秀。MiniMax M3 和 Kimi K2.6 並列第一,拿下 81.0,最低分則是 DeepSeek V4 Pro 的 73.5。放在百分制裡看,這相當於全班第一名考了 81 分。不是學霸太強,是試卷太難。這種複雜架構的從零生成,的確是今天 Coding 模型的一大痛點。03Debug 是所有人的舒適區如果說任務 A 是一次集體掛科的期中考試,那任務 B 就是期末補考。全班都及格了,甚至考得還不錯。得分最高的仍然是 MiniMax M3,拿下 89.7 分,分數最低的 GLM 5.1 也有 79.0,基本都在 80 分段以上。這意味著,給一個現成的 Bug 讓模型找,比讓模型從零寫一個無 Bug 的系統,要容易得多。在找 Bug 這件事上,MiniMax M3、DeepSeek V4 Pro、Qwen 3.7 Max 的成績並列。三家的 Bug 發現率都拿到了 90 分,也就是命中了五個預設陷阱中的至少四個。DeepSeek V4 Pro 在這一環節的表現尤其值得關注。雖然在任務 A 中排名墊底,但在 Bug 診斷中它與 MiniMax M3 和 Qwen 3.7 Max 並列第一。Opus 4.7 指出,它覆蓋了全部預設問題且結構清晰,在正確性和可讀性上表現最佳。一種可能的解釋是,或許 DeepSeek V4 Pro 的強項恰恰是理解複雜邏輯。在修復質量上,Kimi 與 MiniMax 的得分並列第一。Kimi K2.6 以 90 分的總分與 MiniMax M3 持平,裁判給了很高的評價,稱其修復方案“整體是一份接近生產級的修復方案,可讀性和可維護性最佳,包括註釋三段式、配置中心和結構化日誌。”一個值得注意的細節是,Kimi 在修復代碼中引入了配置中心,也就是將將限流閾值、連接池參數、超時時間全部外置。如果這三者被寫死在代碼裡,那麼一旦線上流量變化或環境切換,就必須重新修改代碼、測試併發布版本,維護成本很高,也容易引入新的問題。Opus 4.7 評價其為生產級的原因也在這裡,引入配置中心意味著這些運行參數與業務邏輯解耦,運維或開發人員可以根據實際負載動態調整配置,無需重新部署服務,大幅提升了系統的靈活性和可運維性。更重要的是,開發、測試、預發、生產的不同環境下往往需要不同參數配置。配置中心能夠實現統一管理、版本控制和灰度發佈,避免“本地正常、線上異常”的配置漂移問題。在高併發系統中,限流、連接池和超時參數本身就是穩定性治理的重要抓手,將其外置說明 Kimi K2.6 考慮到了系統長期運行和持續演進的需求,而不是僅滿足當前場景。在基礎修復之外,五款模型都給出了架構層面的優化建議。MiniMax M3、Kimi K2.6、GLM 5.1 在這一環節都拿到了 90 分,其中 MiniMax M3 的建議被認為在“結構化呈現 + 全維度運維考量”上最為出色,涵蓋了緩存預熱、異步落庫補償、限流降級、監控告警和容量規劃五個維度。▎容量規劃Kimi 和 Qwen 在架構優化中都提到了“擴容”,但基本上是“建議增加 Redis 節點”這種原則性表述。MiniMax M3 則給出了具體的擴容閾值和分片策略,比如 QPS 達到多少時觸發擴容、Redis Cluster 分幾個 shard、每個 shard 的內存上限設多少。Opus 4.7 正是因為這些數字而扣了它的分(“部分容量數字未給出具體計算依據”),但反過來看,敢給具體數字本身就說明它在運維落地層面想得比其他模型深一層。▎異步落庫補償機制其他模型(包括 DeepSeek V4 Pro 和 Qwen 3.7 Max)都提到了“異步寫 DB 來降低 Redis 延遲”,但基本上點到為止。MiniMax M3 則在這個基礎上補了一個補償鏈路的設計,如果異步落庫失敗,如何通過消息隊列重試、失敗後多久觸發告警、以及如何在不一致時做數據對賬修復。這是一個很多工程師在真實項目裡都會漏掉的點:寫了異步邏輯,但沒寫失敗兜底。▎灰度發佈方案MiniMax M3 的文檔中包含了漸進式灰度切流的部署策略——先小流量驗證庫存扣減一致性,再逐步放大。這個維度在 Kimi 和 Qwen 的文檔中完全沒有出現。GLM 5.1 雖然提到了“運維方案”,但更多是監控和日誌層面,沒有涉及發佈策略。DeepSeek V4 Pro 在這一環節的 80 分是全場最低,裁判評語是“缺少監控/限流具體實現細節”。有意思的是,這與它在任務 A 中展現的“架構抽象能力強但落地細節弱”的特徵高度一致。表 2:任務 B 各環節得分04MiniMax 爆冷奪冠到此為止,已經可以算出綜合排名。令我們意外的是,MiniMax M3 以 85.3 的綜合得分爆冷奪冠。其在 Bug 診斷與修復環節的表現尤為突出(89.7 分),而DeepSeek V4 Pro 雖然綜合得分排名第四(78.6 分),但憑藉最低的 API 定價,性價比指標(CPP $0.20)全場最優,是預算敏感型團隊的首選。表 3:綜合排名在此前的兩項測試任務中,五款模型表現出了迥異的特性。MiniMax M3 的 Task B 得分(89.7)全場最高,Bug 診斷和修復都堪稱工業級。如果比作工程師的話,它應該是團隊裡那個在 Code Review 時一眼看出代碼裡競態條件的人,也是那個在故障排查時最快定位根因的人。但它不是那種能從零搭建完整系統的人,至少不是做得最好的那個。Task A 的 81.0 雖然也是並列第一,但這個分數本身就意味著"還有 19 分的提升空間"。寫代碼對它來說不是舒適區,找 Bug 才是。Kimi K2.6 的表現同樣亮眼,所有子項得分都在 70-90 分之間,這是一份沒有明顯短板,還能夠一夠單項最高的成績。它的文檔和運維方案被 Opus 4.7 反覆稱讚為“最出彩”、“最詳實可落地”,其中在修復實現環節引入配置中心和結構化日誌的做法,堪稱這次比賽中工程實踐可維護性的標杆。不過之前沒有提到的一處隱憂是,Kimi K2.6 在任務 A 的核心代碼實現中遺漏了 Redis 與 DB 的最終一致性補償。在秒殺場景下,這可能是個致命的錯誤。這種畫像有點像是一個做事很規範的工程師,但偶爾也會在大局觀上失焦。Qwen 3.7 Max 的表現,用一個詞形容就是"穩"。Task A 77.5,Task B 87.0,綜合 82.2,排名第三。我們覆盤成績的時候發現,它在任何環節都沒有拿過第一名,但也沒有跌出過前三。不驚豔,但絕不會出大錯,這就是你在任何項目上都可以放心用的人。對於 DeepSeek V4 Pro,則有不小的爭議,長處和短板都相當明顯。綜合得分 78.6,排名第四的背後,是幾乎溢出的架構設計能力和火候欠缺的工程落地表現。前一腳能在需求澄清與架構設計環節拿到 85 分,後一步就在核心代碼實現上跌到 65。更極端的是,它在 Bug 診斷環節以 90 分並列第一。這說明它不是不懂,而是在從“想”到“做”的轉化過程中出了問題。GLM 5.1 的特性也很鮮明。雖然在兩項任務中都是最後一名,但它在修復實現的可讀性維度上拿到了 5 分,在架構優化環節也拿到了 90 分。這說明當給定明確方向時,它就能給出結構清晰、覆蓋面廣的方案。但在沒有錨點的創造性任務中,它容易被其他模型拉開差距。這是最適合最為輔助性編程工具的選手,人類工程師的主導和方向支持下,就會發揮出最強的性能。05性價比對決:誰是開發者的最優解?數據截至 2026 年 6 月 3 日,各模型國際官網標價:表 4:各模型官網最新 API 定價對比這份價格表裡有幾個值得注意的點。DeepSeek V4 Pro 在 5 月 31 日之後,原本的 75% off 折扣價已成為正式官方價,使其成為五家中單價最低的模型,輸出價格甚至不到 Kimi 的四分之一。MiniMax M3 採用階梯定價,目前官網正在進行限時 5 折活動,折扣後價格甚至低於 DeepSeek。Qwen 3.7 Max 是五家中最貴的,約為 DeepSeek 的 3-4 倍。光比能力不分價格,是耍流氓。假設你是一箇中小團隊的 Tech Lead,每天跑一箇中度 Agent workload(日耗 100 萬 Input Token + 10 萬 Output Token),那麼按上面這份各模型官網最新標價,一個月的賬單如下:表 5:月度成本與性價比對比可以看到幾個驚人的數字。DeepSeek V4 Pro 的 CPP(成本性價比)為 $0.20,意味著花 20 美分就能買到 1 分的能力。相比之下,Qwen 3.7 Max 買同樣的 1 分能力需要 $0.59,貴了整整 3 倍。用 Qwen 一個月的預算($48.75),可以跑三個月 DeepSeek 還剩 $1.77。MiniMax M3 的限時 5 折價使其月度成本僅為 $12.60,CPP 僅 $0.15,甚至比 DeepSeek 還便宜。但需要注意這是限時折扣價,標準價 $25.20 的 CPP 為 $0.30,仍優於 Kimi 和 Qwen。如果你是對預算極度敏感的個人開發者或初創公司,DeepSeek V4 Pro 就是最經濟的選擇。當然對於追求折扣紅利的短期項目而言, MiniMax M3 的五折價也是一個方案。而且綜合實力最強、Bug 診斷最佳的成績,讓這款模型在標準價之下也相當有競爭力。如果想作為團隊主力長期使用,則可以考慮 Kimi K2.6。雖然綜合得分第二,但也勝在沒有明顯短板、規範性強上。而對於為生態集成買單的阿里雲用戶來說,Qwen 3.7 Max 的表現也同樣可靠。如果把這次評測比喻成一場招聘面試,五家模型各自拿到了不同的 offer。MiniMax M3 是高級工程師,Bug 排查能力全場最強,但入職後需要配一個架構師幫它把關從零建系統的活兒。Kimi K2.6 拿到了技術骨幹的 offer,沒有明顯短板,規範性強,是任何團隊都可以放心託付的主力。Qwen 3.7 Max 更像資深工程師,穩健可靠,但工資要求最高。DeepSeek V4 Pro 作為性價比之王當之無愧,花最少的錢,就能買到中上的能力,而 GL

Related

相關文章

AI日報:谷歌推新圖片模型Nano Banana 2 Lite;Claude Sonnet 5 發佈;OpenClaw 正式推出 iOS 與 Android 移動版應用

歡迎來到【AI日報】欄目!這裡是你每天探索人工智能世界的指南,每天我們為你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解:https://app.aibase.com/zh1、谷歌推出全新AI生圖模型NanoBanana2Lite:4秒出圖,主打高頻批量內容生產谷歌推出了全新的AI圖像與視頻生成模型NanoBanana2Lite,該模型在運行速度和成本效益方面都有顯著提升。其核心模型Kimi的價格調整不僅未影響需求,反帶來顯著收入增長,顯示出強大的市場競爭力。

39 分鐘前6100
雷峰網生成式AI

UC Berkeley Ken Goldberg 教授:具身數據規模落後十萬年,你仍然相信數據萬能嗎?| ICRA 2026

雷峰網訊 數以十億計的資金湧入具身智能行業,與此同時,這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下,VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈,以至於某種程度上,甚至帶上了意識形態的色彩。這成為了本屆國際機器人與自動化會議(ICRA)現場最引人關注的話題。在會議第二天,UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講,發表了他對具身數據採集、數據飛輪、GAP 系統,以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。過去幾年,隨著 ChatGPT、視覺語言動作模型(VLA)和人形機器人熱潮興起,依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律,人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻,乃至真正的通用機器人。對此,Ken Goldberg 提出了靈魂之問:什麼時候?“如果按照人類平均閱讀速度計算,閱讀完今天訓練大型語言模型所使用的全部數據,大約需要10萬年。而換算到機器人領域,我們目前積累的數據總量,大概只相當於幾年的規模。”具身智能數據鴻溝的抽象討論背後,是一組恐怖的對比數據。Ken Goldberg 相信,這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程,在一條更可靠的具身落地路徑上,工程架構、模塊設計和物理建模仍然不可替代。在演講中,Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率,到構建大規模仿真數據集,再到訓練神經網絡完成真實世界抓取,這個近十年前的嘗試對於今天的具身

3 小時前
雷峰網生成式AI

殺上閉源前沿,國產最強已經無法滿足 GLM-5.2 了

雷峰網訊 過去一週,AI 開發者圈討論的焦點,已經不只是誰又發佈了更強的模型,而是一個更現實的問題,誰還能穩定地調用到最強的模型?隨著美國對於 Fable 5 調用的限制,頂級閉源模型的可獲得性終於成為了懸在開發者頭上的不確定因素。特別是對於已經把大模型深度接入代碼生成、Agent 工作流和企業應用的團隊來說,一個模型哪怕性能再強,只要存在訪問受限、策略調整、價格波動或突然下架的風險,就跟“可靠的基礎設施”不沾邊了。OpenRouter 給出了一種解法,即不要押注單一最佳模型,而是通過多模型協作和模型路由,在不同任務之間動態切換能力最合適的模型。這代表了應用層的一種新趨勢,當最強模型不可控時,開發者開始追求可替代、可組合、可持續的模型系統。就在這個背景下,6 月 17 日 GLM-5.2 的發佈格外觸動神經。硅谷最頂級的風投機構之一a16z 的聯合創始人 Marc Andreessen 在 十天後於X 上發文稱,「許多聰明人和 AI 圈內人認為,GLM-5.2 是第一個能夠無妥協地匹敵、甚至超越美國大實驗室公開模型的中國 AI」,並特別點出:「時機妙極,恰逢當下。」這句評價更重要的意義或許在於,他轉述的,正是硅谷圈子裡正在形成的共識—開源的中國模型,在能力上做到了和美國頂級實驗室同臺競技。根據智譜 AI 官方文檔,GLM-5.2 整體表現介於 Claude Opus 4.7 與 Opus 4.8 之間,在 FrontierSWE 等長程編程任務上表現尤其突出,僅落後 Opus 4.8 約 1%,同時超過 GPT-5.5 和 Opus 4.7。另有社區討論也將其視為目前開源模型陣營中,最接近頂級閉源模型的一次躍遷。馬斯克預測智譜大模型大約在 2027 年 Q1 達到 Fable 5,唐傑本人親自下場回覆:用不了那麼久。在一個頂級模型供給越來越不穩定的時間點,開發者擁有了新的可

3 小時前
雷峰網生成式AI

阿里速賣通首次公佈618中國品牌出海成交榜

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器 此為臨時鏈接,僅用於文章預覽,將在時失效 業界 正文 發私信給徐咪 發送 0 阿里速賣通首次公佈618中國品牌出海成交榜 本文作者: 徐咪 2026-07-01 13:00 導語:阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜,覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍;家電品類 阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜,覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍;家電品類中,泳池清潔機器人SEAUTO以黑馬之姿躋身第四;李寧、特步、361°穩居中國出海運動鞋服品牌前三。今年618大促,速賣通品牌成交同比增長90%,品牌成交滲透近40%,進一步鞏固品牌出海全新主場地位。 0人收藏 分享: 徐咪 編輯 發私信 當月熱門文章 藍信發佈2026全棧AI新品,打造100%國產化政企智能辦公新範式 美團電話會:“小美”與騰訊“元寶”的合作將於近期上線 騰訊雲護航全球16個國家及地區世界盃直播,AI技術首次在世界盃大規模應用 SoulAgent 即將亮相北京智源大會,探索個人智能體在知識服務場景中的應用 美團發佈AI瀏覽器Tabbit 1.0,可自動執行各類任務 最新文章 百花獎聯合即夢AI首設AIGC推優單元,即日啟動全球徵集 他山科技聯合圖靈獎得主薩頓共建“機器人幼兒園”,具身智能從“模仿時代”邁向“經驗時代” UC Berkeley Ken Goldberg 教授:具身數據規模落後十萬年,你仍然相信數據萬能嗎?| ICRA 2026 殺上閉源前沿,國產最強已經無法滿足 GLM-5.2 了 國產 Coding 爭霸賽:MiniMax 爆冷登頂,DeepSeek

4 小時前
雷峰網生成式AI

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄:砍掉 VAE,是圖像模型的未來嗎?

雷峰網訊 “8B 開源版是一扇窗,真正的風景還在 200B+ 參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版(8B)發佈之後,我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前,今天 1.5 閉源版本又和公眾見面了。珠玉在前,HiDream-O1-Image-1.5 可以說是備受矚目,而智象未來的官方口徑很大程度上回應了這種期待:“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力,更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績,你就知道這不是一句空話。已躍升至文生圖模型排名的第3位,超越了Google的Nano Banana 2,僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分,展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構,也在新版本中繼續大放異彩。但今天我們不聊榜單,1.5 版本提出了兩個更值得關心的問題是,一個圖像模型到底需不需要“先想再畫”?以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯?01八維評測拆解:複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手,不碰一下,實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義,我這次把它和 Nana Banana 2 放在了同一條起跑線上,用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話,我把圖像模型能力拆成了八個維度:▪ Prompt 遵循度:能否準確執行文字指令要求▪ 構圖能力:鏡頭組織和視覺重心▪ 攝影語言理解:景深、

5 小時前