殺上閉源前沿,國產最強已經無法滿足 GLM-5.2 了
重點摘要
雷峰網訊 過去一週,AI 開發者圈討論的焦點,已經不只是誰又發佈了更強的模型,而是一個更現實的問題,誰還能穩定地調用到最強的模型?隨著美國對於 Fable 5 調用的限制,頂級閉源模型的可獲得性終於成為了懸在開發者頭上的不確定因素。特別是對於已經把大模型深度接入代碼生成、Agent 工作流和企業應用的團隊來說,一個模型哪怕性能再強,只要存在訪問受限、策略調整、價格波動或突然下架的風險,就跟“可靠的基礎設施”不沾邊了。OpenRouter 給出了一種解法,即不要押注單一最佳模型,而是通過多模型協作和模型路由,在不同任務之間動態切換能力最合適的模型。這代表了應用層的一種新趨勢,當最強模型不可控時,開發者開始追求可替代、可組合、可持續的模型系統。就在這個背景下,6 月 17 日 GLM-5.2 的發佈格外觸動神經。硅谷最頂級的風投機構之一a16z 的聯合創始人 Marc Andreessen 在 十天後於X 上發文稱,「許多聰明人和 AI 圈內人認為,GLM-5.2 是第一個能夠無妥協地匹敵、甚至超越美國大實驗室公開模型的中國 AI」,並特別點出:「時機妙極,恰逢當下。」這句評價更重要的意義或許在於,他轉述的,正是硅谷圈子裡正在形成的共識—開源的中國模型,在能力上做到了和美國頂級實驗室同臺競技。根據智譜 AI 官方文檔,GLM-5.2 整體表現介於 Claude Opus 4.7 與 Opus 4.8 之間,在 FrontierSWE 等長程編程任務上表現尤其突出,僅落後 Opus 4.8 約 1%,同時超過 GPT-5.5 和 Opus 4.7。另有社區討論也將其視為目前開源模型陣營中,最接近頂級閉源模型的一次躍遷。馬斯克預測智譜大模型大約在 2027 年 Q1 達到 Fable 5,唐傑本人親自下場回覆:用不了那麼久。在一個頂級模型供給越來越不穩定的時間點,開發者擁有了新的可
雷峰網訊 過去一週,AI 開發者圈討論的焦點,已經不只是誰又發佈了更強的模型,而是一個更現實的問題,誰還能穩定地調用到最強的模型?隨著美國對於 Fable 5 調用的限制,頂級閉源模型的可獲得性終於成為了懸在開發者頭上的不確定因素。特別是對於已經把大模型深度接入代碼生成、Agent 工作流和企業應用的團隊來說,一個模型哪怕性能再強,只要存在訪問受限、策略調整、價格波動或突然下架的風險,就跟“可靠的基礎設施”不沾邊了。OpenRouter 給出了一種解法,即不要押注單一最佳模型,而是通過多模型協作和模型路由,在不同任務之間動態切換能力最合適的模型。這代表了應用層的一種新趨勢,當最強模型不可控時,開發者開始追求可替代、可組合、可持續的模型系統。就在這個背景下,6 月 17 日 GLM-5.2 的發佈格外觸動神經。硅谷最頂級的風投機構之一a16z 的聯合創始人 Marc Andreessen 在 十天後於X 上發文稱,「許多聰明人和 AI 圈內人認為,GLM-5.2 是第一個能夠無妥協地匹敵、甚至超越美國大實驗室公開模型的中國 AI」,並特別點出:「時機妙極,恰逢當下。」這句評價更重要的意義或許在於,他轉述的,正是硅谷圈子裡正在形成的共識—開源的中國模型,在能力上做到了和美國頂級實驗室同臺競技。根據智譜 AI 官方文檔,GLM-5.2 整體表現介於 Claude Opus 4.7 與 Opus 4.8 之間,在 FrontierSWE 等長程編程任務上表現尤其突出,僅落後 Opus 4.8 約 1%,同時超過 GPT-5.5 和 Opus 4.7。另有社區討論也將其視為目前開源模型陣營中,最接近頂級閉源模型的一次躍遷。馬斯克預測智譜大模型大約在 2027 年 Q1 達到 Fable 5,唐傑本人親自下場回覆:用不了那麼久。在一個頂級模型供給越來越不穩定的時間點,開發者擁有了新的可能:一種接近閉源前沿的能力,但更可控的開源選擇。在生產級的任務中,開源模型長期扮演著閉源選手“平替”的角色,便宜務實是最顯眼的標籤。GLM-5.2 則一反常態,成為第一個殺入閉源前沿競技場的開源選手。01開源模型,第一次躋身閉源前沿評價一個大模型,最容易看的當然是 Benchmark。但 GLM-5.2 這次引發的關注,並不只是因為它在榜單上的位次,更是因為它在幾個最能代表真實生產力的方向,長上下文、代碼能力、開源可控性,同時打響了名號。在全球百萬用戶參與盲測的前端開發評估系統 Arena AI 的 Code Arena: Frontend 榜單中,GLM-5.2(Max)以 1595 分排名第 2,僅次於 Claude Fable 5(High)。需要注意的是,Claude Fable 5 目前仍因為安全政策導致其可用性被限制。換句話說,在當前真正可用的模型中,GLM-5.2 已經站到了前端開發盲測榜的第一梯隊,甚至可以視為可用模型第一。Code Arena 更接近真實前端開發場景,考察模型對需求理解、頁面結構、組件組織、交互細節和視覺完成度的綜合能力。模型不僅要會寫代碼,還要能把一個產品界面真正做出來。GLM-5.2 能力壓 Claude Opus 4.7、Claude Opus 4.8、Gemini、Qwen、Kimi 等一眾模型,本身就是足以進入真實開發流程證據。更大的變化發生在長程任務上。根據 Z.ai / 智譜官方發佈的技術介紹,GLM-5.2 面向 long-horizon tasks 設計,支持穩定的 1M token 上下文窗口。它不只是能讀一篇長文,而是能夠在更大的項目、更多文件、更長鏈路的任務中持續保持上下文。對於代碼倉庫理解、Agent 自動化、論文集合分析、知識庫構建這類任務來說,1M 上下文不是一個“炫技參數”,而是決定模型能否真正進入複雜工作流的基礎能力。代碼能力則是 GLM-5.2 最醒目的突破口。官方資料顯示,GLM-5.2 在多項代碼與長程軟件工程評測中顯著超過上一代 GLM-5.1,並被定位為當前最強開源代碼模型之一。VentureBeat 在報道中也提到,GLM-5.2 在 FrontierSWE 等長程編程任務上超過 GPT-5.5,並接近最強閉源模型區間。相比傳統代碼 Benchmark,這類評測更強調模型完成複雜工程任務的能力,包括理解項目、規劃修改、跨文件操作和長時間保持任務目標。官方將 GLM-5.2 定位為面向 Coding 與長程任務的模型。依託 1M 上下文窗口,它能夠處理更復雜的軟件工程場景:理解大型項目、跨文件修改、持續跟蹤需求,並在多輪開發中保持目標一致。在 FrontierSWE、SWE-Marathon、PostTrainBench 等長程任務基準上,GLM-5.2 已進入頂級閉源模型所在區間,表現位於 Claude Opus 4.7 與 Claude Opus 4.8 附近。相比傳統代碼榜單,這類評測更接近真實開發,考察的是模型從理解項目到完成交付的綜合工程能力。另外,GLM-5.2 在多項代碼與長程軟件工程評測中顯著超過上一代 GLM-5.1,並被視為當前最強開源代碼模型之一。與此同時,GLM-5.2 的另一個關鍵詞是“開放”。根據其 GitHub 與 Hugging Face 頁面,GLM-5.2 以開放權重形式發佈,並強調 1M 上下文、增強代碼能力和 Agent 任務能力。這一點對開發者尤其重要,因為當模型開始進入企業內部知識庫、研發工具鏈、自動化 Agent 和核心業務系統後,團隊關心的不只是“誰分數更高”,更重要的是能否私有化部署、能否控制數據、能否降低長期成本,以及是否會被單一閉源 API 的策略變化所影響。這也是 GLM-5.2 這次真正值得討論的地方。它並不是單純發佈了一個更強的國產模型,而是在一個關鍵時間點讓整個開源路線被重新審視。當一款開源模型擁有了接近頂級閉源的代碼能力、足夠長的上下文窗口,以及更高的可靠性時,開發者還會把多少核心項目寄託在隨時可能被截斷的閉源 API 上?02GLM-5.2 實測:整理 185 篇論文,並生成知識圖譜網站能更快更好地幹好活兒的模型,才是好模型。為了測試 GLM-5.2 的能力,我們沒有選擇常見的數學題、代碼題或單輪問答,而是設計了一個更接近真實研究場景的任務:把一整個論文目錄交給模型,讓它完成從論文閱讀、知識結構整理、外部檢索、素材卡片生成,到知識圖譜和靜態網站構建的完整流程。這就是一個技術編輯或研究助理每天會都遇到的問題:資料很多、來源複雜、時間跨度長,任務目標也不是簡單“總結一下”,而是要構建一個完整的知識框架、整理成可複用的知識資產。題目如下:為了充分考驗 GLM-5.2 的超長上下文處理能力,我們在測試文件夾中放入了 185 篇已發表的高水平學術論文。每篇論文約包含 9,000 至 13,000 個 token。粗略估算,全部論文的總 token 量約為 1,665,000 至 2,405,000,也就是約 1.7M 至 2.4M token,已經達到 GLM-5.2 標稱 1M 上下文長度的近兩倍甚至更高。與此同時,在實際運行過程中,模型還需要額外處理任務指令、中間分析、階段性總結、檢索結果和生成內容等信息,整體信息負載會進一步增加,形成遠超單次上下文窗口的長鏈路任務壓力。因此,這一測試不僅考察 GLM-5.2 對大規模論文集合的讀取與理解能力,也重點檢驗其在超長任務場景下的持續推理、信息保持、結構化整理和跨階段綜合能力。為了更好發揮 GLM-5.2 的性能,我們選擇了同樣來自智譜的 ZCode 作為執行平臺。ZCode 是一個面向複雜任務的智能體開發環境,可以圍繞本地項目目錄持續讀取文件、理解項目結構、拆解任務、寫入中間產物,並在長流程中保持任務狀態。而 GLM-5.2 則負責長上下文理解、推理、規劃和生成。二者放在一起,更像一組“雙子座工具”。GLM-5.2 是“大腦”,ZCode 是“手腳”和“工作臺”,一個負責想清楚,一個負責幹出來。因此這次測試不只是看 GLM-5.2 能不能交付一個漂亮的結果,也是在考察它藉助 ZCode 後,能否真正進入項目目錄,連續讀文件、做分析、產出 Markdown、生成網頁,並留下可複查的工作痕跡。那麼,GLM-5.2 表現如何?一起來看看。▎從讀取論文開始:不是摘要,而是先建立知識錨點任務開始後,GLM-5.2 沒有急著給結論,而是先檢查本地目錄,並將 140+ (185) 篇論文按年代和主題分組讀取。在第 0 步中,它對每篇論文進行了 200 字以內的複述,並按時間線整理出早期工作。例如,對於 1995 年 Chang 的中文拼寫糾錯系統,它提煉出該工作綜合字形、讀音、字義、輸入碼四類相似性構建易混字集,並使用語言模型和 Viterbi 搜索完成糾錯。對於 2011 年形音相似字研究,它提煉出中文錯字中音似、形似錯誤的比例特徵。對於 SIGHAN Bake-off 系列,它歸納出其作為 CSC 標準基準的歷史地位。完成論文的初步讀取後,GLM-5.2 開始搭建領域的知識圖譜框架。可以看到,它並沒有停留在簡單的論文摘要層面,而是將整個領域拆解為錯誤分析、數據集與評測、方法範式、關鍵技術議題、應用場景和技術演進六大模塊,既覆蓋了音似、形似、輸入法、OCR / ASR 等錯誤來源,也梳理了 SIGHAN、CSCD-IME、MCSCSet、ECSpell 等數據集,以及從 n-gram、HMM、SMT、CRF 到 BERT、Soft-Masked BERT、PLOME、FASPell、ReaLiSe,再到大模型方法的技術路線。更重要的是,模型還主動標出了本地論文集中相對薄弱的部分,例如 CSC 與中文語法糾錯 CGEC 的邊界、工業工程實踐、語言學和認知科學基礎、多語言橫向比較,以及公平性、偏見與安全議題。這一步相當於為後續檢索、審計和可視化建立了“研究地圖”。▎廣度搜索,知識補全為了避免侷限性,模型開始對研究領域進行多輪關鍵詞檢索,並將外部資料與本地論文進行交叉核對。可以發現,GLM-5.2 不僅補充了 CSC 與 CGEC 的關係、SIGHAN、CSCD-IME、MCSCSet、ECSpell、QSpell 等數據集生態,還整理了 pycorrector、macbert4csc-base-chinese、ChineseErrorCorrector 等開源工具鏈,並按照“傳統方法—深度學習—預訓練模型—大模型”的路線梳理方法演進。這個過程說明,GLM-5.2 並不是簡單地讀完論文後做總結,而是在主動識別本地論文的覆蓋邊界,再通過外部檢索擴展知識面,最終把分散信息沉澱為可複用的 Markdown 文件,為後續覆蓋率審計、素材卡片提取和知識圖譜可視化打下基礎。覆蓋率審計,找出“漏網之魚”。基於本地論文閱讀和外部廣度掃描結果,GLM-5.2 反向檢查整個知識體系是否存在遺漏。它將 CSC 領域詳細地拆分為 20 個關鍵維度,遠超常規科研的分析維度,包括錯誤分析與混淆集、數據集與評測、傳統方法、深度學習、預訓練模型、大模型方法、多模態融合、檢測—糾正框架、檢索增強、領域適應、過度糾正、搜索查詢糾錯、輸入法糾錯、OCR / ASR 後處理、CSC 與 CGEC 的關係、可解釋性、語言學 / 認知基礎、公平性 / 偏見 / 安全以及工業工程實踐等,並逐一標註本地論文覆蓋情況、外部資料補充情況和最終結論。分析結果顯示,20 個維度中有 18 個已經覆蓋充分,只有“語言學 / 認知基礎”和“公平性 / 偏見 / 安全”兩個方向仍然保留為缺口。這一步驟的價值在於,它不只是繼續堆疊資料,而是對已經形成的知識地圖進行系統性校驗,哪些方向證據充足,哪些方向依賴外部補充,哪些方向仍值得作為研究空白提出。由此,GLM-5.2 將大規模文獻整理從總結已有內容推進到了評估知識覆蓋質量的層次,為後續提煉研究機會和生成高質量綜述奠定了判斷依據。▎核心概念歸納GLM-5.2 在完成前期論文閱讀、外部檢索和覆蓋率審計後,進入“深度鑽取”階段,圍繞 CSC 領域的核心樞紐概念生成結構化素材卡片。GLM-5.2 將“混淆集與形音相似度”“SIGHAN 基準與數據集生態”“Soft-Masked BERT 檢測—糾正範式”等主題拆解為獨立卡片,並補充概念定義、關鍵數據、技術演進、爭議觀點、來源級別和使用場景等信息基於前面的工作,GLM-5.2 對全部信息進行綜合判斷,集中提煉領域共識、關鍵爭議與研究空白。其中,“音似是主要錯誤源”、“SIGHAN 基準已不夠”、“過度糾正是核心障礙”、“多模態融合有效”、“LLM 尚未超越微調小模型”、“領域適應是剛需”等判斷被整理為核心共識。與此同時,模型也標記出混淆集是否必要、檢測—糾正與端到端路線之爭、合成數據質量、LLM 是否適合 CSC、評測指標是否需要更新等尚未形成定論的問題。最後,基於前四輪形成的分析結果,GLM-5.2 系統整理出概念筆記、數據集筆記、方法筆記、爭議筆記和研究選題筆記。中文拼寫糾錯、混淆集、檢測—糾正框架、過度糾正、多模態融合等核心概念被逐條定義,並補充了技術特點、演進路徑、代表方法和關鍵爭議;數據集部分則進一步記錄了 SIGHAN、CSCD-IME / CSCD-NS 等基準的來源、規模、地位與侷限。並且,GLM-5.2 依次創建了公共樣式文件、導航腳本、首頁、知識圖譜頁、研究路線頁、素材卡片頁以及爭議與空白頁,並計劃通過 ECharts 展示知識圖譜、通過 Mermaid 呈現研究路線。這意味著,本次任務的產出不再只是 Markdown 文檔或文本摘要,而是進一步轉化為一個可瀏覽、可展示、可複用的研究網站。對於科研工作流而言,這一階段體現了大模型從閱讀助手向知識工程協作者的延伸,它能夠把論文閱讀、知識歸納、筆記沉澱和網頁可視化串聯成一條完整的自動化生產鏈。▎可視化網站呈現知識圖譜打開 GLM-5.2 創建的可視化圖譜網站,該網站以“CSC 知識圖譜”為入口,圍繞 140+ 篇論文、20+ 個數據集、15 張素材卡片和 10 個研究候選,搭建了一個面向學術綜述與研究選題的結構化知識平臺。首頁給出研究對象、時間跨度、論文來源和分析流程,清楚呈現從論文讀取、框架構建、廣度掃描、覆蓋率審計、深度鑽取、交叉合成到筆記初始化的七步工作鏈路。知識圖譜頁則通過力導向圖把 CSC 任務、錯誤類型、數據集、方法範式、代表模型、評測指標和應用場景連接起來,使原本分散在論文中的概念關係變得可視、可查、可交互。研究路線頁進一步按“傳統 NLP—深度學習—預訓練模型—大模型”四個時代梳理技術演進,展示從規則、n-gram、HMM、SMT、CRF,到 BiLSTM-CRF、Seq2Seq、Soft-Masked BERT、PLOME、ReaLiSe,再到 C-LLM、CEC-Zero、ACI 等方法的遷移路徑。素材卡片頁則將前期深度鑽取得到的關鍵主題壓縮成可複用卡片,便於後續寫作、引用和選題設計。爭議與空白頁集中呈現領域共識、路線分歧和未來問題,例如 SIGHAN 基準不足、過度糾正、多模態融合、LLM 適配性和領域遷移挑戰。整體來看,這個網站不僅是一次文獻整理結果的展示,更體現了大模型輔助科研的一種新範式,從海量論文閱讀到知識抽取、從邏輯歸納到交互式可視化,GLM-5.2 將複雜研究資料轉化為可瀏覽、可傳播、可持續擴展的知識產品。▎任務完成,做好總結最後,GLM-5.2 對本次文獻研究任務的最終執行總結。GLM-5.2 對覆蓋時間跨度從 1995 年到 2026 年的 140+ 篇論文進行系統梳理,劃分為傳統 NLP、深度學習、預訓練模型和大模型四個階段。整個任務嚴格按照“讀取論文建立錨點—構建初步框架—五輪迭代—可視化展示”的流程推進,其中五輪迭代包括廣度掃描、覆蓋率審計、深度鑽取、交叉合成和筆記初始化。最終,GLM-5.2 產出了 5 個 Markdown 分析文檔、5 類共 38 條結構化筆記、15 張素材卡片、10 個交叉研究候選,並完成 20 個覆蓋率維度的審計,其中 18 個維度覆蓋充分,2 個殘留缺口被明確標註為未來研究空白。在研究發現層面,模型總結出 5 個值得關注的核心結論:SIGHAN 基準已難以可靠評估 CSC 模型,真實場景基準將成為趨勢;過度糾正仍是 CSC 從學術走向落地的關鍵障礙;LLM 尚未在該任務上全面超越微調小模型,但在協作式糾錯、零監督強化學習和檢索增強等方向顯示出潛力;檢索增強是領域適應的重要路徑;VLM 拼寫糾錯與統一語言—事實糾錯仍處於前沿空白。與此同時,GLM-5.2 也誠實標註了兩個殘留缺口,即語言學 / 認知科學基礎不足,以及公平性、偏見與安全問題研究薄弱。此外,模型進一步列出了完整文件產出和靜態網站頁面,包含首頁、知識圖譜頁、研究路線頁、素材卡片頁和爭議與空白頁,並通過 ECharts 與 Mermaid 實現交互式可視化。整體來看,這一總結標誌著 GLM-5.2 已將一次大規模論文閱讀任務完整轉化為可審計、可複用、可展示的科研知識產品。03GLM-5.2,掀翻了閉源模型的商業基本盤。185 篇論文能不能總結成文,遠不是這次測試的意義。今天很多模型都能做到這一點,真正值得關注的是,GLM-5.2 在這個任務中表現出的長鏈路任務保持、大規模信息組織和知識壓縮,正是開源模型進入實際工作流所迫在眉睫的能力。開發者需要的不是一個只會回答問題的模型,而是一個能和工具協同、能處理長流程、能留下可複查產物的模型。GLM-5.2 在這次測試中展示出的,正是這種從“模型能力”走向“工作流能力”的躍遷。此外,更重要的是當這種能力以開源形式出現時,它改變的就不只是一個模型的市場位置,而是整個 AI 基礎設施的權力結構。過去,閉源模型的商業基本盤建立在“能力稀缺”之上。最強模型只能通過 API 調用,開發者必須接受黑箱、價格、限流、數據邊界和服務穩定性等一系列不確定因素。只要閉源模型在複雜任務上保持絕對領先,這套邏輯就是成立的。但 GLM-5.2 開始動搖這個前提。當一個開源模型具備長上下文、代碼能力和複雜工作流執行能力時,開發者就不再只是模型能力的消費者,而可以重新成為基礎設施的建設者。模型可以部署在自己的環境裡,接入自己的數據、工具和業務流程,形成可驗證、可複查、可持續迭代的生產系統。這正是開源的真正價值:它帶來的不是單純的低成本,而是控制權。對於企業來說,控制權意味著數據不必離開本地,關鍵鏈路不必完全依賴外部 API,模型能力可以按照業務需求被集成、評估和優化。對於開發者來說,控制權意味著可以圍繞模型建立自己的工具鏈、Agent 框架和垂直應用,而不是被動等待閉源平臺開放能力。所以,GLM-5.2 的意義不只是“開源模型又強了一點”。它真正釋放出的信號是:開源模型正在從可用替代品,變成可進入核心工作流的生產力底座。當開源模型開始逼近閉源前沿,閉源模型過去依靠能力稀缺建立的護城河就會被重新審視。未來的競爭不再只是“誰的模型分數最高”,而是“誰能把模型更好地交付到真實場景”。這也是 GLM-5.2 開源最值得被記住的地方。它讓開發者第一次看到一種可能:前沿能力、工程可控性和開放生態,可以同時存在。而當這種可能變成現實,AI 基礎
Related
相關文章

OpenAI:ChatGPT 全球採用率持續擴大,非英語用戶佔比過半
OpenAI 最新報告顯示,ChatGPT 全球採用率持續擴大,非英語用戶佔比已超過一半。用戶地域分佈更廣,非洲和亞洲增速最快,35 歲以上用戶群體也在擴大。工作用途中,視覺設計任務增長最快。#ChatGPT##AI#
AI日報:谷歌推新圖片模型Nano Banana 2 Lite;Claude Sonnet 5 發佈;OpenClaw 正式推出 iOS 與 Android 移動版應用
歡迎來到【AI日報】欄目!這裡是你每天探索人工智能世界的指南,每天我們為你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解:https://app.aibase.com/zh1、谷歌推出全新AI生圖模型NanoBanana2Lite:4秒出圖,主打高頻批量內容生產谷歌推出了全新的AI圖像與視頻生成模型NanoBanana2Lite,該模型在運行速度和成本效益方面都有顯著提升。其核心模型Kimi的價格調整不僅未影響需求,反帶來顯著收入增長,顯示出強大的市場競爭力。
UC Berkeley Ken Goldberg 教授:具身數據規模落後十萬年,你仍然相信數據萬能嗎?| ICRA 2026
雷峰網訊 數以十億計的資金湧入具身智能行業,與此同時,這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下,VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈,以至於某種程度上,甚至帶上了意識形態的色彩。這成為了本屆國際機器人與自動化會議(ICRA)現場最引人關注的話題。在會議第二天,UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講,發表了他對具身數據採集、數據飛輪、GAP 系統,以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。過去幾年,隨著 ChatGPT、視覺語言動作模型(VLA)和人形機器人熱潮興起,依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律,人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻,乃至真正的通用機器人。對此,Ken Goldberg 提出了靈魂之問:什麼時候?“如果按照人類平均閱讀速度計算,閱讀完今天訓練大型語言模型所使用的全部數據,大約需要10萬年。而換算到機器人領域,我們目前積累的數據總量,大概只相當於幾年的規模。”具身智能數據鴻溝的抽象討論背後,是一組恐怖的對比數據。Ken Goldberg 相信,這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程,在一條更可靠的具身落地路徑上,工程架構、模塊設計和物理建模仍然不可替代。在演講中,Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率,到構建大規模仿真數據集,再到訓練神經網絡完成真實世界抓取,這個近十年前的嘗試對於今天的具身
國產 Coding 爭霸賽:MiniMax 爆冷登頂,DeepSeek 性價比稱王
雷峰網訊 你很難把 Coding 僅僅視為大模型的諸多能力維度之一。和單純的文本或圖像生成相比,代碼更明確的規則、嚴格的語法和可驗證的結果只是部分原因。更為特殊之處在於,在 ChatBot 到 Agent 這條進化鏈上,Coding 意味著的工具調用、數據處理和複雜流程自動化,幾乎承載了模型從“會說”走向“能幹”的絕大部分期待。一個值得關注的變化是,Coding 正在從眼花繚亂的 Benchmark 榜單中脫穎而出,成為一種模型競爭的基礎設施級指標。無論 OpenAI、Anthropic、Google 還是其他廠商,在發佈新模型時幾乎都會將 Coding 場景作為大秀肌肉的選擇。某種意義上,這就是正在形成中的行業共識,即代碼能力不僅意味著編程水平,更是衡量模型邏輯推理、工具使用和實際生產力的重要角度。我們也很好奇,國產模型如今在 Coding 這條卷生卷死的賽道里已經進化到了何種程度。為此我們選擇了五款以編程能力見長的國產模型,包括 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3,將它們放進同一個真實工程任務的場景裡,並讓 Claude Opus 4.7 擔任裁判模型,從可運行性、正確性、可讀性、可維護性四個維度量化評分。接下來就看看,各家模型的表現如何。編者注:此次測試選用模型,為截至 2026 年 6 月 10 日各家最新款旗艦模型,故隨後發佈的 Kimi K2.7 及 GLM-5.2 均未參賽。對上述兩款模型的測試也將陸續發佈,歡迎關注。01不寫八股文,真正的壓力測試Coding 能力的測試也大有講究。HumanEval、MBPP 這些業界常見的 Coding Benchmark,本質上都在測試模型會不會寫代碼。最常見的模式就是給出一道算法題,看模型能不能給出正確的解法。只能說程序員有自己的八股文
阿里速賣通首次公佈618中國品牌出海成交榜
您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器 此為臨時鏈接,僅用於文章預覽,將在時失效 業界 正文 發私信給徐咪 發送 0 阿里速賣通首次公佈618中國品牌出海成交榜 本文作者: 徐咪 2026-07-01 13:00 導語:阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜,覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍;家電品類 阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜,覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍;家電品類中,泳池清潔機器人SEAUTO以黑馬之姿躋身第四;李寧、特步、361°穩居中國出海運動鞋服品牌前三。今年618大促,速賣通品牌成交同比增長90%,品牌成交滲透近40%,進一步鞏固品牌出海全新主場地位。 0人收藏 分享: 徐咪 編輯 發私信 當月熱門文章 藍信發佈2026全棧AI新品,打造100%國產化政企智能辦公新範式 美團電話會:“小美”與騰訊“元寶”的合作將於近期上線 騰訊雲護航全球16個國家及地區世界盃直播,AI技術首次在世界盃大規模應用 SoulAgent 即將亮相北京智源大會,探索個人智能體在知識服務場景中的應用 美團發佈AI瀏覽器Tabbit 1.0,可自動執行各類任務 最新文章 百花獎聯合即夢AI首設AIGC推優單元,即日啟動全球徵集 他山科技聯合圖靈獎得主薩頓共建“機器人幼兒園”,具身智能從“模仿時代”邁向“經驗時代” UC Berkeley Ken Goldberg 教授:具身數據規模落後十萬年,你仍然相信數據萬能嗎?| ICRA 2026 殺上閉源前沿,國產最強已經無法滿足 GLM-5.2 了 國產 Coding 爭霸賽:MiniMax 爆冷登頂,DeepSeek
HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄:砍掉 VAE,是圖像模型的未來嗎?
雷峰網訊 “8B 開源版是一扇窗,真正的風景還在 200B+ 參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版(8B)發佈之後,我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前,今天 1.5 閉源版本又和公眾見面了。珠玉在前,HiDream-O1-Image-1.5 可以說是備受矚目,而智象未來的官方口徑很大程度上回應了這種期待:“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力,更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績,你就知道這不是一句空話。已躍升至文生圖模型排名的第3位,超越了Google的Nano Banana 2,僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分,展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構,也在新版本中繼續大放異彩。但今天我們不聊榜單,1.5 版本提出了兩個更值得關心的問題是,一個圖像模型到底需不需要“先想再畫”?以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯?01八維評測拆解:複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手,不碰一下,實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義,我這次把它和 Nana Banana 2 放在了同一條起跑線上,用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話,我把圖像模型能力拆成了八個維度:▪ Prompt 遵循度:能否準確執行文字指令要求▪ 構圖能力:鏡頭組織和視覺重心▪ 攝影語言理解:景深、