UC Berkeley Ken Goldberg 教授：具身數據規模落後十萬年，你仍然相信數據萬能嗎？| ICRA 2026

2026年7月1日 05:45

重點摘要

站內 AI 整理稿

雷峰網訊數以十億計的資金湧入具身智能行業，與此同時，這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下，VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈，以至於某種程度上，甚至帶上了意識形態的色彩。這成為了本屆國際機器人與自動化會議（ICRA）現場最引人關注的話題。在會議第二天，UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講，發表了他對具身數據採集、數據飛輪、GAP 系統，以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。過去幾年，隨著 ChatGPT、視覺語言動作模型（VLA）和人形機器人熱潮興起，依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律，人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻，乃至真正的通用機器人。對此，Ken Goldberg 提出了靈魂之問：什麼時候？“如果按照人類平均閱讀速度計算，閱讀完今天訓練大型語言模型所使用的全部數據，大約需要10萬年。而換算到機器人領域，我們目前積累的數據總量，大概只相當於幾年的規模。”具身智能數據鴻溝的抽象討論背後，是一組恐怖的對比數據。Ken Goldberg 相信，這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程，在一條更可靠的具身落地路徑上，工程架構、模塊設計和物理建模仍然不可替代。在演講中，Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率，到構建大規模仿真數據集，再到訓練神經網絡完成真實世界抓取，這個近十年前的嘗試對於今天的具身智能仍有啟示，那就是數據與工程方法的深度結合，效果遠勝單純的數據堆砌。當下對數據飛輪的討論同樣可以納入這一框架，大規模商業部署，首先關注的必然是讓機器人做出有用的事情，這離不開對工程層面的關注。數據還是工程？對於這個困擾行業已久的問題，Ken Goldberg 認為答案或許不是二選一。當前炙手可熱的 VLA 模型擁有驚人的泛化潛力，卻容易在環境發生細微變化時失效。傳統工程系統雖然缺乏通用性，但可靠性見長的特點卻讓二者看起來像是天作之合。讓大語言模型不直接控制機器人，而是生成可解釋、可驗證的計算圖，再由多個智能體協同構建和優化系統。這就是 Ken Goldberg 在仿真、世界模型、遙操作之外，提出的一種全新融合思路。以下是 Ken Goldberg 在 ICRA 2026 大會發表的演講精編稿，AI 科技評論基於原英文演講內容進行了不改原意的翻譯編輯：《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》主講人：Ken Goldberg, UC Berkeley01GOFE 和代碼即策略，能否彌合機器人操作領域長達十萬年的數據鴻溝？今天我想講的是“兩種文化的故事”。大概7歲的時候，我經常熬夜看《Jetsons》。有些人可能還記得，那是一部很棒的動畫片。裡面有一個機器人，她會做所有家務，然後陪孩子們玩。我當時覺得太棒了，從小我就一直想擁有這樣的機器人。事實上，我父親和我真的一起造過一個機器人。那是給他的鉻電鍍公司做的，一個機器人吊運機。它其實從來沒有真正成功運行過，不過說實話，我們當時做的很多東西都沒成功。正如 Alex 提到的那樣，我小時候同時對科學和藝術感興趣。隨著年齡增長，我越來越意識到這兩者之間存在著一道鴻溝。這讓我想起 C. P. Snow 所描述的“兩種文化”——科學家和藝術家看待世界的方式截然不同。後來我去了卡內基梅隆大學，投入到了科學研究中，專注於解決問題。我至今仍然記得某個時刻，當所有事情突然串聯起來時的感覺。那種感覺真的很奇妙，彷彿宇宙中有某種力量在推動這一切發生。與此同時，晚上我還會偷偷在實驗室裡用機器人創作藝術作品。我的導師 Matt Mason 後來發現了這件事，因為我把油漆灑在了地板上，所以不得不承認自己在幹什麼。結果他說：“好吧，繼續做下去。”他非常支持我。這件事讓我非常開心。幾年後，我們完成了一個叫做 Telegarden 的項目。在互聯網發展的早期階段，我們把機器人接入網絡，人們可以在線操控機器人來照料花園。再後來，我和 Katie Kuan 合作完成了一個項目。她畢業於斯坦福大學機器人學博士項目，同時也是一位職業舞者。我們一起做了一場舞蹈表演，當然跳舞的不是我，而是一臺小機器人。可以說，我一直試圖在科學與藝術這兩種文化之間搭建橋樑。但正如 Alex 所說，還有另外兩種文化，是我後來逐漸研究並不斷思考的：機器人學內部的文化，以及機器人學外部的文化。有人曾開玩笑說，一臺機器人叫 Robotics（機器人學），十臺月球機器人就是 Roger Biller 說的 Automation（自動化）。我曾參與創辦《IEEE Transactions on Automation Science and Engineering》，它是《IEEE Transactions on Robotics》的補充。如今這兩個期刊都發展得很好。現在我們還有一個新的組織叫做 CASER，這是 Jim Hutchinson 命名的委員會，目的是探索自動化與機器人之間的協同效應。這個工作至今仍在繼續，他們週四也有會議。好了，說到“兩種文化”，今天我真正想討論的是另外一組文化。這是我在 ICRA 社區中看到的兩種文化：一種是 Model-Based（基於模型），另一種是 Model-Free（無模型）。我認為前者可以追溯到牛頓時代。這是我們在大學裡學習了很久，並且今天依然在教授的內容。它構成了機器人操作（manipulation）的核心基礎，也支撐著諸如《Algorithmic Foundations of Robotics》等會議和大量學術成果。然而到了2012年，情況發生了變化。以深度學習為代表的 Model-Free 方法取得了重大突破。最早是深度學習，然後是 Transformer，再後來是 Diffusion Model。到了2021年，人們又開始重新討論人形機器人。大家可能還記得，第一款“人形機器人”就是在 Tesla AI Day 上發佈的。當然，它並沒有真正騙過任何人。不過 Elon Musk 當時承諾：“未來 Tesla Bot 會來到這裡。”那是2021年。這件事吸引了大量關注。隨後到了2022年底，我們迎來了 ChatGPT 時刻。那天早上醒來時，我們突然意識到，圖靈測試也許沒有被正式宣佈解決，但它實際上已經被通過了。接下來發生了一系列重大進展。到了2023年，VLA（Vision-Language-Action）模型迅速出現。同樣的思想被擴展到了機器人領域，攝像頭和傳感器作為輸入，中間是一個大型神經網絡，輸出則是機器人動作，這是一個端到端系統。我認為這真正催生了兩種文化。許多人對右邊這條路線——Model-Free、VLA 路線——充滿熱情。如果我現在做個現場投票，我相信會有大量聽眾支持這一方向。所以我想借今天的時間，稍微深入討論一下這個問題。首先從機器人數據鴻溝開始。必須承認，自2025年以來，這個領域的發展勢頭越來越強。Jensen Huang 曾站在舞臺上展示大量人形機器人。今年他更進一步，不僅展示人形機器人，還展示各種機器設備。他提出了“Physical Intelligence（物理智能）”和“Physical AI（物理人工智能）”的概念，並表示這將是一個價值50萬億美元的市場。這幾乎相當於全球勞動力成本的一半。因此大量資本正在湧入。所有人都在問，機器人領域什麼時候會迎來屬於自己的 ChatGPT 時刻？很多人的回答是，大數據解決了視覺問題，大數據解決了語言問題，因此，大數據也會解決機器人問題。對此我基本同意。但我真正想問的問題是，這件事什麼時候會發生？我知道它終將發生，但我不知道具體時間。視覺本質上是二維狀態空間，語言可以看作一維 Token 序列，而機器人系統的狀態空間維度極高。如果討論一個人形機器人，僅僅是一雙25自由度的手，加上手臂，很快就達到50維以上。與此同時，我們還沒有像互聯網那樣的大規模機器人訓練數據。那麼這個類比究竟如何成立？因此我們做了一項分析，部分基於 Michael Black 的工作。結果發現，機器人領域擁有的數據量極其微小。與大語言模型相比，幾乎微不足道。於是我們提出了“機器人數據鴻溝”這個概念。如果按照人類平均閱讀速度計算，閱讀完今天訓練大型語言模型所使用的全部數據，大約需要10萬年。而換算到機器人領域，我們目前積累的數據總量，大概只相當於幾年的規模。這就是巨大的差距。當然，也有人會說，數據就是一切。但我想對此提出一點質疑。以 Waymo 和 Tesla 為例。Tesla 長期積累的數據量大約達到90億英里駕駛數據。粗略估計，比 Waymo 多出約50倍。具體數字可能略有偏差，但數量級就是如此。然而在脫離接管率（disengagement）等指標上，Waymo 的表現往往更好。當然，你可以說這與激光雷達有關。但我想借此提出一個問題：數據真的是唯一需要的東西嗎？我和 Waymo 的朋友聊過這個問題。他們告訴我：“是的，我們使用了大量數據訓練車輛，但系統內部仍然包含大量傳統工程技術。”所謂傳統工程技術，意味著系統由許多模塊組成。這些模塊使用卡爾曼濾波器、優化器以及各種數學模型。它們被組合起來，共同完成任務。模塊化系統具有明確接口，可以組合、分析和驗證，這與端到端 VLA 系統形成了鮮明對比。這正是我所說的“兩種文化”，一邊是基於模型的方法，另一邊是無模型方法。很多人其實同時屬於這兩個陣營，比如我本人。我是 Open X-Embodiment 那篇論文的共同作者之一，那篇論文有150位作者參與。如果你去看那篇論文，它提出了一個非常重要的觀點：通過在16萬個不同任務上進行訓練，模型正在走向通用性（generality）。但我對此有一點疑問。如果你對這些任務做一個統計分析，看看用於描述任務的語言分佈，會發現最常見的詞是“pick（抓取）”、“move（移動）”、“push（推動）”。這些詞出現的頻率遠遠高於其他詞。換句話說，這16萬個任務中的絕大部分，其實最終都可以歸結為一個非常簡單的任務，把物體0拿起來，放到物體1上。而有趣的是，這正是 John Craig 機器人學教材第三章講的內容。那本書寫於 VLA 出現之前很多年，它給出了大量經典工程方法來解決這個任務。只要你有一個視覺模塊找到目標，有一個抓取模塊，有一個運動規劃模塊，然後整個系統就能完成任務。所以我想說的是，我非常喜歡這些 VLA 系統。它們非常有趣，也非常令人興奮。但很多時候，傳統工程方法依然能夠把工作完成得很好。再回到這兩種文化。坦率地說，兩者之間存在某種緊張關係，甚至帶有一點意識形態色彩，有些人堅定站在某一邊。我想稍微深入討論一下。接下來講一個關於 Covariant Robotics 的故事。實際上，在過去45年裡，我一直在研究同一個問題，機器人如何抓取物體。有人說這是因為我小時候特別笨手笨腳，這是我母親的理論。但無論如何，人類在抓取方面確實極其擅長。到了2012年，深度學習革命開始了。正如大家都知道的，海量數據、強大的計算能力、新的訓練算法……當時我和 Shankar Sastry、Pieter Abbeel 以及幾位研究生一起開設了一門機器人操作課程。課程內容基本還是傳統機器人學教材裡的經典工程方法，但與此同時，我們也在關注計算機視覺領域發生的事情，尤其是在圖像分類和標註方面取得的巨大進展。這些成果很大程度上來源於 ImageNet。Fei-Fei Li 系統性地收集了海量標註圖像數據，於是我們開始思考，能不能把同樣的思路用於抓取問題？因此我們啟動了 Dex-Net 項目。為了向 Fei-Fei Li 致敬，我們也希望建立一個大型數據集。不過不是圖像標註數據。而是三維物體模型，以及針對這些物體的大量抓取方案。幸運的是，我的博士生 Jeff Mahler 對這個項目非常投入。他開始從互聯網各處收集三維模型，許多學生也加入進來。他們清理模型、統一格式、構建數據庫。一個典型的 CAD 模型可能包含上千個三角面片。對於平行夾爪而言，一次抓取對應兩個接觸點，也就是兩個面片。因此一個物體可能對應數百萬種抓取方式。接下來我們思考，如何建模抓取過程中的不確定性？我們建立了一個概率圖模型，把所有變量都看作隨機變量，它們之間存在條件概率關係。最終我們關心的問題是，某一次抓取成功的概率是多少？舉個例子。對於某個標稱抓取姿態，我們知道現實中一定存在誤差。我們不知道真實接觸點在哪裡，因為物體位姿有誤差，夾爪位姿有誤差，物體形狀有誤差，質心位置也有誤差。因此我們從這些概率分佈中不斷採樣，統計成功和失敗次數，然後利用蒙特卡洛積分計算成功概率。結果如圖所示：左邊那個抓取成功率約為22%，右邊那個抓取成功率約為92%。這其實非常符合直覺。左邊的抓取非常脆弱，一點點誤差就會失敗，右邊則具有自校正能力，即使存在誤差，依然能夠成功。這才是現實中真正想要的魯棒抓取。接下來我們關注感知問題。我們決定使用深度傳感器，因為我們關心的是物體的三維幾何形狀，而不是顏色或紋理。深度信息對此非常有幫助，但深度傳感器本身噪聲很大。如果大家使用過，就會知道，尤其面對反光表面或透明物體時，噪聲會非常明顯。我們建立了一個傳感器噪聲模型。我們知道物體的三維 CAD 模型，於是模擬深度相機觀察該物體時的結果，並加入噪聲，這樣我們得到一個觀測值 y。它符合真實傳感器的統計特性，然後把這個觀測值與具體抓取動作和成功概率對應起來，這樣就得到一個訓練樣本。接著利用雲計算平臺大規模生成數據。我們擁有約15000個物體模型，對數百萬個抓取方案進行評估，最終獲得一個巨大數據集。其中既包含大量成功樣本，也包含大量失敗樣本。然後我們訓練神經網絡。當時這是一個非常大的網絡，參數規模接近十億級。訓練最終收斂，在保留測試集上表現良好。換句話說，給它一張帶噪聲的深度圖像，再給定一個抓取姿態，它能夠預測抓取成功概率，而且泛化能力很好。接下來我們把它用於真實控制。流程是先輸入一個雜亂堆放物體的料箱圖像，生成大量候選抓取，利用神經網絡快速評估每個抓取的成功概率，然後選擇成功率最高的方案執行。這就是2017至2018年左右的 Dex-Net 系統。左邊展示的是吸盤抓取器，右邊展示的是平行夾爪。如果仔細觀察會發現，它並不是每次都成功，但成功率已經高得驚人，在當時屬於世界領先水平。我們經常找來數百個訓練集中從未出現過的物體，這些東西來自家裡、車庫、各種地方，系統依然能夠穩定清空整個料箱。後來這項工作獲得了不少關注，甚至引起 Jeff Bezos 的興趣。當時他是 Amazon 的 CEO，他邀請我們到現場展示系統。所有做機器人研究的人都知道，實驗室裡的機器人能運行是一回事，把它運到別的地方演示是另一回事，這非常讓人緊張。我們必須把整套系統打包運輸，而此前它從未離開過實驗室。我們擔心無數問題，運輸損壞、燈光變化、環境變化，還有各種不可預見情況。但幸運的是，一切居然正常工作。我們帶去了三箱測試物體，Jeff Bezos 來到現場，開始親自擺弄那些物體。一開始系統表現得非常好，直到出現一個意外。他的助手 Ty Brady 脫下自己的鞋，走上前說，能試試抓我的鞋嗎？我要告訴大家，當時我們從來沒有用鞋測試過，從來沒有。當時我整個人都僵住了，但還能怎麼辦呢？於是他說，來吧，然後把鞋扔進料箱。我屏住呼吸，因為 Jeff Bezos 就站在那裡。機器人伸出手臂，緩緩移動過去，夾住那隻鞋，成功抓起。我可以坦白說，那一刻可能是我人生中最美好的時刻之一。高壓演示環境下，一切居然成功了。第二天，我們受到巨大鼓舞。Jeff Mahler 和另外三位即將畢業的學生一起創辦了公司，我也是聯合創始人之一，這家公司後來發展成為 Ambi Robotics。Ambi Robotics 的發展是一段漫長的旅程，我們持續構建和擴展整個系統，而就在這個過程中，新冠疫情爆發了。幸運的是，我們當時研究的問題——包裹分揀——被認定為關鍵基礎設施業務，因此我們獲准繼續開展研發工作。後來我們開發出了一套系統，叫做 AmbiSort。AmbiSort 的核心思想依然來自 Dex-Net。它從料箱中抓取物體，只不過這裡的物體不再是零件，而是包裹。大家可以想象這個問題有多複雜，系統首先獲取深度圖像，然後工業機器人伸出機械臂抓取包裹，接著掃描包裹上的郵編信息。最後根據目的地，把包裹放入對應的分揀箱。這是我們最早的一段演示視頻。當時我們的願景是，把這樣的系統部署到全國各地的物流中心，因為這是幾乎所有物流配送中心都會遇到的問題。很高興的是，我們後來真的做到了。如今系統已經部署在美國各地。我們與主要物流公司合作，他們使用 AmbiSort 系統完成自動化分揀。這時你可能會說，等等，你剛才不是在質疑數據至上嗎？Dex-Net 不就是一個依靠大量數據訓練出來的系統嗎？是的，這裡確實用了大量數據。但我要強調的是，僅靠數據遠遠不夠。真正讓系統運行起來的是數據 + 傳統工程，大量工程設計、大量模塊化系統、大量細緻調試。其中一個關鍵模塊就是運動規劃，因為機器人夾爪和手腕結構較大，它必須在非常狹窄的空間中完成複雜運動。尤其是在料箱越來越深的時候，運動規劃變得極其困難。大家都知道運動規劃是機器人學裡的經典問題。但當你要求它在極短時間內完成，而且環境非常擁擠時，問題就變得十分棘手。後來 Jeff Mahler 和 Jackie 提出一個非常聰明的想法，利用神經網絡為運動規劃提供 Warm Start。先用神經網絡預測一個好的初始解，然後再進行規劃，結果效果非常好，規劃時間顯著下降。隨後又有另一批博士生創辦了新公司 Jacobi Robotics，他們專門開發運動規劃軟件，現在已經商業化運營。接下來我想回到“兩種文化”的討論。因為我知道，很多人此刻可能在想，這個人有點老派，他是不是不瞭解《The Bitter Lesson》？其實我非常瞭解《The Bitter Lesson》，我也完全認同它。它的核心觀點是，長期來看，計算能力最終會勝出。我並不是在否認這一點，我的問題始終只有一個，什麼時候？這才是我整場演講真正想討論的問題。因為現實擺在這裡，機器人領域與大語言模型之間仍然存在五個數量級的數據差距。這就是我們面對的現實。那麼數據從哪裡來？我們怎樣獲得足夠的數據？目前主要有幾條路徑。第一條路徑是仿真，這對於無人機來說效果非常好。你可以在仿真中訓練，然後遷移到現實世界。仿真與現實之間的差距非常小，甚至已經能夠擊敗世界級無人機競速冠軍。對於運動控制（Locomotion）也是如此。例如機器狗，今天大家看到的大量成果，都是在仿真環境中訓練出來，然後成功遷移到真實世界的。對於全身運動控制而言，仿真到現實的差距相對較小，因此我們也看到了令人驚歎的成果。但在操作（Manipulation

原始來源：雷峰網 ↗

查看原始來源

IT之家生成式AI

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

OpenAI 最新報告顯示，ChatGPT 全球採用率持續擴大，非英語用戶佔比已超過一半。用戶地域分佈更廣，非洲和亞洲增速最快，35 歲以上用戶群體也在擴大。工作用途中，視覺設計任務增長最快。#ChatGPT##AI#

剛剛閱讀分析

AIBase生成式AI

AI日報：谷歌推新圖片模型Nano Banana 2 Lite；Claude Sonnet 5 發佈；OpenClaw 正式推出 iOS 與 Android 移動版應用

歡迎來到【AI日報】欄目!這裡是你每天探索人工智能世界的指南，每天我們為你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解：https://app.aibase.com/zh1、谷歌推出全新AI生圖模型NanoBanana2Lite：4秒出圖，主打高頻批量內容生產谷歌推出了全新的AI圖像與視頻生成模型NanoBanana2Lite，該模型在運行速度和成本效益方面都有顯著提升。其核心模型Kimi的價格調整不僅未影響需求，反帶來顯著收入增長，顯示出強大的市場競爭力。

34 分鐘前6100閱讀分析

雷峰網生成式AI

殺上閉源前沿，國產最強已經無法滿足 GLM-5.2 了

雷峰網訊過去一週，AI 開發者圈討論的焦點，已經不只是誰又發佈了更強的模型，而是一個更現實的問題，誰還能穩定地調用到最強的模型？隨著美國對於 Fable 5 調用的限制，頂級閉源模型的可獲得性終於成為了懸在開發者頭上的不確定因素。特別是對於已經把大模型深度接入代碼生成、Agent 工作流和企業應用的團隊來說，一個模型哪怕性能再強，只要存在訪問受限、策略調整、價格波動或突然下架的風險，就跟“可靠的基礎設施”不沾邊了。OpenRouter 給出了一種解法，即不要押注單一最佳模型，而是通過多模型協作和模型路由，在不同任務之間動態切換能力最合適的模型。這代表了應用層的一種新趨勢，當最強模型不可控時，開發者開始追求可替代、可組合、可持續的模型系統。就在這個背景下，6 月 17 日 GLM-5.2 的發佈格外觸動神經。硅谷最頂級的風投機構之一a16z 的聯合創始人 Marc Andreessen 在十天後於X 上發文稱，「許多聰明人和 AI 圈內人認為，GLM-5.2 是第一個能夠無妥協地匹敵、甚至超越美國大實驗室公開模型的中國 AI」，並特別點出：「時機妙極，恰逢當下。」這句評價更重要的意義或許在於，他轉述的，正是硅谷圈子裡正在形成的共識—開源的中國模型，在能力上做到了和美國頂級實驗室同臺競技。根據智譜 AI 官方文檔，GLM-5.2 整體表現介於 Claude Opus 4.7 與 Opus 4.8 之間，在 FrontierSWE 等長程編程任務上表現尤其突出，僅落後 Opus 4.8 約 1%，同時超過 GPT-5.5 和 Opus 4.7。另有社區討論也將其視為目前開源模型陣營中，最接近頂級閉源模型的一次躍遷。馬斯克預測智譜大模型大約在 2027 年 Q1 達到 Fable 5，唐傑本人親自下場回覆：用不了那麼久。在一個頂級模型供給越來越不穩定的時間點，開發者擁有了新的可

3 小時前閱讀分析

雷峰網生成式AI

國產 Coding 爭霸賽：MiniMax 爆冷登頂，DeepSeek 性價比稱王

雷峰網訊你很難把 Coding 僅僅視為大模型的諸多能力維度之一。和單純的文本或圖像生成相比，代碼更明確的規則、嚴格的語法和可驗證的結果只是部分原因。更為特殊之處在於，在 ChatBot 到 Agent 這條進化鏈上，Coding 意味著的工具調用、數據處理和複雜流程自動化，幾乎承載了模型從“會說”走向“能幹”的絕大部分期待。一個值得關注的變化是，Coding 正在從眼花繚亂的 Benchmark 榜單中脫穎而出，成為一種模型競爭的基礎設施級指標。無論 OpenAI、Anthropic、Google 還是其他廠商，在發佈新模型時幾乎都會將 Coding 場景作為大秀肌肉的選擇。某種意義上，這就是正在形成中的行業共識，即代碼能力不僅意味著編程水平，更是衡量模型邏輯推理、工具使用和實際生產力的重要角度。我們也很好奇，國產模型如今在 Coding 這條卷生卷死的賽道里已經進化到了何種程度。為此我們選擇了五款以編程能力見長的國產模型，包括 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3，將它們放進同一個真實工程任務的場景裡，並讓 Claude Opus 4.7 擔任裁判模型，從可運行性、正確性、可讀性、可維護性四個維度量化評分。接下來就看看，各家模型的表現如何。編者注：此次測試選用模型，為截至 2026 年 6 月 10 日各家最新款旗艦模型，故隨後發佈的 Kimi K2.7 及 GLM-5.2 均未參賽。對上述兩款模型的測試也將陸續發佈，歡迎關注。01不寫八股文，真正的壓力測試Coding 能力的測試也大有講究。HumanEval、MBPP 這些業界常見的 Coding Benchmark，本質上都在測試模型會不會寫代碼。最常見的模式就是給出一道算法題，看模型能不能給出正確的解法。只能說程序員有自己的八股文

3 小時前閱讀分析

雷峰網生成式AI

阿里速賣通首次公佈618中國品牌出海成交榜

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器此為臨時鏈接，僅用於文章預覽，將在時失效業界正文發私信給徐咪發送 0 阿里速賣通首次公佈618中國品牌出海成交榜本文作者：徐咪 2026-07-01 13:00 導語：阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜，覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍；家電品類阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜，覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍；家電品類中，泳池清潔機器人SEAUTO以黑馬之姿躋身第四；李寧、特步、361°穩居中國出海運動鞋服品牌前三。今年618大促，速賣通品牌成交同比增長90%，品牌成交滲透近40%，進一步鞏固品牌出海全新主場地位。 0人收藏分享：徐咪編輯發私信當月熱門文章藍信發佈2026全棧AI新品，打造100%國產化政企智能辦公新範式美團電話會：“小美”與騰訊“元寶”的合作將於近期上線騰訊雲護航全球16個國家及地區世界盃直播，AI技術首次在世界盃大規模應用 SoulAgent 即將亮相北京智源大會，探索個人智能體在知識服務場景中的應用美團發佈AI瀏覽器Tabbit 1.0，可自動執行各類任務最新文章百花獎聯合即夢AI首設AIGC推優單元，即日啟動全球徵集他山科技聯合圖靈獎得主薩頓共建“機器人幼兒園”，具身智能從“模仿時代”邁向“經驗時代” UC Berkeley Ken Goldberg 教授：具身數據規模落後十萬年，你仍然相信數據萬能嗎？| ICRA 2026 殺上閉源前沿，國產最強已經無法滿足 GLM-5.2 了國產 Coding 爭霸賽：MiniMax 爆冷登頂，DeepSeek

4 小時前閱讀分析

雷峰網生成式AI

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄：砍掉 VAE，是圖像模型的未來嗎？

雷峰網訊 “8B 開源版是一扇窗，真正的風景還在 200B＋參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版（8B）發佈之後，我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前，今天 1.5 閉源版本又和公眾見面了。珠玉在前，HiDream-O1-Image-1.5 可以說是備受矚目，而智象未來的官方口徑很大程度上回應了這種期待：“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力，更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績，你就知道這不是一句空話。已躍升至文生圖模型排名的第3位，超越了Google的Nano Banana 2，僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分，展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構，也在新版本中繼續大放異彩。但今天我們不聊榜單，1.5 版本提出了兩個更值得關心的問題是，一個圖像模型到底需不需要“先想再畫”？以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯？01八維評測拆解：複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手，不碰一下，實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義，我這次把它和 Nana Banana 2 放在了同一條起跑線上，用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話，我把圖像模型能力拆成了八個維度：▪ Prompt 遵循度：能否準確執行文字指令要求▪ 構圖能力：鏡頭組織和視覺重心▪ 攝影語言理解：景深、

5 小時前閱讀分析

相關文章

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

AI日報：谷歌推新圖片模型Nano Banana 2 Lite；Claude Sonnet 5 發佈；OpenClaw 正式推出 iOS 與 Android 移動版應用

殺上閉源前沿，國產最強已經無法滿足 GLM-5.2 了

國產 Coding 爭霸賽：MiniMax 爆冷登頂，DeepSeek 性價比稱王

阿里速賣通首次公佈618中國品牌出海成交榜

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄：砍掉 VAE，是圖像模型的未來嗎？