雷峰網生成式AI

UC Berkeley Ken Goldberg 教授:具身數據規模落後十萬年,你仍然相信數據萬能嗎?| ICRA 2026

2026年7月1日 05:45

重點摘要

雷峰網訊 數以十億計的資金湧入具身智能行業,與此同時,這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下,VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈,以至於某種程度上,甚至帶上了意識形態的色彩。這成為了本屆國際機器人與自動化會議(ICRA)現場最引人關注的話題。在會議第二天,UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講,發表了他對具身數據採集、數據飛輪、GAP 系統,以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。過去幾年,隨著 ChatGPT、視覺語言動作模型(VLA)和人形機器人熱潮興起,依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律,人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻,乃至真正的通用機器人。對此,Ken Goldberg 提出了靈魂之問:什麼時候?“如果按照人類平均閱讀速度計算,閱讀完今天訓練大型語言模型所使用的全部數據,大約需要10萬年。而換算到機器人領域,我們目前積累的數據總量,大概只相當於幾年的規模。”具身智能數據鴻溝的抽象討論背後,是一組恐怖的對比數據。Ken Goldberg 相信,這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程,在一條更可靠的具身落地路徑上,工程架構、模塊設計和物理建模仍然不可替代。在演講中,Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率,到構建大規模仿真數據集,再到訓練神經網絡完成真實世界抓取,這個近十年前的嘗試對於今天的具身

站內 AI 整理稿

雷峰網訊 數以十億計的資金湧入具身智能行業,與此同時,這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下,VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈,以至於某種程度上,甚至帶上了意識形態的色彩。這成為了本屆國際機器人與自動化會議(ICRA)現場最引人關注的話題。在會議第二天,UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講,發表了他對具身數據採集、數據飛輪、GAP 系統,以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。過去幾年,隨著 ChatGPT、視覺語言動作模型(VLA)和人形機器人熱潮興起,依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律,人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻,乃至真正的通用機器人。對此,Ken Goldberg 提出了靈魂之問:什麼時候?“如果按照人類平均閱讀速度計算,閱讀完今天訓練大型語言模型所使用的全部數據,大約需要10萬年。而換算到機器人領域,我們目前積累的數據總量,大概只相當於幾年的規模。”具身智能數據鴻溝的抽象討論背後,是一組恐怖的對比數據。Ken Goldberg 相信,這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程,在一條更可靠的具身落地路徑上,工程架構、模塊設計和物理建模仍然不可替代。在演講中,Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率,到構建大規模仿真數據集,再到訓練神經網絡完成真實世界抓取,這個近十年前的嘗試對於今天的具身智能仍有啟示,那就是數據與工程方法的深度結合,效果遠勝單純的數據堆砌。當下對數據飛輪的討論同樣可以納入這一框架,大規模商業部署,首先關注的必然是讓機器人做出有用的事情,這離不開對工程層面的關注。數據還是工程?對於這個困擾行業已久的問題,Ken Goldberg 認為答案或許不是二選一。當前炙手可熱的 VLA 模型擁有驚人的泛化潛力,卻容易在環境發生細微變化時失效。傳統工程系統雖然缺乏通用性,但可靠性見長的特點卻讓二者看起來像是天作之合。讓大語言模型不直接控制機器人,而是生成可解釋、可驗證的計算圖,再由多個智能體協同構建和優化系統。這就是 Ken Goldberg 在仿真、世界模型、遙操作之外,提出的一種全新融合思路。以下是 Ken Goldberg 在 ICRA 2026 大會發表的演講精編稿,AI 科技評論基於原英文演講內容進行了不改原意的翻譯編輯:《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》主講人:Ken Goldberg, UC Berkeley01GOFE 和代碼即策略,能否彌合機器人操作領域長達十萬年的數據鴻溝?今天我想講的是“兩種文化的故事”。大概7歲的時候,我經常熬夜看《Jetsons》。有些人可能還記得,那是一部很棒的動畫片。裡面有一個機器人,她會做所有家務,然後陪孩子們玩。我當時覺得太棒了,從小我就一直想擁有這樣的機器人。事實上,我父親和我真的一起造過一個機器人。那是給他的鉻電鍍公司做的,一個機器人吊運機。它其實從來沒有真正成功運行過,不過說實話,我們當時做的很多東西都沒成功。正如 Alex 提到的那樣,我小時候同時對科學和藝術感興趣。隨著年齡增長,我越來越意識到這兩者之間存在著一道鴻溝。這讓我想起 C. P. Snow 所描述的“兩種文化”——科學家和藝術家看待世界的方式截然不同。後來我去了卡內基梅隆大學,投入到了科學研究中,專注於解決問題。我至今仍然記得某個時刻,當所有事情突然串聯起來時的感覺。那種感覺真的很奇妙,彷彿宇宙中有某種力量在推動這一切發生。與此同時,晚上我還會偷偷在實驗室裡用機器人創作藝術作品。我的導師 Matt Mason 後來發現了這件事,因為我把油漆灑在了地板上,所以不得不承認自己在幹什麼。結果他說:“好吧,繼續做下去。”他非常支持我。這件事讓我非常開心。幾年後,我們完成了一個叫做 Telegarden 的項目。在互聯網發展的早期階段,我們把機器人接入網絡,人們可以在線操控機器人來照料花園。再後來,我和 Katie Kuan 合作完成了一個項目。她畢業於斯坦福大學機器人學博士項目,同時也是一位職業舞者。我們一起做了一場舞蹈表演,當然跳舞的不是我,而是一臺小機器人。可以說,我一直試圖在科學與藝術這兩種文化之間搭建橋樑。但正如 Alex 所說,還有另外兩種文化,是我後來逐漸研究並不斷思考的:機器人學內部的文化,以及機器人學外部的文化。有人曾開玩笑說,一臺機器人叫 Robotics(機器人學),十臺月球機器人就是 Roger Biller 說的 Automation(自動化)。我曾參與創辦《IEEE Transactions on Automation Science and Engineering》,它是《IEEE Transactions on Robotics》的補充。如今這兩個期刊都發展得很好。現在我們還有一個新的組織叫做 CASER,這是 Jim Hutchinson 命名的委員會,目的是探索自動化與機器人之間的協同效應。這個工作至今仍在繼續,他們週四也有會議。好了,說到“兩種文化”,今天我真正想討論的是另外一組文化。這是我在 ICRA 社區中看到的兩種文化:一種是 Model-Based(基於模型),另一種是 Model-Free(無模型)。我認為前者可以追溯到牛頓時代。這是我們在大學裡學習了很久,並且今天依然在教授的內容。它構成了機器人操作(manipulation)的核心基礎,也支撐著諸如《Algorithmic Foundations of Robotics》等會議和大量學術成果。然而到了2012年,情況發生了變化。以深度學習為代表的 Model-Free 方法取得了重大突破。最早是深度學習,然後是 Transformer,再後來是 Diffusion Model。到了2021年,人們又開始重新討論人形機器人。大家可能還記得,第一款“人形機器人”就是在 Tesla AI Day 上發佈的。當然,它並沒有真正騙過任何人。不過 Elon Musk 當時承諾:“未來 Tesla Bot 會來到這裡。”那是2021年。這件事吸引了大量關注。隨後到了2022年底,我們迎來了 ChatGPT 時刻。那天早上醒來時,我們突然意識到,圖靈測試也許沒有被正式宣佈解決,但它實際上已經被通過了。接下來發生了一系列重大進展。到了2023年,VLA(Vision-Language-Action)模型迅速出現。同樣的思想被擴展到了機器人領域,攝像頭和傳感器作為輸入,中間是一個大型神經網絡,輸出則是機器人動作,這是一個端到端系統。我認為這真正催生了兩種文化。許多人對右邊這條路線——Model-Free、VLA 路線——充滿熱情。如果我現在做個現場投票,我相信會有大量聽眾支持這一方向。所以我想借今天的時間,稍微深入討論一下這個問題。首先從機器人數據鴻溝開始。必須承認,自2025年以來,這個領域的發展勢頭越來越強。Jensen Huang 曾站在舞臺上展示大量人形機器人。今年他更進一步,不僅展示人形機器人,還展示各種機器設備。他提出了“Physical Intelligence(物理智能)”和“Physical AI(物理人工智能)”的概念,並表示這將是一個價值50萬億美元的市場。這幾乎相當於全球勞動力成本的一半。因此大量資本正在湧入。所有人都在問,機器人領域什麼時候會迎來屬於自己的 ChatGPT 時刻?很多人的回答是,大數據解決了視覺問題,大數據解決了語言問題,因此,大數據也會解決機器人問題。對此我基本同意。但我真正想問的問題是,這件事什麼時候會發生?我知道它終將發生,但我不知道具體時間。視覺本質上是二維狀態空間,語言可以看作一維 Token 序列,而機器人系統的狀態空間維度極高。如果討論一個人形機器人,僅僅是一雙25自由度的手,加上手臂,很快就達到50維以上。與此同時,我們還沒有像互聯網那樣的大規模機器人訓練數據。那麼這個類比究竟如何成立?因此我們做了一項分析,部分基於 Michael Black 的工作。結果發現,機器人領域擁有的數據量極其微小。與大語言模型相比,幾乎微不足道。於是我們提出了“機器人數據鴻溝”這個概念。如果按照人類平均閱讀速度計算,閱讀完今天訓練大型語言模型所使用的全部數據,大約需要10萬年。而換算到機器人領域,我們目前積累的數據總量,大概只相當於幾年的規模。這就是巨大的差距。當然,也有人會說,數據就是一切。但我想對此提出一點質疑。以 Waymo 和 Tesla 為例。Tesla 長期積累的數據量大約達到90億英里駕駛數據。粗略估計,比 Waymo 多出約50倍。具體數字可能略有偏差,但數量級就是如此。然而在脫離接管率(disengagement)等指標上,Waymo 的表現往往更好。當然,你可以說這與激光雷達有關。但我想借此提出一個問題:數據真的是唯一需要的東西嗎?我和 Waymo 的朋友聊過這個問題。他們告訴我:“是的,我們使用了大量數據訓練車輛,但系統內部仍然包含大量傳統工程技術。”所謂傳統工程技術,意味著系統由許多模塊組成。這些模塊使用卡爾曼濾波器、優化器以及各種數學模型。它們被組合起來,共同完成任務。模塊化系統具有明確接口,可以組合、分析和驗證,這與端到端 VLA 系統形成了鮮明對比。這正是我所說的“兩種文化”,一邊是基於模型的方法,另一邊是無模型方法。很多人其實同時屬於這兩個陣營,比如我本人。我是 Open X-Embodiment 那篇論文的共同作者之一,那篇論文有150位作者參與。如果你去看那篇論文,它提出了一個非常重要的觀點:通過在16萬個不同任務上進行訓練,模型正在走向通用性(generality)。但我對此有一點疑問。如果你對這些任務做一個統計分析,看看用於描述任務的語言分佈,會發現最常見的詞是“pick(抓取)”、“move(移動)”、“push(推動)”。這些詞出現的頻率遠遠高於其他詞。換句話說,這16萬個任務中的絕大部分,其實最終都可以歸結為一個非常簡單的任務,把物體0拿起來,放到物體1上。而有趣的是,這正是 John Craig 機器人學教材第三章講的內容。那本書寫於 VLA 出現之前很多年,它給出了大量經典工程方法來解決這個任務。只要你有一個視覺模塊找到目標,有一個抓取模塊,有一個運動規劃模塊,然後整個系統就能完成任務。所以我想說的是,我非常喜歡這些 VLA 系統。它們非常有趣,也非常令人興奮。但很多時候,傳統工程方法依然能夠把工作完成得很好。再回到這兩種文化。坦率地說,兩者之間存在某種緊張關係,甚至帶有一點意識形態色彩,有些人堅定站在某一邊。我想稍微深入討論一下。接下來講一個關於 Covariant Robotics 的故事。實際上,在過去45年裡,我一直在研究同一個問題,機器人如何抓取物體。有人說這是因為我小時候特別笨手笨腳,這是我母親的理論。但無論如何,人類在抓取方面確實極其擅長。到了2012年,深度學習革命開始了。正如大家都知道的,海量數據、強大的計算能力、新的訓練算法……當時我和 Shankar Sastry、Pieter Abbeel 以及幾位研究生一起開設了一門機器人操作課程。課程內容基本還是傳統機器人學教材裡的經典工程方法,但與此同時,我們也在關注計算機視覺領域發生的事情,尤其是在圖像分類和標註方面取得的巨大進展。這些成果很大程度上來源於 ImageNet。Fei-Fei Li 系統性地收集了海量標註圖像數據,於是我們開始思考,能不能把同樣的思路用於抓取問題?因此我們啟動了 Dex-Net 項目。為了向 Fei-Fei Li 致敬,我們也希望建立一個大型數據集。不過不是圖像標註數據。而是三維物體模型,以及針對這些物體的大量抓取方案。幸運的是,我的博士生 Jeff Mahler 對這個項目非常投入。他開始從互聯網各處收集三維模型,許多學生也加入進來。他們清理模型、統一格式、構建數據庫。一個典型的 CAD 模型可能包含上千個三角面片。對於平行夾爪而言,一次抓取對應兩個接觸點,也就是兩個面片。因此一個物體可能對應數百萬種抓取方式。接下來我們思考,如何建模抓取過程中的不確定性?我們建立了一個概率圖模型,把所有變量都看作隨機變量,它們之間存在條件概率關係。最終我們關心的問題是,某一次抓取成功的概率是多少?舉個例子。對於某個標稱抓取姿態,我們知道現實中一定存在誤差。我們不知道真實接觸點在哪裡,因為物體位姿有誤差,夾爪位姿有誤差,物體形狀有誤差,質心位置也有誤差。因此我們從這些概率分佈中不斷採樣,統計成功和失敗次數,然後利用蒙特卡洛積分計算成功概率。結果如圖所示:左邊那個抓取成功率約為22%,右邊那個抓取成功率約為92%。這其實非常符合直覺。左邊的抓取非常脆弱,一點點誤差就會失敗,右邊則具有自校正能力,即使存在誤差,依然能夠成功。這才是現實中真正想要的魯棒抓取。接下來我們關注感知問題。我們決定使用深度傳感器,因為我們關心的是物體的三維幾何形狀,而不是顏色或紋理。深度信息對此非常有幫助,但深度傳感器本身噪聲很大。如果大家使用過,就會知道,尤其面對反光表面或透明物體時,噪聲會非常明顯。我們建立了一個傳感器噪聲模型。我們知道物體的三維 CAD 模型,於是模擬深度相機觀察該物體時的結果,並加入噪聲,這樣我們得到一個觀測值 y。它符合真實傳感器的統計特性,然後把這個觀測值與具體抓取動作和成功概率對應起來,這樣就得到一個訓練樣本。接著利用雲計算平臺大規模生成數據。我們擁有約15000個物體模型,對數百萬個抓取方案進行評估,最終獲得一個巨大數據集。其中既包含大量成功樣本,也包含大量失敗樣本。然後我們訓練神經網絡。當時這是一個非常大的網絡,參數規模接近十億級。訓練最終收斂,在保留測試集上表現良好。換句話說,給它一張帶噪聲的深度圖像,再給定一個抓取姿態,它能夠預測抓取成功概率,而且泛化能力很好。接下來我們把它用於真實控制。流程是先輸入一個雜亂堆放物體的料箱圖像,生成大量候選抓取,利用神經網絡快速評估每個抓取的成功概率,然後選擇成功率最高的方案執行。這就是2017至2018年左右的 Dex-Net 系統。左邊展示的是吸盤抓取器,右邊展示的是平行夾爪。如果仔細觀察會發現,它並不是每次都成功,但成功率已經高得驚人,在當時屬於世界領先水平。我們經常找來數百個訓練集中從未出現過的物體,這些東西來自家裡、車庫、各種地方,系統依然能夠穩定清空整個料箱。後來這項工作獲得了不少關注,甚至引起 Jeff Bezos 的興趣。當時他是 Amazon 的 CEO,他邀請我們到現場展示系統。所有做機器人研究的人都知道,實驗室裡的機器人能運行是一回事,把它運到別的地方演示是另一回事,這非常讓人緊張。我們必須把整套系統打包運輸,而此前它從未離開過實驗室。我們擔心無數問題,運輸損壞、燈光變化、環境變化,還有各種不可預見情況。但幸運的是,一切居然正常工作。我們帶去了三箱測試物體,Jeff Bezos 來到現場,開始親自擺弄那些物體。一開始系統表現得非常好,直到出現一個意外。他的助手 Ty Brady 脫下自己的鞋,走上前說,能試試抓我的鞋嗎?我要告訴大家,當時我們從來沒有用鞋測試過,從來沒有。當時我整個人都僵住了,但還能怎麼辦呢?於是他說,來吧,然後把鞋扔進料箱。我屏住呼吸,因為 Jeff Bezos 就站在那裡。機器人伸出手臂,緩緩移動過去,夾住那隻鞋,成功抓起。我可以坦白說,那一刻可能是我人生中最美好的時刻之一。高壓演示環境下,一切居然成功了。第二天,我們受到巨大鼓舞。Jeff Mahler 和另外三位即將畢業的學生一起創辦了公司,我也是聯合創始人之一,這家公司後來發展成為 Ambi Robotics。Ambi Robotics 的發展是一段漫長的旅程,我們持續構建和擴展整個系統,而就在這個過程中,新冠疫情爆發了。幸運的是,我們當時研究的問題——包裹分揀——被認定為關鍵基礎設施業務,因此我們獲准繼續開展研發工作。後來我們開發出了一套系統,叫做 AmbiSort。AmbiSort 的核心思想依然來自 Dex-Net。它從料箱中抓取物體,只不過這裡的物體不再是零件,而是包裹。大家可以想象這個問題有多複雜,系統首先獲取深度圖像,然後工業機器人伸出機械臂抓取包裹,接著掃描包裹上的郵編信息。最後根據目的地,把包裹放入對應的分揀箱。這是我們最早的一段演示視頻。當時我們的願景是,把這樣的系統部署到全國各地的物流中心,因為這是幾乎所有物流配送中心都會遇到的問題。很高興的是,我們後來真的做到了。如今系統已經部署在美國各地。我們與主要物流公司合作,他們使用 AmbiSort 系統完成自動化分揀。這時你可能會說,等等,你剛才不是在質疑數據至上嗎?Dex-Net 不就是一個依靠大量數據訓練出來的系統嗎?是的,這裡確實用了大量數據。但我要強調的是,僅靠數據遠遠不夠。真正讓系統運行起來的是數據 + 傳統工程,大量工程設計、大量模塊化系統、大量細緻調試。其中一個關鍵模塊就是運動規劃,因為機器人夾爪和手腕結構較大,它必須在非常狹窄的空間中完成複雜運動。尤其是在料箱越來越深的時候,運動規劃變得極其困難。大家都知道運動規劃是機器人學裡的經典問題。但當你要求它在極短時間內完成,而且環境非常擁擠時,問題就變得十分棘手。後來 Jeff Mahler 和 Jackie 提出一個非常聰明的想法,利用神經網絡為運動規劃提供 Warm Start。先用神經網絡預測一個好的初始解,然後再進行規劃,結果效果非常好,規劃時間顯著下降。隨後又有另一批博士生創辦了新公司 Jacobi Robotics,他們專門開發運動規劃軟件,現在已經商業化運營。接下來我想回到“兩種文化”的討論。因為我知道,很多人此刻可能在想,這個人有點老派,他是不是不瞭解《The Bitter Lesson》?其實我非常瞭解《The Bitter Lesson》,我也完全認同它。它的核心觀點是,長期來看,計算能力最終會勝出。我並不是在否認這一點,我的問題始終只有一個,什麼時候?這才是我整場演講真正想討論的問題。因為現實擺在這裡,機器人領域與大語言模型之間仍然存在五個數量級的數據差距。這就是我們面對的現實。那麼數據從哪裡來?我們怎樣獲得足夠的數據?目前主要有幾條路徑。第一條路徑是仿真,這對於無人機來說效果非常好。你可以在仿真中訓練,然後遷移到現實世界。仿真與現實之間的差距非常小,甚至已經能夠擊敗世界級無人機競速冠軍。對於運動控制(Locomotion)也是如此。例如機器狗,今天大家看到的大量成果,都是在仿真環境中訓練出來,然後成功遷移到真實世界的。對於全身運動控制而言,仿真到現實的差距相對較小,因此我們也看到了令人驚歎的成果。但在操作(Manipulation

Related

相關文章

AI日報:谷歌推新圖片模型Nano Banana 2 Lite;Claude Sonnet 5 發佈;OpenClaw 正式推出 iOS 與 Android 移動版應用

歡迎來到【AI日報】欄目!這裡是你每天探索人工智能世界的指南,每天我們為你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解:https://app.aibase.com/zh1、谷歌推出全新AI生圖模型NanoBanana2Lite:4秒出圖,主打高頻批量內容生產谷歌推出了全新的AI圖像與視頻生成模型NanoBanana2Lite,該模型在運行速度和成本效益方面都有顯著提升。其核心模型Kimi的價格調整不僅未影響需求,反帶來顯著收入增長,顯示出強大的市場競爭力。

34 分鐘前6100
雷峰網生成式AI

殺上閉源前沿,國產最強已經無法滿足 GLM-5.2 了

雷峰網訊 過去一週,AI 開發者圈討論的焦點,已經不只是誰又發佈了更強的模型,而是一個更現實的問題,誰還能穩定地調用到最強的模型?隨著美國對於 Fable 5 調用的限制,頂級閉源模型的可獲得性終於成為了懸在開發者頭上的不確定因素。特別是對於已經把大模型深度接入代碼生成、Agent 工作流和企業應用的團隊來說,一個模型哪怕性能再強,只要存在訪問受限、策略調整、價格波動或突然下架的風險,就跟“可靠的基礎設施”不沾邊了。OpenRouter 給出了一種解法,即不要押注單一最佳模型,而是通過多模型協作和模型路由,在不同任務之間動態切換能力最合適的模型。這代表了應用層的一種新趨勢,當最強模型不可控時,開發者開始追求可替代、可組合、可持續的模型系統。就在這個背景下,6 月 17 日 GLM-5.2 的發佈格外觸動神經。硅谷最頂級的風投機構之一a16z 的聯合創始人 Marc Andreessen 在 十天後於X 上發文稱,「許多聰明人和 AI 圈內人認為,GLM-5.2 是第一個能夠無妥協地匹敵、甚至超越美國大實驗室公開模型的中國 AI」,並特別點出:「時機妙極,恰逢當下。」這句評價更重要的意義或許在於,他轉述的,正是硅谷圈子裡正在形成的共識—開源的中國模型,在能力上做到了和美國頂級實驗室同臺競技。根據智譜 AI 官方文檔,GLM-5.2 整體表現介於 Claude Opus 4.7 與 Opus 4.8 之間,在 FrontierSWE 等長程編程任務上表現尤其突出,僅落後 Opus 4.8 約 1%,同時超過 GPT-5.5 和 Opus 4.7。另有社區討論也將其視為目前開源模型陣營中,最接近頂級閉源模型的一次躍遷。馬斯克預測智譜大模型大約在 2027 年 Q1 達到 Fable 5,唐傑本人親自下場回覆:用不了那麼久。在一個頂級模型供給越來越不穩定的時間點,開發者擁有了新的可

3 小時前
雷峰網生成式AI

國產 Coding 爭霸賽:MiniMax 爆冷登頂,DeepSeek 性價比稱王

雷峰網訊 你很難把 Coding 僅僅視為大模型的諸多能力維度之一。和單純的文本或圖像生成相比,代碼更明確的規則、嚴格的語法和可驗證的結果只是部分原因。更為特殊之處在於,在 ChatBot 到 Agent 這條進化鏈上,Coding 意味著的工具調用、數據處理和複雜流程自動化,幾乎承載了模型從“會說”走向“能幹”的絕大部分期待。一個值得關注的變化是,Coding 正在從眼花繚亂的 Benchmark 榜單中脫穎而出,成為一種模型競爭的基礎設施級指標。無論 OpenAI、Anthropic、Google 還是其他廠商,在發佈新模型時幾乎都會將 Coding 場景作為大秀肌肉的選擇。某種意義上,這就是正在形成中的行業共識,即代碼能力不僅意味著編程水平,更是衡量模型邏輯推理、工具使用和實際生產力的重要角度。我們也很好奇,國產模型如今在 Coding 這條卷生卷死的賽道里已經進化到了何種程度。為此我們選擇了五款以編程能力見長的國產模型,包括 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3,將它們放進同一個真實工程任務的場景裡,並讓 Claude Opus 4.7 擔任裁判模型,從可運行性、正確性、可讀性、可維護性四個維度量化評分。接下來就看看,各家模型的表現如何。編者注:此次測試選用模型,為截至 2026 年 6 月 10 日各家最新款旗艦模型,故隨後發佈的 Kimi K2.7 及 GLM-5.2 均未參賽。對上述兩款模型的測試也將陸續發佈,歡迎關注。01不寫八股文,真正的壓力測試Coding 能力的測試也大有講究。HumanEval、MBPP 這些業界常見的 Coding Benchmark,本質上都在測試模型會不會寫代碼。最常見的模式就是給出一道算法題,看模型能不能給出正確的解法。只能說程序員有自己的八股文

3 小時前
雷峰網生成式AI

阿里速賣通首次公佈618中國品牌出海成交榜

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器 此為臨時鏈接,僅用於文章預覽,將在時失效 業界 正文 發私信給徐咪 發送 0 阿里速賣通首次公佈618中國品牌出海成交榜 本文作者: 徐咪 2026-07-01 13:00 導語:阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜,覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍;家電品類 阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜,覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍;家電品類中,泳池清潔機器人SEAUTO以黑馬之姿躋身第四;李寧、特步、361°穩居中國出海運動鞋服品牌前三。今年618大促,速賣通品牌成交同比增長90%,品牌成交滲透近40%,進一步鞏固品牌出海全新主場地位。 0人收藏 分享: 徐咪 編輯 發私信 當月熱門文章 藍信發佈2026全棧AI新品,打造100%國產化政企智能辦公新範式 美團電話會:“小美”與騰訊“元寶”的合作將於近期上線 騰訊雲護航全球16個國家及地區世界盃直播,AI技術首次在世界盃大規模應用 SoulAgent 即將亮相北京智源大會,探索個人智能體在知識服務場景中的應用 美團發佈AI瀏覽器Tabbit 1.0,可自動執行各類任務 最新文章 百花獎聯合即夢AI首設AIGC推優單元,即日啟動全球徵集 他山科技聯合圖靈獎得主薩頓共建“機器人幼兒園”,具身智能從“模仿時代”邁向“經驗時代” UC Berkeley Ken Goldberg 教授:具身數據規模落後十萬年,你仍然相信數據萬能嗎?| ICRA 2026 殺上閉源前沿,國產最強已經無法滿足 GLM-5.2 了 國產 Coding 爭霸賽:MiniMax 爆冷登頂,DeepSeek

4 小時前
雷峰網生成式AI

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄:砍掉 VAE,是圖像模型的未來嗎?

雷峰網訊 “8B 開源版是一扇窗,真正的風景還在 200B+ 參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版(8B)發佈之後,我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前,今天 1.5 閉源版本又和公眾見面了。珠玉在前,HiDream-O1-Image-1.5 可以說是備受矚目,而智象未來的官方口徑很大程度上回應了這種期待:“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力,更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績,你就知道這不是一句空話。已躍升至文生圖模型排名的第3位,超越了Google的Nano Banana 2,僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分,展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構,也在新版本中繼續大放異彩。但今天我們不聊榜單,1.5 版本提出了兩個更值得關心的問題是,一個圖像模型到底需不需要“先想再畫”?以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯?01八維評測拆解:複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手,不碰一下,實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義,我這次把它和 Nana Banana 2 放在了同一條起跑線上,用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話,我把圖像模型能力拆成了八個維度:▪ Prompt 遵循度:能否準確執行文字指令要求▪ 構圖能力:鏡頭組織和視覺重心▪ 攝影語言理解:景深、

5 小時前