雷峰網生成式AI

這次登頂 RoboChallenge 的,終於是「能幹活」的機器人了

2026年5月26日 08:28

重點摘要

RoboChallenge奪冠只是開始,落地才是真正的“大考”。 作者丨高景輝 編輯丨馬曉寧 具身智能的熱度之高毋庸置疑,就連我們身邊不關注科技新聞的人,刷短視頻也能時不時刷到幾條機器人。雷峰網也時不時聽到這樣的疑問,機器人都這麼厲害了,怎麼現在街頭巷尾,還是看不到多少幹活的機器人呢?在機器人本體和控制逐漸成熟的現在,莫拉維克悖論就顯得更具有先知意義了:對人類來說需要複雜推理和計算的高階認知任務,計算機容易實現;而對人類而言看似簡單的低級感知與運動技能,就算機器人的身體學會了,但是它們的大腦還學不會。機器人不去幹活,是因為它們不想嗎?是因為它們不會啊。許多具身公司都會將物流分揀當成展示機器人能力的一個窗口,Figure 03人形機器人現在美國某個物流倉庫裡晝夜不停地直播分揀,但真的物流分揀人員看了估計要搖頭:哪有這麼規規整整的包裹,哪有這麼不急不躁、安靜明亮的工作環境啊。具身機器人要想做好泛化性,在隨機環境下還能把工作幹好,最重要的技術難點仍然是具身大腦。不少公司都在不斷推出最新的大腦模型,還附加各種宣傳,但是除了真正的技術專家外,大部分人對於一款大腦模型有多強,還是無感的。所以星動紀元(Robotera)發佈它的自研具身模型Era0登頂 RoboChallenge 榜單的消息時,我的第一反應是,這真的能證明他很厲害嗎?01一個三明治,怎麼就難倒了一堆機器人?這實在不能怪我太鈍感。主要是這兩年來,我們也是被各類大模型榜單轟炸到疲憊了。今天這個第一,明天那個最強,實際呢,還是要用戶體驗說了算。具身模型的能力,要在真機評測上去體驗。如果短期內還不能達到人手一臺的使用率,那我們可以藉助第三方的體驗。仔細查查RoboChallenge,原來這還真是全球首個大規模具身真機評測榜單。那就讓這些模型全部上真機,讓所有人都可以一眼直觀地看出,它們水平到底如何。RoboChallenge 怎

站內 AI 整理稿

RoboChallenge奪冠只是開始,落地才是真正的“大考”。 作者丨高景輝 編輯丨馬曉寧 具身智能的熱度之高毋庸置疑,就連我們身邊不關注科技新聞的人,刷短視頻也能時不時刷到幾條機器人。雷峰網也時不時聽到這樣的疑問,機器人都這麼厲害了,怎麼現在街頭巷尾,還是看不到多少幹活的機器人呢?在機器人本體和控制逐漸成熟的現在,莫拉維克悖論就顯得更具有先知意義了:對人類來說需要複雜推理和計算的高階認知任務,計算機容易實現;而對人類而言看似簡單的低級感知與運動技能,就算機器人的身體學會了,但是它們的大腦還學不會。機器人不去幹活,是因為它們不想嗎?是因為它們不會啊。許多具身公司都會將物流分揀當成展示機器人能力的一個窗口,Figure 03人形機器人現在美國某個物流倉庫裡晝夜不停地直播分揀,但真的物流分揀人員看了估計要搖頭:哪有這麼規規整整的包裹,哪有這麼不急不躁、安靜明亮的工作環境啊。具身機器人要想做好泛化性,在隨機環境下還能把工作幹好,最重要的技術難點仍然是具身大腦。不少公司都在不斷推出最新的大腦模型,還附加各種宣傳,但是除了真正的技術專家外,大部分人對於一款大腦模型有多強,還是無感的。所以星動紀元(Robotera)發佈它的自研具身模型Era0登頂 RoboChallenge 榜單的消息時,我的第一反應是,這真的能證明他很厲害嗎?01一個三明治,怎麼就難倒了一堆機器人?這實在不能怪我太鈍感。主要是這兩年來,我們也是被各類大模型榜單轟炸到疲憊了。今天這個第一,明天那個最強,實際呢,還是要用戶體驗說了算。具身模型的能力,要在真機評測上去體驗。如果短期內還不能達到人手一臺的使用率,那我們可以藉助第三方的體驗。仔細查查RoboChallenge,原來這還真是全球首個大規模具身真機評測榜單。那就讓這些模型全部上真機,讓所有人都可以一眼直觀地看出,它們水平到底如何。RoboChallenge 怎麼去測試具身模型能力呢?他的規定是,在標準化真機環境中,所有參測模型必須完整通過 30 個不同任務才能進入總榜,同時測試環境全程隨機化,物體的擺放位置、光照條件、初始姿態每次都不同,而且所有測試數據完全公開,杜絕了現場調參作弊的可能。雷峰網在 RoboChallenge 的官網上發現了他們公開的30個評測任務和得分榜單,其中SR代表任務成功率,Score代表任務得分率。ERA0在兩項任務中實現了成功率與過程得分的雙滿分表現,一項是把開瓶器放入抽屜(put_opener_in_drawer),一項是擰開水龍頭(turn_on_faucet)。還有兩個任務比較出眾,原因是在 Top8 模型中,Era0是唯一一個取得非零成績的模型。一項是做素食三明治(make_vegetarian_sandwich),該任務涉及多步驟、真實食材處理和精細擺放,整體難度較高,Era0 成功率為 20%。一項是擦桌子(wipe_the_table),Era0 在此任務上取得 60% 的成功率。這兩項任務之所以高難,因為很多要求超出了現在模型的普遍能力。就說製作一個簡單的素食三明治,就涉及到了多個步驟,機器人要依次完成取麵包、放生菜、加番茄片、蓋另一片面包、切成兩半等。人手拿起來一個生菜葉子很簡單,機械臂拿起來,稍微大力一點生菜就爛了。大部分具身模型缺乏對全局進度的感知,缺乏對全局進度的感知,很容易忘記已經完成到哪一步,蓋了麵包片就完事兒了;或在發生小失誤後無法進行修正,番茄掉了撿不起來等等,那這個任務基本上就直接失敗了。所以做三明治,不僅需要模型擁有長程時序規劃能力,還要有多食材的精細操作能力。Era0能得分,說明這款模型也在雙臂協同、柔性物體操作、多視角感知、長時序記憶等多個核心能力維度上均展現出顯著優勢。如此說來,能夠看到真機實測過程中的真實視頻和客觀評分,我們對 Era0 的能力範疇就有一些把握了。02奪冠的秘訣,在於每一個細節但是仍然會有一些疑問,比如說都是做模型,大部分都是走的VLA+世界模型路線,憑什麼 Era0 就要更強一些?星動紀元 Era0 做三明治的例子,讓我想起不久前 Genesis 的 GENE-26.5 做“番茄炒蛋”的 demo,當時其流暢的動作驚豔了不少業者。Genesis為什麼能讓機器人把活幹得這麼好?創始人周銜曾在採訪中說,Genesis AI 要做的是整套系統。的確,Genesis是從全局視角重新審視整個系統:他們在硬件層面最大限度地縮小差距;在工作中捕捉高保真數據;通過優化控制減少延遲和跟蹤誤差……星動紀元的 Era0 也是同樣的道理,Era0 的成功,絕不能說是某一項環節上做對了,很大程度上得益於從數據到推理全鏈路的系統性優化。首先在數據層面,星動紀元建立了一套量化的數據質檢與處理標準操作流程。要知道,原始數據中存在大量噪聲。靜止幀、異常動作、元信息不匹配等問題,都會影響模型的訓練效果。而星動紀元的 SOP 涵蓋了靜止幀清理、異常數據篩查、元信息對齊以及人工抽檢等環節,從源頭保證了訓練數據的質量。在此基礎上,星動紀元積累了大規模跨本體預訓練動作數據。這些數據覆蓋了豐富的操作場景,讓 Era0 具備了紮實的基礎動作執行能力。跨本體訓練策略也進一步提高了數據使用效率,使模型在不同機器人平臺上都有很好的可遷移性。在模型層面,Era0 採用了兩項關鍵技術。第一項是視覺定位感知增強策略。在預訓練階段,訓練樣本不僅包含高層語義信息,還同時標註了目標在圖像中的具體位置。這強化了模型的視覺感知能力,讓它能夠更準確地識別物體並定位抓取點。第二項是短程時序記憶機制。Table30 中的很多任務都存在歷史依賴現象。比如擦桌子,機器人需要記住哪些區域已經擦過,哪些還沒有。僅憑當前單幀觀測,模型無法判斷任務狀態,容易陷入動作循環。時序記憶機制讓模型能夠關注到近期已發生的動作狀態。它會記住過去幾幀的觀測和動作,結合當前信息做出決策。這有效解決了非馬爾可夫狀態下的歧義問題,讓長程任務的執行更加穩定。Era0在雙臂協同、柔性物體操作、多視角感知、分類任務、長時序任務等多個靈巧操作核心維度上均位列第一在工程與推理層面,星動紀元也做了大量優化:訓練階段,他們採用 15Hz 的數據進行訓練,提高了訓練效率。訓練完成後,增加了基於訓練數據的回放擬合驗證環節。這個環節能夠發現僅通過損失曲線難以暴露的問題,比如數據中的異常樣本和噪聲干擾。推理階段,為了使動作軌跡更加連續平滑,他們加入了動作插值。這減少了機械臂的抖動和誤差累積,提升了真機執行的穩定性。同時,通過合理配置執行步長和動作執行時間,保證了操作精度。對夾爪動作的後處理,也進一步提高了抓取的穩定性。DeepMind研究員姚順宇有一個判斷:大模型領域最稀缺的不是天才,而是靠譜、對自己做的事情負責的人。這種“靠譜精神”,恰恰也是具身智能突圍的關鍵。星動紀元 Era0 模型的訓練過程,同樣遵循這個原則。Era0 在 RoboChallenge 上的奪冠沒有捷徑,靠的是百 TB 級的真實交互數據積累,融合VLA與世界模型的訓練推理閉環,以及團隊都在每一個可能被忽略的節點上死磕。正是這些“微小到不起眼”的細節被極致優化,成功率才得以一步步提升,最終實現質的飛躍。星動紀元Era0 模型在RoboChallenge不同任務上的表現03商業化場景,才是真正的“大考”就在 Figure 還在網上直播的時候,星動紀元已經開始進入了實際場景,並且是同樣的物流分揀場景。星動紀元自研人形機器人“星動M7”,不久前在中國郵政廣州郵區中心正式上崗,能分揀軟包、硬盒、不同規格包裹,還能翻轉包裹確保面單朝上,同時有識別異常件的功能。今年Q2星動紀元還要開啟千臺級批量交付。客戶願意為機器人買單,某種程度上也是具身智能真正可以被稱為一個行業的開端。過去幾年,行業的核心矛盾是 “能不能做”,大家比拼的是誰能先在實驗室裡實現某個單點功能;而現在,行業的核心矛盾已經變成了 “能不能用”,比拼的是誰能把技術變成可批量交付、可穩定運行、可盈利的產品。在物流分揀中心,機器人要面對的不是固定的 30 種物品,而是每天數以萬計、形態各異的包裹;在工廠車間,它要適應的不是恆定的光照和溫度,而是晝夜交替的光線變化、設備運行的震動和粉塵;在商業場景中,它還要滿足 7×24 小時不間斷運行的穩定性要求。這些在榜單中不會被考核的指標,恰恰是商業化公司必須跨越的生死線。能夠被物流客戶認可,根本原因是 Era0 模型的優勢,滿足了物流行業的需求。Era0 有一套標準化的數據預處理流程(清洗、去噪、質檢),就可以確保用來訓練模型的數據是真實可信且高質量的,同時也能提升模型的學習效率。最終,訓練出的模型應用到物流分揀場景時,會表現出三個具體的優勢:識別更準確、誤判更少、運行更穩定。“增強型視覺定位感知”等於給機器人裝上了一雙既聰明又帶距離感的眼睛,一眼就能認出傳送帶上是哪類商品,同時精確計算出手臂該伸到哪裡、以什麼角度去抓,從而讓一條分揀線靈活處理成千上百種不同的貨品。規模化跨本體預訓練,可以讓能力快速遷移到物流抓取、搬運、擺放等分揀動作,適配不同設備與場景,落地更快。同時時序記憶決策能力、高效訓練迭代、以及真機執行動作穩定精準等等特徵,都意味著在分揀操作上,流程連貫效率高、抓取穩定失誤少。假設每個環節提升10%,那麼十個環節的提升就能帶來兩倍多的改善。具身智能真正能夠實用起來,就在於連續、微小優化帶來的系統性的效果提升,給客戶帶來顯著的實用性。這就是我們從星動紀元身上學到的經驗。04打榜不是終點,“落地”剛剛開始比賽結果,是具身智能大腦技術實力的試金石。在權威賽事中脫穎而出,意味著一款模型在泛化性、魯棒性、操作精度等核心維度上經受了最嚴苛的檢驗,獲得了學術界與產業界的共同認可。但必須清醒地認識到,“打榜” 從來都不是具身智能行業的終極目標,它只是驗證技術可行性的中間環節,真正決定一家企業能走多遠、整個行業能走多快的,永遠是落地能力。具身智能行業已經走到了一個關鍵的轉折點。過去幾年,行業的核心矛盾是 “能不能做”,大家比拼的是誰能先在實驗室裡實現某個單點功能;而現在,行業的核心矛盾已經變成了 “能不能用”,比拼的是誰能把技術變成可批量交付、可穩定運行、可盈利的產品。未來具身智能的競爭戰場一定會從賽場轉向工廠、倉庫、餐廳、醫院等真實場景。目前物流行業是星動紀元的第一個落地場景。基於通用具身基座,Era0 的能力可以拓展到更多行業。比如在製造業,機器人可以完成裝配、檢測、搬運等任務。在服務業,機器人可以在餐廳、酒店、醫院等場所提供服務。端茶倒水、清潔衛生、配送物品,這些都是 Era0 已經具備的能力。星動紀元的 "AI Native 全棧" 技術路線,讓他們能夠快速響應不同行業的需求,不需要為每個行業重新開發模型,只需要在通用基座的基礎上進行微調,就能快速適配新的場景。如果有一天,大街小巷都是機器人工作的身影,具身智能湧現也就不是夢了。

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前