RoboScience機器科學發佈通用具身大模型Visics，首次完整展示VLOA雙引擎架構

2026年6月26日 08:33

重點摘要

站內 AI 整理稿

雷峰網獲悉，6月24日，通用具身智能企業RoboScience機器科學在深圳成功舉辦通用具身大模型發佈會。會上，公司首次完整披露了自研Visics大模型的技術架構VLOA（Vision-Language-Object-Action），並展示了模型在多項真實場景的應用，包括全球最複雜具身操作任務傢俱拼裝。 RoboScience機器科學創始人兼CEO田野、聯合創始人兼執行總裁汪濤深度解讀了Visics大模型、底層技術架構VLOA和數據體系，並分享了未來在模型泛化、場景落地及生態構建等方面的戰略規劃。Visics大模型重新定義具身智能RoboScience機器科學創始人兼CEO田野告訴雷峰網，當前機器人操作面臨泛化能力差、精細操作難、長程任務誤差累積三大核心瓶頸。Visics大模型的突破在於首次通過自研技術架構VLOA，將Object Trajectory（物體3D點雲軌跡）作為中間接口，把“認知”與“執行”徹底解耦。他表示：“Object 這個詞本身有‘物體’和‘目標’兩種意思，所以它精確地描述了機器人本體跟物體要發生什麼樣的交互、要完成什麼樣的物體運動狀態的變化。我們自研以Object Trajectory為中心的 VLOA 架構，是因為它往上能夠精確地表示我們執行任務的內容，往下能夠精確地表示機器人要完成什麼目的。”VLOA（Vision-Language-Object-Action）創新架構實現了三大維度泛化：指導任意機器人、操作任意物體、完成任意任務。以抓取操作為例，相比現有基於特定物體和機械臂的方法，其在成功率、姿態多樣性及計算速度上均有顯著提升。 Visics大模型融合“具身世界模型”和“通用操作模型”兩大核心引擎，創新性地引入Object Trajectory作為中間接口，並以物體的連續3D點雲軌跡進行表徵。上層具身世界模型負責認知和預演物理軌跡，下層通用操作模型負責將軌跡轉化為不同機器人的物理控制信號，實現了高層語義與底層物理規律的完美解耦，並分別用海量互聯網視頻及仿真數據進行預訓練。「仿真+視頻」數據飛輪，實現高精度複雜自主操作在具身智能領域，數據是模型能力的根基，但傳統數據路線正面臨成本與產能的雙重天花板。在預訓練階段，依賴真機採集的方案月產能僅為萬條級，遠不能滿足大模型對數據規模的指數級需求；在後訓練階段，單任務的複雜操作演示需要上萬條人工標註數據，人力與時間成本隨任務數量線性累加。更關鍵的是，數據工廠環境採集的數據與真實應用場景存在分佈差異，模型難以在實際落地中穩定泛化。RoboScience機器科學選擇了一條截然不同的路徑。聯合創始人兼執行總裁汪濤分享，公司以自研高精度仿真引擎RoboMirage為核心，結合全自動視頻數據標註與清洗管線，構建了“仿真+視頻”雙數據飛輪。這一體系將單條數據的獲取成本降至傳統方案的1/20~1/200，同時以每週數十萬小時的增速持續擴展，從根本上突破了數據規模與成本的雙重瓶頸，為Visics大模型實現LLM級別的萬億級數據Scale-up奠定了基礎。在具體構成上，雙數據飛輪可分為兩大板塊：具身世界模型的預訓練基於海量互聯網視頻數據。通過全自動數據標註及清洗pipeline，團隊已積累數百萬小時以物體為中心的高維多模態操作相關數據集（數千萬video clips），並以每週數十萬小時的速度增長，目標在2026年構建上千萬小時的全球領先數據集。而作為通用操作模型學習物理規律的基礎，RoboScience機器科學通過自研多模態物理引擎RoboMirage積累了數百億次高質量manipulation操作軌跡數據集，2026年目標是構建超過1T高質量manipulation操作軌跡數據集（1萬億次全空間物體的manipulation操作軌跡數據）。這一數據體系有效降低了對昂貴真機數據的依賴，為Visics大模型持續進化提供了不竭燃料。 Visics大模型可全程自主完成具身操作領域內最複雜任務傢俱拼裝，並實現毫米級精度抗干擾。傢俱拼裝任務被業內視為具身智能領域的“登月級”挑戰，涉及手內操作、雙臂協同、毫米級插接、精細力控、物體重排、部件嵌入與旋轉配合等幾乎所有技術難點。機器人讀取說明書後自主啟動拼裝：深度理解零件結構邏輯，實現多部件檢測、感知與定位，自主分解多步驟任務，完成多關節雙臂協同運動。依託自適應插接路徑規劃和精細接觸力調控策略，系統成功實現高精度、高穩定性拼裝。尤其值得注意的是，當拼裝過程中人為拆解已裝好的部件時，機器人能夠自動恢復狀態並接續完成後續步驟。此外，RoboScience機器科學還展示了跨本體靈巧手抓取（青椒包覆抓取、西瓜瓣精準捏取）、精細力控操作（開信封、立硬幣、抓取薯片、針管注射）以及動態傳送帶抓取等操作，全面展示了Visics大模型在任意物體抓取、精細操作和長程任務上的通用能力。學術+產業雙輪驅動，標準化本體即將量產 RoboScience機器科學擁有一支“學術+產業”雙輪驅動的頂尖團隊：首席科學家邵林團隊連續兩年獲得ICRA最佳論文獎/提名，成為亞洲唯一獲此殊榮的團隊，其最新研究T(R,O)Grasp，可支持5 FPS實時動態交互，以94.83%的平均抓取成功率刷新了跨智能體靈巧抓取的全球SOTA。CEO田野曾擔任蘋果AI Platform技術負責人，打造了被譽為“蘋果的PyTorch與CUDA”的核心平臺。聯合創始人劉朋海擁有科沃斯集團二十年產品量產經驗，汪濤具備近十年產業投資與募資經歷。團隊整體集結了來自斯坦福、中科大、新加坡國立大學等學府以及蘋果、字節、騰訊、大疆等頭部企業的頂尖人才。在資本層面，公司已獲得京東集團、商湯科技、達晨財智、招商局創投、零一創投、普華資本等多家CVC和財務機構的投資及產業支持，在北京、深圳、蘇州、杭州設有研發和生產中心。商業化落地方面，RoboScience機器科學已與多家零售、物流、康養服務企業及機器人本體、靈巧手公司開展試點合作，並計劃於今年實現面向工業與商業場景的標準化機器人本體產品量產。 RoboScience機器科學以大模型為核心，縱向打通自研本體、控制器與RobotOS，橫向賦能模型泛化、便捷開發與多層級生態，構建軟硬一體、閉環協同的商業模式。汪濤在會上分享了RoboScience機器科學的商業化思考與戰略路線。他指出，具身智能真正的規模化落地尚未到來，公司需要選擇一條清晰且有節奏的路徑。RoboScience機器科學選擇先從物體維度切入，即解決對剛性、柔性及各種屬性物體的泛化操作能力，而非直接進入工業場景與自動化方案競爭。如商超、電商物流等場景，天然面臨海量SKU、多品類的揀選與補貨需求，正是驗證物體維度泛化能力的最佳試驗場。在真實場景中幹活所產生的數據，又能反哺大模型持續進化，形成正向循環。基於這一思考，公司將分階段推進商業化落地：當前階段，重點打磨Visics大模型能力，聚焦物體維度的泛化突破，在商超、電商物流等高頻、多品類場景完成POC驗證，用真實場景數據持續迭代大腦。中短期，在物體維度泛化基礎上，逐步擴展至任務維度與機器人維度，從更多任務類型和跨本體部署兩個方向延伸泛化邊界。推動自研硬件本體量產落地，推出具身智能操作系統與開發平臺，將應用場景拓展至酒店、工廠等更多B端領域。屆時大腦能力經過一段時間的場景迭代已足夠泛化，硬件供應鏈體系更加完善，成本大幅下降——為進入家庭場景（如干家務）做好技術與成本準備。長期，將實現B端與C端場景的規模化落地。打造具身智能時代的“App Store”，構建全球化機器人應用生態，同時完善硬件供應鏈，佈局全球業務，讓機器人真正服務於每一個家庭。在商業模式上，RoboScience機器科學不綁定自己的硬件銷售。基於跨本體的技術原理，模型學習不依賴特定硬件數據，因此公司可以靈活選擇純軟件授權、控制器方案等多種交付方式，既服務自研本體，也賦能其他機器人公司拓展更多場景。田野最後總結表示：“在我們所想象的未來圖景裡，機器人不是成為人類的替代者，而是成為人類文明的增幅器，Visics大模型就是我們在這一方向上邁出的關鍵一步。我們希望具身智能的技術能夠加速文明和科技的發展，給每個人帶來更美好的生活。這就是我們RoboScience機器科學的目標——構建通用的具身智能，賦能美好的人類生活。”

原始來源：雷峰網 ↗

查看原始來源

36氪生成式AI

造ChatGPT的人，已經不用ChatGPT幹活了

【導讀】都說Codex只是個編程工具，OpenAI卻把全公司的活都交給它，不到一年，ChatGPT就在自家丟了AI工具的主力位。

剛剛閱讀分析

36氪生成式AI

第一個用物理做計算原語的大規模生成模型Un-0來了，或將AI能耗降低1000倍？

一個名為Un-0的新模型問世，它是首個以物理運算為基礎原語的大規模生成模型，可能將AI能耗降低1000倍。這項突破被視為物理計算領域的「Hello World」時刻，有望解決當前AI能耗逼近極限的問題。

剛剛閱讀分析

鈦媒體生成式AI

GPT設計GPT

這篇消息聚焦「GPT設計GPT」。原始導語提到：如果說英偉達賣鏟子，那麼OpenAI想擁有礦山。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

2 小時前閱讀分析

智東西生成式AI

剛剛，全球第一個能同時掃微信和支付寶的AI眼鏡，誕生了

智東西作者 | 雲鵬編輯 | 心緣智東西6月26日杭州現場報道，剛剛，XR領域頭部創企樂奇Rokid在生態開發者大會上正式發佈了新一代Rokid AR眼鏡，其重點提升了顯示效果。此外，智能眼鏡操作系統YodaOS升級為AIOS，融入更多智能體能力，主動服務能力更強。 Rokid AR搭載了高通驍龍至尊版空間計算協處理器，支持空間+AI雙攝、6DoF立體空間、電致變色和58°FoV視野，可以說是規格拉滿。 Rokid創始人兼CEO祝銘明在採訪中特別提到，這顆芯片比高通近日發佈的驍龍Reality Elite芯片性能更強，提升幅度在20%左右。不過這款AR眼鏡新品並未公佈具體售價和上架時間。祝銘明在大會上做了一個重磅“預告”，Rokid AI眼鏡和Rokid AR眼鏡合二為一的AI+AR“完全體”產品，大概會在3-5年內落地。 AI眼鏡軟件生態層面，Rokid全球首發了微信掃一掃支付，其AI眼鏡也成為首個同時支持微信和支付寶的同類產品。 Rokid AI眼鏡上的YodaOS升級為“AIOS”，樂奇AI助手正式升級到2.0版本，主動智能、智能化UI交互呈現是其兩個核心能力升級點。比如閱讀智能體，可以直接朗讀攝像頭識別到的信息；作業輔導智能體，可以通過視覺識別輔導孩子作業； AI打車助手可以讓你直接用眼鏡打車，並且屏幕上實時追蹤車輛進度；在臨近旅行、出差出發時AI助手會主動提醒，告知當地天氣與準備事項； AI助手可以用餅狀圖告訴你面前食品的卡路里，還能用可視化表格呈現世界盃賽事比分。在Rokid看來，AIOS時代，AI會“繞過”App，變為自帶能力的原生服務主體，AI眼鏡使用AI有輕量化、多模態、全天候的特點。值得一提的是，在AI付費模式方面，祝銘明在採訪中特別提到，未來Rokid可能會推出“Token收費模式”，今年用戶在Rokid平臺的AI消耗Token量

4 小時前閱讀分析

雷峰網生成式AI

全網瘋搶體脂秤背後，阿福找到了健康AI的正確打開方式

“一代人有一代人的雞蛋要領”，這次輪到了體脂秤。6月25日，螞蟻阿福發起的“科學減重1億斤”健康行動正式上線，同時向全網發放“骨折價體脂秤”。除了9.9元快遞費，網友只需1分錢就能領到手，參與科學減重。社交平臺上，曬單和討論同步發酵，搶到的人曬出訂單截圖，紛紛表示“已下單”“等發貨”“真香”；沒搶到的在評論區急得團團轉，追問領取方式，反覆確認阿福真的給出了“地板價”。據螞蟻阿福旗艦店數據顯示，這款AI體脂秤上線24小時，領取量已經超過30萬臺。雷峰網記者在阿福APP實測發現，為了讓體脂秤送到真正需要的用戶手中，在阿福App下單需先支付30.01元，收到秤後綁定並完成AI解讀，就可獲得30元返現，相當於體脂秤到手只要1分錢。一臺體脂秤為何引發“全網瘋搶”熱潮？背後折射的，恰恰是普通人長期被健康管理困住的真實焦慮。1分錢領體脂秤，阿福把體重管理的門檻打下來體重管理的第一步，是瞭解自己的身體狀況。但現實是，很多人只知道體重，卻不瞭解體脂率、肌肉量、骨密度等基礎的體重管理概念。大多數時候只能憑感覺，毫無依據地開始節食或是突擊運動，沒過幾天又“放棄抵抗”，循環往復。阿福的第一步，就是把體重管理的基礎工具——體脂秤的門檻打下來。此次阿福提供的“骨折價”AI體脂秤，支持測量體重、BMI、體脂率、內臟脂肪、肌肉量等18項身體數據。用戶在阿福APP綁定體脂秤後，在阿福首頁“我的健康”以及阿福“健康檔案”，就可隨時查看健康數據，並清楚顯示指標屬於標準還是偏低、偏高。這些數據維度合在一起，讓用戶對身體狀況的瞭解能夠更加全面，進而體重管理更加科學。此外，阿福也支持接入手機、運動手錶和血氧儀等多種類健康硬件。用戶已有的體脂秤、手環、血糖儀、運動手錶，數據都可以同步到阿福APP。AI不再憑一個體重數字猜測身體，可以進一步基於多維數據給出貼合現狀的分析和方案；用戶也減少了在多個硬件APP和AI對話框來回

4 小時前閱讀分析

雷峰網生成式AI

ICML2026 |SEER：自動增強+替換Patch，同時搞定噪聲、異常、缺失、分佈偏移的新SOTA模型！

原文作者：公眾號-時序大模型原文鏈接：https://mp.weixin.qq.com/s/ZJfbE2OFeV9kZ6kBrLTsDg雷峰網轉載本篇論文來自ICML2026，最新前沿時序技術，針對時間序列預測，提出了名為SEER的Transformer魯棒時序預測框架，首次實現多類型低質量時序數據的統一魯棒建模。文章信息論文名稱：SEER:Transformer-based Robust Time Series Forecasting via Automated Patch Enhancement and Replacement論文作者：Xiangfei Qiu、 Xvyuan Liu、 Tianen Shen、 Xingjian Wu、 Hanyin Cheng、 Bin Yang1 Jilin Hu研究背景時間序列預測是支撐金融經濟研判、智慧交通調度、醫療健康監測、電力能源調控、環境氣象預警等諸多關鍵領域的核心基礎技術，精準的長短期時序預測結果能夠為行業資源動態調配、風險提前預警、智能化精準決策提供核心數據支撐，具備極高的學術研究價值與工程落地價值。在時序預測模型迭代發展歷程中，傳統循環神經網絡（RNN、LSTM、GRU）依賴串行迭代計算，存在長距離時序依賴捕捉能力弱、並行度低、訓練效率差的固有缺陷；CNN類模型僅能聚焦局部鄰域特徵，無法建模長時序關聯；而傳統線性時序模型泛化能力不足，難以適配複雜非線性時序場景。近年來，基於Patch分塊建模的Transformer時序模型憑藉創新性的時序切割思路，成為時序預測領域的主流SOTA方案，代表性模型包含PatchTST、Triformer、Crossformer、xPatch等。這類模型的核心優勢是打破逐時間步建模的侷限，將連續完整的長時序序列均勻切分為若干具備完整局部語義的子序列分塊，以Patch分塊作為基礎建模與Tra

5 小時前閱讀分析

相關文章

造ChatGPT的人，已經不用ChatGPT幹活了

第一個用物理做計算原語的大規模生成模型Un-0來了，或將AI能耗降低1000倍？

GPT設計GPT

剛剛，全球第一個能同時掃微信和支付寶的AI眼鏡，誕生了

全網瘋搶體脂秤背後，阿福找到了健康AI的正確打開方式

ICML2026 |SEER：自動增強+替換Patch，同時搞定噪聲、異常、缺失、分佈偏移的新SOTA模型！