魔法原子上交會首秀VLA K02大模型，完成具身智能從“執行”到“理解”的能力躍遷

2026年6月15日 05:37

重點摘要

站內 AI 整理稿

6月13日，第十二屆中國（上海）國際技術進出口交易會（CSITF）在上海圓滿閉幕。此次盛會，作為全球具身智能領域的領軍企業，魔法原子（MagicLab）攜全棧技術矩陣重磅亮相。展會現場，魔法原子不僅帶來了全家族明星產品的沉浸式動態展示，更首次在國內公開發布兩大核心技術成果：自研Magic-VLA K02大模型與Magic-Mix世界模型。此次雙模型線下首秀，既是魔法原子 "智能大腦" 核心能力的首次公開呈現，更標誌著公司全棧自研技術體系完成全面升級。長序任務真機實操，Magic-VLA K02展現穩定作業能力展會現場，魔法原子攜全系列智能機器人產品亮相，完成多場景動態能力展演。MagicBot Gen1通用人形機器人、Z1高動態雙足機器人、MagicDog系列四足機器狗及智能咖啡機器人悉數登場，全面覆蓋工業作業、商業服務、家庭等多元應用場景，完整展現全場景落地作業能力。本次展演的最大亮點，是魔法原子全棧自研的Magic-VLA K02大模型與Magic-Mix世界模型的真機實操表現。在現場演示中，搭載雙模型的機器人順利完成疊衣服、疊盒子等高難度長序作業任務。模型可自主將複雜的長週期任務拆解為精細化、可落地的連續動作指令，全程執行精準、動作流暢，充分驗證了其在長程任務場景下的強泛化、穩落地能力。演示過程中，工作人員及觀眾可隨意挪動作業物體、更改現場光線環境，面對動態干擾與場景變化，機器人能實時感知環境變化、自主調整作業策略，穩定閉環完成既定任務。在具身智能領域，疊衣服、疊盒子是行業公認的高難度長序挑戰任務，也是檢驗機器人綜合智能水平的重要考題。兩大任務存在核心技術痛點：衣物屬於柔性物體，抓取、摺疊、擺放全過程會產生不可預判的連續形變，對模型的動態物理感知、實時糾錯、柔性控制能力提出極高要求；而疊盒子任務屬於多階段精密操作，作業鏈條環節繁瑣、容錯率極低，細微的動作偏差會在長流程中指數級累積，最終導致整體任務失敗，是行業落地的普遍難題。針對行業核心痛點，魔法原子打造分層式雙系統聯合架構，從底層邏輯優化長序任務執行鏈路。同時，自研Magic-Mix世界模型搭載WAM環境解析引擎與Creator數據生成引擎，可高效解讀非結構化複雜環境，同時自主合成百萬小時級高質量訓練數據，將數據生產效率提升萬倍，成功突破具身智能行業高質量訓練數據稀缺、迭代效率低的核心瓶頸，為長序穩定作業、場景泛化能力升級提供了堅實的技術底座。分層式雙系統聯合架構魔法原子重構機器人“大腦”邏輯區別於傳統常規VLA大模型，Magic-VLA K02是魔法原子專為機器人長程複雜任務打造的分層式通用具身智能大模型。其獨創的長程任務專屬分層雙系統聯合架構，徹底突破了傳統VLA模型“指令即動作”的線性執行侷限，實現了機器人智能決策與動作執行的跨越式升級。據現場工作人員介紹，Magic-VLA K02採用“雙層中樞、分工協同”的核心架構，構建了完整的智能作業閉環。其中，高層系統作為宏觀規劃中樞，依託理解-生成統一模型，可將用戶抽象化的全局目標，拆解為包含關鍵結果圖像的精細化原子指令，同時通過動態記憶更新機制實時修正任務路徑，有效規避決策偏差與任務失誤。低層系統作為動作執行中樞，融合VLM主幹網絡與動態專家模塊，依託潛在未來狀態預測機制預判場景動態演變趨勢，結合擴散生成技術，輸出平穩無抖動的連續動作，保障作業精準落地。這套“規劃與執行解耦”的創新設計，讓機器人真正具備了“知其然、更知其所以然”的高階具身智能。依託差異化的分層架構優勢，Magic-VLA K02相較傳統VLA模型形成全方位性能碾壓，具備四大核心核心競爭力：極強的策略可控性，通過動態記憶實時迭代任務進度、更新規劃邏輯，徹底解決傳統模型長程任務中的進度遺忘、路徑固化等痛點；高階組合泛化能力，基於原子動作自由重組邏輯，無需專項示範數據，即可零樣本適配各類全新複雜任務；全域跨本體適配性，創新引入元數據描述體系，可無縫適配機械臂、人形機器人等多類硬件終端，適配場景廣泛；高穩定落地部署能力，憑藉分層約束機制與自適應容錯算法，可在抓取失敗、場景突變等異常場景下自動重試、動態調整，大幅降低真機實測數據依賴，顯著提升落地穩定性。為支撐這套高精度、高複雜度的智能系統高效運轉，魔法原子創新搭建“海量第一人稱視角預訓練+少量機器人示範對齊”的訓練體系。模型歷經四階段分層訓練打磨，搭配“認知-執行-適配”三階高效推理流程，在超大算力消耗與終端極致實時性需求之間實現最優平衡，兼顧模型智能上限與落地實用價值。從機器人本體、核心零部件到具身大模型、世界模型，魔法原子正持續完善具身智能全棧技術體系。此次Magic-VLA K02大模型與Magic-Mix世界模型的首次線下公開展示，不僅驗證了公司在具身智能核心技術領域的持續突破，也標誌著其“本體+模型+數據”協同發展的技術路線進一步成熟。展望未來，魔法原子將持續加大在具身智能基礎模型、世界模型及場景應用層面的研發投入，加速推動機器人從單點能力突破邁向通用作業能力升級，為工業製造、商業服務及家庭場景提供更智能、更穩定、更具規模化落地價值的機器人解決方案，推動具身智能產業加速走向真實世界。

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析

36氪生成式AI

微軟，考慮接入DeepSeek

這篇消息聚焦「微軟，考慮接入DeepSeek」。原始導語提到：Copilot Cowork轉為按量計費。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前閱讀分析

相關文章