首次，純人類視頻預訓練VLA靈巧操作，少量數據微調就能部署成功

2026年6月8日 16:50

重點摘要

研究團隊首次實現僅使用純人類視頻進行VLA（視覺-語言-動作）模型的預訓練，達成靈巧操作，只需少量數據微調即可成功部署。此外，他們還建構了一套超大規模的手部視覺-語言-動作數據集。

站內 AI 整理稿

## 首創純人類視頻預訓練VLA靈巧操作，少量數據微調即可部署

機器人能否真正理解人類指令並靈活操作環境，一直是具身智能領域最受關注的核心問題。儘管近年來視覺-語言-動作（VLA）模型取得長足進展，但高品質的機器人動作數據取得成本居高不下，導致現有模型在數據規模與多樣性上遠落後於大語言模型與視覺語言模型。微軟亞洲研究院與清華大學合作的最新研究，首次提出了以純人類視頻預訓練VLA模型的完整解決方案，為破解機器人數據瓶頸開闢了一條全新途徑。

這篇題為《Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos》的論文，核心貢獻在於建立了一套全自動化的數據轉化流程，能將網路上海量無標註的真實人類活動視頻，轉化為與現有VLA訓練數據格式完全對齊的結構化數據。研究團隊將人類手部視為靈巧的機器人末端執行器，成功跨越了非結構化人類視頻與結構化機器人數據之間的巨大鴻溝。

研究團隊從三階段技術路徑著手實現數據轉化。第一步是3D運動標註，從單目、未標定且可能移動的相機視頻中，結合深度視覺SLAM與手部重建模型，精準還原世界空間中的3D手部運動軌跡（含手腕6D姿態與全關節角度）；第二步是原子級動作分割，從人類動作的自然節奏汲取靈感，檢測世界空間中3D手腕軌跡的速度極小值，高效將長視頻切分成包含單一原子動作的短片段，無需任何人工標註或模型推理；第三步是結合3D軌跡的指令標註，將手掌3D軌跡投影疊加到視頻幀上，再透過GPT-4以祈使句形式生成動作的自然語言描述。透過這套全自動管線，研究團隊最終建構出包含超過100萬個片段、2,600萬幀的超大規模手部VLA數據集。

在純人類視頻數據上完成預訓練後，模型展現出令人印象深刻的零樣本預測能力──在完全未見的真實環境中，它仍能準確預測人類手部動作。而更關鍵的是，只需透過少量真實機器人數據進行微調，就能在真實機器人平台上實現高成功率的靈巧操作，並對新物體與新環境展現出優異的泛化能力。這意味著機器人學習人類技能門檻大幅降低，過去需要耗費大量人力進行遠程操控收集的訓練資料，如今可望透過觀看人類演示視頻就能大量汲取。

### 突破數據瓶頸，讓機器人從觀看中學習

這項突破背後反映的是機器人領域長久以來的根本困境。大語言模型的飛躍來自網路上兆億級文本數據，而機器人VLA模型要具備相似的泛化能力，同樣需要海量且多樣的訓練數據。然而傳統機器人採用「自產自銷」式的數據採集方式，無論是人工遙控操作真實機器人，或透過模擬環境生成合成數據，都面臨成本高昂、效率緩慢與多樣性不足等多重瓶頸，難以支撐大規模預訓練的需求。

微軟亞洲研究院高級研究員鄧譽指出，一個巨大的數據寶庫其實就在身邊──網路上數不盡的人類活動視頻，從烹飪教學到家裝維修，從手工製作到日常家務，這些視頻記錄了人類在各種真實環境中的動作與經驗。既然人形機器人的目標是接近人類能力，人類數據就是訓練機器人的最佳教材。

值得一提的是，這並非學術界首次嘗試從人類視頻中學習機器人動作。同樣在2025年至2026年間，多個研究團隊也在此方向上有所突破。北大與BeingBeyond團隊提出Being-H0模型，透過「物理指令微調」框架從大規模人類視頻學習，並建構了上億級規模的UniHand數據集，研究發現人類手部可視為各種末端執行器的標準模板，大幅提升機器人操作任務成功率與樣本效率。而阿里巴巴DAMO學院的RynnVLA-001則以12M個第一人稱操作視頻進行視頻生成預訓練，同樣透過少量微調取得優異表現。這些研究共同指向一個明確趨勢：直接從人類視頻學習，正成為VLA模型規模化預訓練的主流路徑。

### 降低機器人部署門檻，推動具身智能普及

這項技術對於機器人領域的影響可能相當深遠。傳統機器人部署需要針對特定任務與環境收集大量遙控操作數據，費時費力又難以跨場景遷移。如今，企業與研究機構若能直接利用龐大的人類視頻數據庫預訓練模型，再以少量真實機器人數據進行調整，就能快速適應新任務與新環境，大幅降低機器人導入的時間與成本。對於中小型企業或資源有限的團隊而言，這無疑是一項重大利好。

研究團隊已將預訓練模型、數據集與程式碼全面開源於GitHub與Hugging Face，並將論文發表於ICRA 2026，這使得更多開發者能夠參與並推動這項技術的進一步發展。在硬體端，靈巧手技術也正快速演進，從DexHand到ZWHAND，各種高自由度多指靈巧手紛紛亮相，為VLA模型提供了越來越強大的執行載體。軟硬體的協同進展，正將機器人靈巧操作推向新的高度。

### 後續值得關注的發展方向

對關注此領域的讀者而言，後續有以下幾個方向值得持續追蹤。首先，VITRA團隊將持續擴充預訓練數據集的規模與覆蓋範圍，數據量與模型性能之間的延伸規律（Scaling Law）在機器人領域如何體現，將是重要的觀察指標。其次，這套方法能否泛化到更多類型的機器人本體（如人形機器人全身控制、多機器人協同等）也相當值得關注。第三，隨著圖文生成與世界模型技術的演進，結合人類視頻與合成數據的混合預訓練策略，可能進一步突破現有數據瓶頸。整體而言，從人類視頻學習機器人技能正從概念驗證走向實用部署，未來一年內可望見到更多基於此技術的真實應用場景陸續落地。

原始來源：36氪 ↗

查看原始來源