讓機器人行動更有依據:復旦等提出 GuidedVLA,提升 VLA 可控可解釋能力
重點摘要
GuidedVLA:以目標、階段和空間約束,重塑 VLA 動作生成過程。 作者丨鄭佳美 編輯丨馬曉寧 機器人要進入更復雜的真實環境,真正的難點已經超出“能不能完成一個動作”。更關鍵的問題是:當桌面變得雜亂、光照發生變化、任務步驟變長,或者目標物體變得透明、難以定位時,機器人能否穩定判斷自己該看哪裡、該做哪一步、空間位置是否準確。這也是視覺-語言-動作模型(VLA)正在面對的核心挑戰。VLA 可以讓機器人根據圖像觀測和語言指令生成動作,但在很多端到端訓練框架中,動作生成過程仍然高度隱式。模型給出了動作,卻很難解釋它依賴了哪些線索。對真實機器人來說,可控可解釋已經成為走向複雜任務的重要基礎。只有知道機器人為什麼這樣行動,研究者和工程團隊才更容易診斷失敗、改進模型,並把系統帶到更多變化場景中。圍繞這一問題,復旦大學可信具身智能研究院聯合上海交通大學、香港大學 OpenDriveLab 等機構提出了 GuidedVLA。該工作已被 Robotics: Science and Systems(RSS)2026 接收,並開放了論文、項目主頁、代碼、模型權重和數據集。GuidedVLA 的核心思路可以概括為一句話:在 VLA 的動作生成中加入顯式引導,把任務相關因素拆成更清晰、更可檢查的分工。01機器人為什麼需要“有依據地行動”過去幾年,VLA 成為具身智能研究中的重要路線。它把視覺理解、語言指令和動作生成連接起來:機器人看到環境,理解任務,再輸出下一步動作。這條路線的優勢很明顯。模型結構更統一,訓練方式更簡潔,也更容易吸收視覺語言模型中的知識。但它也帶來一個現實問題:動作解碼器往往需要自己從數據中學習哪些因素真正影響任務成功。在固定環境中,這種方式可能已經足夠。但真實機器人任務很少如此理想。一個水果旁邊可能多出幹擾物;同一個杯子可能因為光照改變而外觀不同;長程任務中,機器人需要知道自己
GuidedVLA:以目標、階段和空間約束,重塑 VLA 動作生成過程。 作者丨鄭佳美 編輯丨馬曉寧 機器人要進入更復雜的真實環境,真正的難點已經超出“能不能完成一個動作”。更關鍵的問題是:當桌面變得雜亂、光照發生變化、任務步驟變長,或者目標物體變得透明、難以定位時,機器人能否穩定判斷自己該看哪裡、該做哪一步、空間位置是否準確。這也是視覺-語言-動作模型(VLA)正在面對的核心挑戰。VLA 可以讓機器人根據圖像觀測和語言指令生成動作,但在很多端到端訓練框架中,動作生成過程仍然高度隱式。模型給出了動作,卻很難解釋它依賴了哪些線索。對真實機器人來說,可控可解釋已經成為走向複雜任務的重要基礎。只有知道機器人為什麼這樣行動,研究者和工程團隊才更容易診斷失敗、改進模型,並把系統帶到更多變化場景中。圍繞這一問題,復旦大學可信具身智能研究院聯合上海交通大學、香港大學 OpenDriveLab 等機構提出了 GuidedVLA。該工作已被 Robotics: Science and Systems(RSS)2026 接收,並開放了論文、項目主頁、代碼、模型權重和數據集。GuidedVLA 的核心思路可以概括為一句話:在 VLA 的動作生成中加入顯式引導,把任務相關因素拆成更清晰、更可檢查的分工。01機器人為什麼需要“有依據地行動”過去幾年,VLA 成為具身智能研究中的重要路線。它把視覺理解、語言指令和動作生成連接起來:機器人看到環境,理解任務,再輸出下一步動作。這條路線的優勢很明顯。模型結構更統一,訓練方式更簡潔,也更容易吸收視覺語言模型中的知識。但它也帶來一個現實問題:動作解碼器往往需要自己從數據中學習哪些因素真正影響任務成功。在固定環境中,這種方式可能已經足夠。但真實機器人任務很少如此理想。一個水果旁邊可能多出干擾物;同一個杯子可能因為光照改變而外觀不同;長程任務中,機器人需要知道自己已經完成了抓取,下一步應該移動還是放置;涉及按壓、插入、疊放等操作時,二維圖像中的語義理解還不夠,空間幾何也會直接影響成敗。換句話說,機器人在行動前至少要回答三個基礎問題:目標是誰?現在做到哪一步?空間位置準不準?GuidedVLA 正是圍繞這三個問題展開。02GuidedVLA:把動作生成拆成三類可檢查分工GuidedVLA 延續已有 VLA 框架,並在動作解碼器中指定部分注意力頭,讓它們分別關注三類任務相關因素:目標、步驟和空間。第一類是 Object Head,負責目標定位。它讓模型在生成動作時更穩定地關注任務相關物體區域,例如要抓取的物體、要放置的位置,減少背景和干擾物帶來的影響。對雜亂桌面、小目標、透明物體等任務來說,看準目標本身就是成功的一半。第二類是 Skill Head,負責識別任務階段。真實機器人任務往往包含多個階段:先抓取,再移動,再放置;先清掃,再收集,再倒入托盤。如果模型不知道當前處在哪個階段,就容易提前跳步,或在最後階段失敗。Skill Head 的作用,是讓動作生成過程對任務進度更敏感。第三類是 Depth Head,負責補充空間幾何。很多操作失敗的原因,常常不在物體類別識別,而在高度、距離、插入角度、接觸位置不夠準確。Depth Head 通過接入凍結深度編碼器的特徵,讓特定注意力頭處理更明確的 3D 幾何信息。雷峰網這三類分工讓 GuidedVLA 的可解釋性更具體:研究者除了看到一個動作結果,還能進一步觀察模型是否看到了目標、是否理解當前階段、是否利用了空間線索。03在已有 VLA 上加入可插拔引導對已有 VLA 進行改造時,一個關鍵問題是:新增引導會不會破壞原模型已經學到的能力?GuidedVLA 採用了類似 ControlNet 的殘差適配思路。它保留原有的主注意力分支,同時新增 factor-specific 控制分支,再通過 zero-initialized projection 與主分支融合。直觀來說,新分支在訓練初期不會直接擾動原模型,隨著訓練推進,再逐步把目標、步驟、空間等任務相關信息注入動作解碼器。這使 GuidedVLA 更像是在已有 VLA 上增加一層可指定接口,無需從零開始重建系統。為了降低標註成本,團隊還設計了自動因子標註流水線。物體掩碼由 Qwen3-VL 生成 point prompts,再用 SAM2 在視頻段中傳播;技能標籤由 Qwen3-VL 根據階段描述和技能列表生成;深度引導則直接使用凍結深度編碼器特徵,不需要人工深度標註。論文中給出的效率數字也很直觀:92% 的 episodes 無需人工修正;標註 50 個 episodes 時,自動流水線約需 4 分鐘,而純人工約需 43.5 分鐘。04從仿真基準到真實機器人GuidedVLA 的實驗覆蓋仿真基準和真實機器人平臺。在 LIBERO-Plus 上,研究團隊評估了模型在相機視角、機器人初態、語言變化、光照、背景紋理、傳感器噪聲、物體佈局等 7 類擾動下的表現。π0 基線總成功率為 68.2;加入三類分工後的 GuidedVLA 達到 75.4。更值得注意的是,單類分工的優勢和任務類型基本對應:Object Head 在物體相關任務上更強,Skill Head 在目標/階段相關任務上更強,Depth Head 在空間相關任務上更強。這說明這些分工的作用超出了簡單增加模型參數,更體現在不同類型問題上的針對性。在 RoboTwin 2.0 上,GuidedVLA 在 8 個隨機化、未見設置的操作任務中,將 π0 平均成功率從 77.38% 提升到 90.63%。例如,Click Bell 需要精確控制 Z 軸,Depth Head 將成功率從 35% 提升到 63%;Beat Hammer Block 需要高度對齊,成功率從 78% 提升到 96%;Lift Pot 涉及嚴格的抓取、穩定和抬起序列,Skill Head 在該任務上取得單頭最佳表現。真實機器人實驗覆蓋兩個雙臂平臺:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分揀、疊碗放架、清潔桌面等家庭任務;後者包括將燒杯放入加熱套、套疊燒杯、將燒杯放置到加熱設置上等實驗室操作任務。論文特別說明,這些實驗室任務聚焦透明剛性物體和緊幾何約束帶來的操控挑戰,並不評估完整安全關鍵化學流程。雷峰網每個任務和模型進行 20 次試驗。結果顯示,在三類設置下,GuidedVLA 均優於 Base Policy:In-Domain average:Base Policy 55.8%,GuidedVLA 75.8%。Scene average:Base Policy 44.2%,GuidedVLA 67.5%,相對提升約 52.7%。Lighting average:Base Policy 57.5%,GuidedVLA 79.2%。05可解釋性落到數字上GuidedVLA 進一步驗證了一個關鍵問題:這些可解釋分工,是否真的和任務成功相關?論文從目標、步驟、空間三類因素分別分析。結果顯示,當 Object Head 落在目標區域內的注意力比例從 0.25 增加到 1.0,成功率從 61.3% 提升到 77.4%;當 Skill Head 的技能識別準確率提高,成功率從 66.2% 提升到 77.7%;當 Depth Head 中真實深度特徵比例從 0 增加到 1.0,成功率從 15.0% 提升到 76.2%。這組分析說明,GuidedVLA 的價值既體現在最終分數提升,也體現在它把“為什麼能做得更好”拆成了可觀察的中間因素。對機器人系統來說,這一點很重要。真實環境中的失敗往往由多種原因共同造成:可能是目標定位不準,可能是任務階段錯亂,也可能是空間估計不夠精確。只有把這些因素拆開,系統才更容易被診斷和持續改進。06為什麼這項工作值得關注對具身智能來說,模型能力提升很重要,可控可解釋同樣是走向真實任務的基礎能力。GuidedVLA 給出的啟發是:把任務中真正關鍵的因素顯式納入訓練和結構設計,可以減少動作解碼器對隱式學習的單一依賴。目標、步驟、空間這三類因素並不複雜,卻覆蓋了許多機器人操作任務中最常見的失敗來源。從研究角度看,這為 VLA 的動作生成提供了一種更清晰的分析入口。從工程角度看,它也讓後續排查和迭代更有抓手:機器人沒有完成任務時,研究者可以進一步判斷問題出在目標定位、階段理解,還是空間幾何。這項工作給出了一條務實路線:讓機器人不僅做出動作,也讓行動過程更有依據。項目資源論文:GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization會議:Robotics: Science and Systems(RSS)2026arXiv:https://arxiv.org/abs/2605.12369項目主頁:https://guidedvla.github.io/project_page/代碼:https://github.com/GuidedVLA/GuidedVLA模型權重:https://huggingface.co/ybwowen/pi0-libero-object-depth-skill數據集:https://huggingface.co/datasets/ybwowen/libero作者:Xiaosong Jia, Bowen Yang, Zuhao Ge, Xian Nie, Yuchen Zhou, Cunxin Fan, Yufeng Li, Yilin Chai, Chao Jing, Zijian Liang, Qingwen Bu, Haidong Cao, Chao Wu, Qifeng Li, Zhenjie Yang, Chenhe Zhang, Hongyang Li, Zuxuan Wu, Junchi Yan, Yu-Gang Jiang機構:Institute of Trustworthy Embodied AI (TEAI), Fudan University;Shanghai Key Laboratory of Multimodal Embodied AI;Shanghai Jiao Tong University;OpenDriveLab, The University of Hong Kong
Related
相關文章

GPT發AI原創新成果了
這篇消息聚焦「GPT發AI原創新成果了」。原始導語提到:AI實現藥物全自動研發,還遠嗎? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

AI越強,越要“殺死”過去的自己
這篇消息聚焦「AI越強,越要“殺死”過去的自己」。原始導語提到:人類需要實現思維模式的轉變。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
Salesforce CodeGen Tutorial: Generate, Validate, and Rerank Python Functions With Unit Tests and Safety Checks
In this tutorial, we implement an end-to-end workflow for Salesforce CodeGen. We load a CodeGen model from Hugging Face, prepare it for code generation, and use it to generate Python functions from natural-language prompts. We then move beyond basic inference by adding function extraction, syntax checking, static safety checks, unit-test-based validation, best-of-N candidate reranking, multi-step program synthesis, prompt-style experimentation, benchmark visualization, and artifact export. Through this workflow, we learn how CodeGen can be used not only as a code completion model but also as part of a structured code-generation pipeline that evaluates, filters, and organizes generated solutions. Loading the Salesforce CodeGen Model from Hugging Face Copy CodeCopiedUse a different Browserim

Transformer之父離開谷歌,奧特曼等了他十年
這篇消息聚焦「Transformer之父離開谷歌,奧特曼等了他十年」。原始導語提到:27億美元也沒能留住,Noam Shazeer追尋下一代架構。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Dario訪談首曝:Mythos被稱為“超級武器”
這篇消息聚焦「Dario訪談首曝:Mythos被稱為“超級武器”」。原始導語提到:在這場69分鐘完整訪談裡,Dario Amodei 說人類真正面對的不是某個突然降臨的奇點,而是一條已經開始垂直起飛的指數曲線。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

用結構替代數據,因果世界模型如何重塑具身智能大腦
這篇消息聚焦「用結構替代數據,因果世界模型如何重塑具身智能大腦」。原始導語提到:因果世界模型需要一個標誌性的時刻來證明自己。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。