讓機器人動作流暢絲滑如「連音」，千尋智能高陽團隊提出Legato，入選RSS 2026

2026年6月30日 07:19

重點摘要

站內 AI 整理稿

來源：公眾號“機器之心”鏈接：https://mp.weixin.qq.com/s/SmpQ7MKd2R_z9oqkMngGWw在音樂術語中，Legato（連音）意味著音符之間平滑過渡、毫無間斷，演奏出流暢優美的旋律。鋼琴家的手指在琴鍵上滑動，小提琴家的弓在琴絃上連貫運行 —— 這種 "連音" 技巧讓音樂充滿生命力。一位真正掌握連音技巧的演奏者，不需要靠後期剪輯來彌補斷點，而是能夠知道如何讓每一個音符自然地流向下一個。機器人領域同樣在追求這樣的 "連音" 效果：讓機器人的動作像音樂一樣流暢自然，沒有猶豫和停頓。然而，要讓一臺機器人真正做到這一點，遠比想象中困難。近日，千尋智能高陽團隊的研究成果《Learning Native Continuation for Action Chunking Flow Policies》被機器人頂會 RSS 2026 接收！這項工作從訓練機制出發，讓機器人動作天然具有連續性，實現了 "連音" 般的流暢執行，在五個真實世界操作任務上超越了現有方法，為具身智能領域的動作生成研究提供了新的思路。論文標題：Learning Native Continuation for Action Chunking Flow Policies論文鏈接：https://arxiv.org/pdf/2602.12978項目主頁：https://lyfeng001.github.io/Legato/1. 機器人為什麼會 "猶豫"？想象一下，你讓機器人倒水、疊碗或折毛巾，它卻在執行過程中頻繁停頓、猶豫不決，甚至突然改變主意 —— 比如原本計劃用左手抓取物體，執行到一半卻又想換成右手，結果兩隻手都沒抓到，白白浪費了時間。這種 "猶豫" 不僅讓動作看起來彆扭，還會直接拖慢任務完成的速度，在需要精準配合的場景下甚至會導致任務失敗。這背後的根源，要從當前主流的機器人基礎模型的動作建模方式說起。1.1 動作分塊：一把雙刃劍目前，主流的 Vision Language Action（VLA）模型普遍採用一種叫做 "動作分塊"（Action Chunking）的技術：機器人不是每次只規劃下一個動作，而是一口氣規劃出未來一段時間（比如接下來 1 秒）的完整動作序列，然後依次執行。這樣做有兩個明顯的好處：動作更連貫，因為模型能看到更長時間範圍內的規劃；推理效率更高，不需要每個單獨的時間步的動作都調用一次模型。但問題也隨之而來：每當一段動作序列執行完畢、下一段序列接上來的時候，兩段序列之間往往存在明顯的不連續性。就像兩段錄音硬拼在一起，接縫處總會有一個突兀的 "斷點"—— 機器人會在這個瞬間出現停頓、抖動，甚至方向突變。這個問題在需要高頻控制的精細操作任務中尤為明顯。更深層的原因在於，基於流匹配（Flow Matching）的 VLA 模型本身具有多模態性 —— 面對同一個場景，模型可能規劃出多種合理的動作方案（比如用左手或右手抓取）。當兩段動作序列獨立生成時，前一段選擇了方案 A，後一段卻可能選擇了方案 B，兩者在接縫處發生 "模態切換"，導致機器人的動作出現突兀的跳變。這種現象在任務中途尤為危險：機器人已經伸出了左手，卻在下一個動作塊裡突然決定改用右手，不僅動作難看，還可能直接碰倒目標物體。1.2 RTC 的修補為了解決這個問題，研究者們提出了 Real-Time Chunking（RTC）方法。它的思路是：在生成新的動作序列時，把上一段序列末尾還沒執行完的部分 "借" 過來，用來引導下一個序列的生成，通過讓下一個序列的前半部分和上一個序列沒有執行的部分比較像，來保證兩段序列之間的平滑過渡。這個方法具有非常好的效果，也因此得到了廣泛應用。可以把它理解為一種 "接力棒傳遞" 的機制：新的動作序列不是憑空開始，而是從上一段序列的後半部分 "接棒" 繼續。然而，這個方法實際上存在一些不可避免的缺陷：推理階段 RTC：連續性機制只在推理時臨時 "打補丁"，模型在訓練時從未見過這種情況。訓練和推理的條件不一致，就像一個學生平時練習的題型和考試題型完全不同 —— 模型在推理時面對 "部分已知的前綴" 時，並不知道該如何正確利用這些信息，容易產生 "虛假的多模態切換"，也就是機器人在執行過程中突然 "改變主意"。訓練階段 RTC：雖然在訓練時也引入了這種拼接機制，但做法是直接把前綴片段硬拼接到執行部分的前面，並將這部分固定、不再更新。這樣一來，前綴和後續動作之間依然缺乏有機聯繫：模型只是被告知 "前面這段是固定的，你只需要生成後面的部分"。兩種方式都沒有從根本上解決問題：連續性是從外部強加給模型的，而不是模型自己學會的。這就好比一個演奏者不是真正掌握了連音技巧，而是靠後期剪輯把兩段錄音拼在一起 —— 聽起來勉強過得去，但終究缺少那種渾然天成的流暢感。2. Legato 的解決方案讓連續性成為模型的 "天賦"Legato 的核心思想可以用一句話概括：與其在推理時給模型 "打補丁"，不如在訓練時就讓模型學會如何天然地生成連續的動作。這個思路的轉變看似簡單，實現起來卻需要解決兩個關鍵問題：第一，如何在訓練時讓模型真正 "看到" 並學會利用已知的前綴信息；第二，如何確保訓練時學到的行為和推理時實際執行的行為完全一致，不出現 "雙重標準"。Legato 通過四個精心設計的機制，系統性地解決了這兩個問題。一個直覺上的類比是：我們希望機器人就像一位經驗豐富的接力跑運動員：不僅知道自己該跑哪一段，還清楚地知道上一棒跑到了哪裡、速度是多少，並據此調整自己起跑的節奏，而不是每次都從靜止狀態重新出發。2.1 噪聲-真實值混合機制在標準的流匹配（Flow Matching）訓練中，模型每次都是從完全隨機的噪聲出發，通過多步去噪，最終生成完整的動作序列。這就好比讓一個學生每次都從一張白紙開始作答 —— 他永遠不知道 "如果已經寫了一半，接下來該怎麼寫"。長此以往，模型只會從零開始規劃，一旦推理時被要求 "接著已有的動作繼續"，就會手足無措。Legato 改變了這一點，它引入了引導向量 ω∈[0,1]^H，用來控制每個時間步的初始狀態，將訓練時的起點從 "純噪聲" 變成 "噪聲與真實動作的混合"：對於已經執行過的前綴部分（ω=1）：初始狀態直接就是真實動作，模型知道 "這裡已經發生了什麼"，需要在此基礎上繼續規劃對於需要自由預測的未來部分（ω=0）：初始狀態是純噪聲，模型需要完全自主規劃對於中間的過渡區域（0<ω<1）：初始狀態是真實動作和噪聲的混合，引導強度從強到弱逐漸減弱，形成平滑的過渡用公式表達就是：其中 A 是真實動作，ε 是噪聲，⊙ 表示逐元素相乘。通過這種設計，模型在訓練時就能反覆練習 "如何從部分已知的狀態出發，生成流暢的後續動作"，而不是每次都從零開始。久而久之，模型自然就學會了如何利用已知的前綴信息：這種能力是從訓練中內化的，而不是推理時臨時拼湊的。2.2 逐步引導的去譟動力學僅僅改變初始狀態還不夠。研究團隊發現了一個重要現象：如果只在初始化時引入引導，隨著去噪步驟的推進，模型會逐漸 "忘記" 已知的前綴信息。就像一個人在嘈雜的環境中試圖記住一段旋律，時間越長，記憶就越模糊，最終生成的動作仍然可能偏離預期。研究團隊通過實驗驗證了這一點：單次引導（one-shot guidance）在去噪過程中確實無法維持對前綴的約束，前綴區域的動作會隨著去噪步驟的推進逐漸漂移。為了解決這個問題，Legato 在每一步去噪前都進行混合，而不是隻在初始化時：這就像給模型裝了一個 "記憶錨"：無論去噪進行到哪一步，模型都會被不斷提醒 "前綴是什麼樣的"，並圍繞這個約束來規劃後續動作。這種逐步引導的機制，使得前綴區、過渡區和自由生成區形成一個統一、連貫的動力學系統，而不是三段割裂的拼接。2.3 訓練-推理一致性問題在於：推理時，模型在每一步去噪前都會進行真實值和噪聲的混合（即上面的逐步引導）；但訓練時，標準流匹配的優化目標是針對 "從純噪聲出發的去噪過程" 設計的，並沒有考慮這種逐步引導的存在。所以如果不針對訓練目標進行調整，訓練的目標即標準流匹配與實際執行的動力學實際上是不一致的。Legato 的解決方案：重新推導訓練目標，使其與逐步引導的推理動力學完全對齊。具體來說，研究團隊從逐步引導的動力學方程出發，反推出了一個新的速度場訓練目標：這個公式的妙處在於：它保留了標準流匹配的幾何方向（即 "朝著真實動作運動" 的大方向不變），只是根據引導強度 κ 調整了速度的大小。換句話說，Legato 並沒有顛覆流匹配的基本框架，而是在其基礎上做了一個精準的 "校準"—— 讓訓練時學到的速度場，與推理時逐步引導所產生的有效速度場完全吻合。這樣一來，訓練和推理之間的 "雙重標準" 被徹底消除，模型在推理時的行為完全符合它訓練時學到的規律。2.4 隨機化混合參數在真實部署中，不同的硬件平臺推理速度不同（高端 GPU 和邊緣計算設備的延遲可能相差數倍），不同的任務對動作流暢度的要求也不同（精細操作需要更強的連續性，而快速移動任務則更注重響應速度）。如果每換一個場景就要重新訓練一個模型，代價太高，也不現實。Legato 的解決方案是：在訓練時對混合參數 (d,r) 進行隨機化，讓模型在訓練階段就見識各種不同的引導向量：d（推理延遲）：控制前綴的長度，對應不同硬件平臺的計算速度。d 越大，說明推理延遲越高，需要 "借用" 的前綴越長r（過渡區長度）：控制從強引導到弱引導的過渡速度，決定動作的流暢程度。r 越大，過渡越平緩，動作越流暢；r 越小，過渡越陡峭，模型響應越靈敏通過在訓練時讓模型見識各種不同的 (d, r) 組合，同一個模型在推理時只需要調整這兩個參數，就能適配不同的硬件延遲和流暢度需求，無需重新訓練。這大大降低了 Legato 在實際部署中的門檻。同時，由於模型在訓練時已經見過各種調度情況，推理時的行為也更加穩定魯棒，不會因為參數的細微變化而出現大幅波動。3. 實驗結果研究團隊在雙臂機器人上進行了廣泛的真實世界實驗，涵蓋五個操作任務：疊碗、倒東西、拾取放置、疊毛巾、開抽屜。這些任務的選取頗具代表性：它們不僅覆蓋了旋轉主導、平移主導等多樣的運動模式，還包含了大量需要在多個選項中做出選擇的場景 —— 比如疊碗時選擇抓哪個碗、拾取放置時決定用左手還是右手。這類多模態選擇場景，正是最容易觸發 "虛假多模態切換" 的地方，也是檢驗連續性方法的最佳試金石。3.1 基本實驗結果實驗結果表明，Legato 相對於 RTC 以及 Training-Time RTC 均有一定的優勢：猶豫明顯減少：機器人在執行過程中的停頓和 "改變主意" 現象大幅降低，動作軌跡更加乾淨利落。從軌跡圖上可以直觀地看到，Legato 的執行曲線更加平滑，而 RTC 的曲線則呈現出明顯的鋸齒狀波動，這些波動正是機器人在兩種動作方案之間反覆橫跳的痕跡任務完成時間縮短：在五個任務上平均縮短約 10%，在倒東西等高度依賴連續性的任務上提升尤為突出，最高提升幅度超過 20%軌跡平滑性顯著提升：以 NSPARC 指標衡量，平均提升約 10%，部分任務（如倒東西）提升幅度超過 40%更多的消融實驗、仿真測試以及詳細分析可參考原文。3.2 實際部署使用指南研究發現，在 d=delay, s=0.5H, r=H-d-s 的參數設置下，模型的表現較好。其中 H 是動作序列的總長度，d 對應實際的推理延遲，s 是每個序列執行的步數，r 則是過渡區的長度。這個參數設置在大多數任務和硬件平臺上都能取得不錯的效果，可以作為部署時的默認配置。與此同時，該研究推薦在一個標準 flow matching 訓練至較好的 base model 基礎上進行 Legato 的 finetune，會獲得更好的模型表現。4. 總結Legato 提出了一種讓流匹配策略天然具備連續性的訓練方法，從根本上解決了動作分塊策略中長期存在的連續性問題。它的核心貢獻在於：原生連續性：讓模型從訓練階段就學會如何從 "部分已知的動作" 出發生成後續動作，連續性是模型內化的能力，而不是推理時外部修補的結果訓練-推理一致性：通過重塑速度場，從數學上保證訓練和推理的動力學完全對齊，從根本上消除虛假多模態切換，而不是用更強的約束去壓制它靈活可控：通過隨機化混合參數，一個模型即可適配不同硬件延遲和流暢度需求，大幅降低實際部署的門檻Legato 讓機器人的動作真正像音樂中的連音一樣：不是兩段錄音的生硬拼接，而是演奏者發自內心、渾然天成的流暢表達。隨著具身智能走向更廣泛的真實世界應用，這種 "天然流暢" 的能力，將成為機器人部署時流暢執行運動不可或缺的條件。希望 Legato 這篇工作能夠為具身智能社區帶來新的啟發，推動機器人操作技術邁向更高的水平。© THE END 轉載請聯繫本公眾號獲得授權投稿或尋求報道：[email protected]

原始來源：雷峰網 ↗

查看原始來源

量子位研究與前沿

百億估值只是起點，跨維智能的物理AGI之路

這篇消息聚焦「百億估值只是起點，跨維智能的物理AGI之路」。目前來源未提供完整摘要。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

15 分鐘前閱讀分析

36氪研究與前沿

AGI倒計時，OpenAI首席研究官重磅表態：留給人類的窗口“很小”

OpenAI首席研究官Mark Chen釋放了一個強烈信號：OpenAI 並不認為scaling laws已經失效，恰恰相反，預訓練、數據工程、推理訓練和更長任務鏈條，仍是通向AGI的主幹道路。

2 小時前閱讀分析

IT之家研究與前沿

AI 輔助數字化復原約 2000 年曆史古卷，讀取出約 1.5 米長希臘文文本

維蘇威挑戰賽（Vesuvius Challenge）於 6 月 25 日發佈博文，在 AI 輔助下，研究人員在不展開卷軸的情況下，虛擬讀取了 2 份被維蘇威火山灰掩埋的古卷。

4 小時前閱讀分析

IT之家研究與前沿

AI 老闆 500 天模擬經營：多數模型虧慘，Claude Fable 5 獨佔鰲頭

這篇消息聚焦「AI 老闆 500 天模擬經營：多數模型虧慘，Claude Fable 5 獨佔鰲頭」。原始導語提到：普林斯頓大學本月發佈基準測試 CEO-Bench，模擬創業公司，評估 AI 模型擔任企業首席執行官（CEO）的能力，結果多數模型破產。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

5 小時前閱讀分析