GAIR Paper 105｜離線強化學習新突破——ROMI：破解對抗式模型學習「過保守、訓不穩」深層困局｜ICLR 2026

2026年6月25日 06:42

重點摘要

站內 AI 整理稿

ROMI：離線強化學習新突破，探索對抗式模型學習範式全新實現路徑，破解保守性難控與訓練不穩的深層困局。作者丨喬鍾健離線強化學習（offline RL）的目標，是在不與環境繼續交互的前提下，僅依賴已有數據集學習策略。相比無模型（model-free）方法，基於模型的離線強化學習（model-based offline RL）會額外訓練一個環境動力學模型，讓策略在該模型上生成軌跡，藉此擴展離線訓練數據、提升算法的樣本效率與泛化能力。然而，基於模型的離線強化學習並非完全理想，主要原因在於：模型預測的環境動態不可能完全準確，一旦策略在生成軌跡過程中探索到模型預測偏差較大但價值較高的區域，就可能利用這些誤差，朝著“在模型裡看起來價值高、在真實環境裡卻表現差”的方向優化。這就是經典的模型利用（model exploitation）問題。為了解決這一問題，以往研究通常會引入某種形式的保守性（conservatism）。其中，一條主流路線是利用不確定性估計來給模型增加懲罰項；另一經典範式則是對抗式模型學習（adversarial model learning），即把環境模型看作一個“最壞情況”的對手，在一定不確定性集合內尋找對策略最不利的動力學模型，從而抑制策略對模型誤差的投機利用 [1]。儘管該範式在理論分析層面已積累較為豐富的結果，但如何設計實際訓練算法實現該範式仍面臨挑戰，有待進一步探索。其中 RAMBO [2] 是該研究方向中最具代表性的經典工作之一。本論文旨在探索對抗式模型學習範式的全新實現路徑，進一步彌合理論與實際實現性能之間的鴻溝，設計更有效的實際算法，並在標準數據集上驗證其實用性能。通過深入分析，本文作者發現，RAMBO 在實踐中往往面臨兩個難以迴避的問題：保守程度很難控制，以及訓練過程容易不穩定，這源於 RAMBO 使用了容易導致過度保守和梯度爆炸的模型梯度（model gradient）方法來更新環境模型。針對這一瓶頸，本文的研究者提出了（RObust Value-aware Model learning with Implicitly differentiable adaptive weighting）方法。該方法不再直接沿用RAMBO的模型更新方式，而是提出一種魯棒價值感知的模型學習框架，並進一步引入隱式可微的自適應加權雙層優化機制，同時兼顧價值保守性與分佈外泛化能力。在 D4RL 與 NeoRL 多個基準任務上，ROMI 顯著超越同屬對抗式模型學習路線的 RAMBO，更在多數任務上達到甚至超越無模型與基於模型帶懲罰項的離線強化學習 SOTA 方法的性能。本文作者來自香港城市大學、騰訊、芝加哥大學、香港科技大學（廣州）等機構。作者包括喬鍾健、呂加飛、呂博翔、舒瑤、高思陽、邱爽。其中，第一作者為香港城市大學喬鍾健，通訊作者為香港城市大學助理教授邱爽。該論文已被國際機器學習頂會ICLR 2026接收。論文題目：Model-based Offline RL via Robust Value-aware Model Learning with Implicitly Differentiable Adaptive Weighting文章鏈接：https://openreview.net/pdf?id=yxx6XiXwx201研究背景：對抗式模型學習和RAMBO算法為緩解模型利用問題，一類主流方法依賴不確定性估計，對模型施加額外懲罰；相比之下，對抗式模型學習提供了另一條路徑：不再顯式估計不確定性，而是將離線強化學習表述為一個策略與動力學模型之間的博弈問題。該範式目標是求解一個最大化最小值（max-min）問題 [1]：其中，是動態不確定性集合，是分佈距離度量，為通過最大似然估計學習到的數據集動態。RAMBO 算法則是對抗式模型學習的一種經典實現方式，將原問題轉化為優化求解以下問題 [2]：其中，第一項是對抗損失，以最小化模型在分佈外（OOD）區域的價值，通過模型梯度進行優化；第二項是標準的最大似然損失。是拉格朗日乘子，在實際中對於每個任務設置為常數。02核心痛點：RAMBO 為什麼不夠理想本文指出，RAMBO 雖然提供了一個可落地的對抗式模型學習實現，但它依賴一個對抗權重係數去平衡最大似然學習與對抗訓練。問題在於，在原始算法中往往被設得極小，例如，這意味著對抗項的作用其實被壓得很弱。基於此觀察，論文首先探索了不同值對訓練的影響。論文發現，當很小時，如, 對訓練的影響區別並不大。然而，一旦把略微調大一些，如 0.05 或 0.1，訓練可能會導致 Q 值嚴重低估，甚至出現梯度爆炸，從而導致訓練崩潰。這背後反映的是兩個更本質的問題：保守性難以精細控制。RAMBO 中的本質上應視為對偶變量，並需要通過梯度算法來進行更新優化。但在實際訓練中，往往在同一個任務中將設定為一個常數，因此很難穩定地決定“到底該有多保守”。模型梯度更新本身容易過於激進。RAMBO 藉助模型梯度（model gradient）去主動尋找“值函數更低”的區域，這種機制在實際實現中往往會把模型推向一些數值上極不穩定的方向，進而帶來 Q 值低估與梯度爆炸。03解決方案：ROMI 算法針對以上兩個核心痛點，本文的研究者提出 ROMI 算法作為解決方案，ROMI 的核心包括魯棒價值感知的模型學習框架，以及隱式可微的自適應加權雙層優化機制。魯棒價值感知的模型學習為了解決 RAMBO 中“保守性難以控制”以及“模型梯度更新不穩定”的問題，ROMI 不再直接用模型梯度去壓低分佈外區域的價值，而是迴歸對抗式模型學習的離線強化學習範式中原始的最大化最小值目標，從單步價值誤差（one-step value estimation error）的角度構造一個更穩定、也更可控的模型學習目標。具體來說，ROMI將原問題改寫為:即，將原始的最大化最小值問題轉換成“使模型對應的價值與不確定性集合下的最壞情況價值保持對齊”的優化目標。為了實現這個目標，需要最小化價值感知的模型誤差（value-aware model error）:根據價值函數的定義進行單步展開，進一步得到：然而，直接最小化會帶來一個關鍵問題：由於動作是從當前策略採樣的，而只在離線數據集中有定義，因此，一旦產生了分佈外動作，最小化會驅使模型在分佈外區域內追求任意低的價值，這也是 RAMBO 會過度保守的本質原因。為了解決這個問題，ROMI將目標改為只在分佈內區域顯式學習保守性：將動作分佈從策略換成行為策略，並把價值函數替換成訓練過程中的價值,得到新的優化目標：即，在分佈內區域學習一個“溫和保守"的模型，而分佈外區域的保守性則通過模型的泛化性實現。優化的主要困難在於計算，因為是一個無法直接得到的動力學集合。為了解決這個問題，論文選擇Wasserstein距離作為分佈距離度量，並定義Wasserstein動力學不確定集：其中代表兩個分佈之間的Wasserstein距離。在Wasserstein距離度量下，論文給出了一個關鍵的對偶形式轉換：其中為狀態不確定集。在這樣的轉換下，ROMI 不再依賴無法得到的動力學不確定集，而只需要在顯式的狀態空間中進行最小值函數的搜索即可。將以上對偶形式代入的表達式，得到：訓練目標轉化為：讓當前模型預測的下一個狀態的價值，貼近局部鄰域中的最小价值。進一步，由於離線數據中已經有的樣本，而正是由這些樣本通過最大似然擬合得到的，因此在可以使用數據集中的作為鄰域中心，並在其附近加噪構造，並將參數化為，得到最終的魯棒價值感知的模型損失（robust value-aware model loss，RVL）:其中，是從中隨機採樣得到的個擾動狀態。這套構造有兩個最大優點：保守程度的可控性。保守性由直接控制，而非由拉格朗日系數隱式控制。越大，狀態不確定集越大，局部最小值越低，保守性增強；反之，越小，保守性減弱。模型更新的穩定性。RAMBO 的風險在於它用模型梯度直接把預測推向價值陡降區域，很容易導致梯度爆炸；而 ROMI 只是在一個鄰域裡做最小值逼近，因此訓練穩定性顯著增強。隱式可微的自適應加權雙層優化由於僅僅約束了模型預測狀態的價值，並沒有考慮模型預測動態的誤差，可能會導致策略在多步軌跡生成時被迫探索分佈外區域，增加分佈外泛化的誤差。因此，還需要一個能夠平衡價值約束和動態約束的機制。ROMI 使用雙層優化來實現這一目標。具體來說，ROMI 引入了一個動態加權網絡對每一個狀態轉移對分配獨立的權重，並優化以下目標函數：其中，為加權監督學習損失。ROMI 在內層通過加權監督學習來更新環境動態模型，以實現動態約束；同時在外層利用隱式微分通過最小化來優化，以實現價值約束。內層優化：固定，使用梯度下降最小化來優化環境動態模型：其中，是環境動態模型在第步的學習率。外層優化：通過鏈式法計算動態加權網絡的梯度：其中，接著，使用Pytorch框架的自動微分來更新其中，是動態加權網絡在第步的學習率。最終的 ROMI 算法通過魯棒價值感知的模型學習以及隱式可微的自適應加權雙層優化框架更新環境動態模型，同時使用 SAC 算法更新策略完成訓練流程。04實驗驗證基準性能測試論文在標準的 D4RL 以及 NeoRL 基準的多個數據集上驗證了 ROMI 的有效性，並與多個代表性離線強化學習方法進行了充分對比：包括與 ROMI 同屬基於模型的對抗式模型學習路線的 RAMBO，無模型離線強化學習算法 CQL 與 IQL，以及基於模型且帶懲罰項的離線強化學習方法 MOPO、Count-MORL 和 MOBILE。D4RL. 在 D4RL 基準上，論文選擇了三種機器人控制任務（halfcheetah，hopper，walker2d），每種任務包含四種數據集（random，medium，medium-replay，medium-expert）。下表展示了在各個數據集下，ROMI 和基線算法的標準化得分（Normalized Score）對比結果。可以看出，ROMI 在絕大部分數據集上都取得了相比基線算法更優秀的性能。具體來說，ROMI 的總得分達到了953.5，相比於 RAMBO 算法提升了18.6%。即使相比於 MOBILE 和 Count-MORL 算法，ROMI 也在12個數據集中的11個達到了最優的性能。NeoRL.在 NeoRL 基準上，論文選擇了三種機器人控制任務（halfcheetah，hopper，walker2d），每種任務包含三種數據質量的數據集（low，medium，high）。論文同樣展示了在每個數據集上 ROMI 和基線算法的標準化得分對比結果。可以看出，ROMI在9個數據集中的6個達到了最優的性能，並取得了最高的總得分。消融實驗論文通過消融實驗探究了動態約束對 ROMI 算法性能以及模型預測誤差的影響。下圖對比了在加入動態約束和去掉動態約束下，算法性能以及模型預測誤差對比。可以看出，在加入動態約束之後，算法的性能得到提升，而模型預測誤差大大降低，這驗證了動態約束的重要性。參數敏感性實驗論文探究了ROMI對於不確定集尺度的敏感性。下圖對比了在不同值下的ROMI的Q值估計、標準化得分、內層梯度範數、外層梯度範數。可以看出：（1）對於所有選擇的，均未發生嚴重 Q 值低估以及梯度爆炸；（2）對於不同的，Q 值估計清晰可分，越大，Q值越低。這說明 ROMI 能夠提供可控的保守性並保證訓練的穩定性。05總結本論文聚焦於基於模型的離線強化學習，首先探究了 RAMBO 算法的侷限性：傾向於過度保守以及訓練不穩定。針對這個侷限，論文提出 ROMI 算法，通過魯棒價值感知的模型學習，以及隱式可微的自適應加權雙層優化，實現了可控的保守性，以及增強了訓練的穩定性。在多個基準和數據集下的實驗結果表明，ROMI 都展示了比基線算法更高的性能，充分驗證了其有效性。[1] Masatoshi Uehara and Wen Sun. Pessimistic model-based offline reinforcement learning under partial coverage. ICLR 2022[2] Marc Rigter, Bruno Lacerda, and Nick Hawes. RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning. NeurIPS 2022上車，帶你看遍全球 AI 頂會精華可獨家暢覽：專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼或點擊「閱讀原文」關注專區。雷峰網

原始來源：雷峰網 ↗

查看原始來源

36氪研究與前沿

沒有統一名字的戰爭：國內各家大廠的世界模型版圖

這篇消息聚焦「沒有統一名字的戰爭：國內各家大廠的世界模型版圖」。原始導語提到：世界模型：大廠在“造世界”的賭桌上下注從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

鈦媒體研究與前沿

Edge AI Daily 早報（6月25日）

英偉達與SpaceX發債450億美元創紀錄，債務市場成為AI基建第二戰場；OpenAI與Broadcom聯合發佈Jalapeño推理芯片，9個月流片速度揭示AI實驗室轉向定製硬件研發趨勢。Alphabet納入道瓊斯指數標誌AI升格為美國經濟新底座，而Meta成為唯一拒絕政府AI審查的前沿巨頭，暴露開源基因與國家安全的結構性矛盾。

2 小時前閱讀分析