ICML 2026:從輸入輸出樣例中自動生成程序——強化學習為大模型Programming-By-Example任務提供推理過程監督
重點摘要
ICML 2026PRM-PBE方法示意圖儘管大語言模型在代碼生成和程序推理任務中取得了顯著進展,但其在Programming-by-Example(PBE)任務中的表現仍受到明顯限制。PBE要求模型僅根據輸入輸出樣例推斷潛在程序邏輯,併合成能夠滿足所有樣例的程序。現有LLM方法通常依賴輸入到輸出的直接映射,或藉助Chain-of-Thought、執行反饋、監督微調等方式增強推理能力。然而,這類方法缺乏對中間推理過程的細粒度監督,容易生成只滿足部分樣例的shortcut程序,或在複雜邏輯歸納場景下偏離真實意圖。近日,北京大學、京東、華東師範大學、實驗室聯合研究團隊圍繞 LLM在PBE場景中缺乏過程監督的問題,提出一種面向程序樣例歸納的過程獎勵強化學習框架PRM-PBE。該方法通過反饋引導的推理樹構建過程監督數據,並訓練Process Reward Model(PRM)評估中間推理步驟的可靠性,再結合按失敗模式組織的三階段課程學習與PPO優化程序合成模型,從而提升模型從輸入輸出樣例中捕捉隱含程序邏輯的能力。相關論文題為PRM-PBE : Process Reward Model for Reinforcement Learning in Programming-by-Example。論文作者:房越、金芝、安傑、陳宏申、李江夢、陳小紅、詹乃軍通訊作者:金芝、安傑現有 PBE 方法缺乏對推理過程的細粒度監督Programming-by-Example的核心目標,是從少量輸入輸出樣例中推斷用戶真正想要的程序邏輯。傳統PBE系統通常依賴預定義DSL,通過符號搜索、遞歸分解或神經網絡引導搜索完成程序合成。隨著大語言模型的發展,PBE不再必須受限於特定DSL,模型可以直接基於自然語言提示、輸入輸出樣例和推理鏈生成通用語言程序。然而,論文指出,當前LLM-based PBE方法仍存在一個關
ICML 2026PRM-PBE方法示意圖儘管大語言模型在代碼生成和程序推理任務中取得了顯著進展,但其在Programming-by-Example(PBE)任務中的表現仍受到明顯限制。PBE要求模型僅根據輸入輸出樣例推斷潛在程序邏輯,併合成能夠滿足所有樣例的程序。現有LLM方法通常依賴輸入到輸出的直接映射,或藉助Chain-of-Thought、執行反饋、監督微調等方式增強推理能力。然而,這類方法缺乏對中間推理過程的細粒度監督,容易生成只滿足部分樣例的shortcut程序,或在複雜邏輯歸納場景下偏離真實意圖。近日,北京大學、京東、華東師範大學、實驗室聯合研究團隊圍繞 LLM在PBE場景中缺乏過程監督的問題,提出一種面向程序樣例歸納的過程獎勵強化學習框架PRM-PBE。該方法通過反饋引導的推理樹構建過程監督數據,並訓練Process Reward Model(PRM)評估中間推理步驟的可靠性,再結合按失敗模式組織的三階段課程學習與PPO優化程序合成模型,從而提升模型從輸入輸出樣例中捕捉隱含程序邏輯的能力。相關論文題為PRM-PBE : Process Reward Model for Reinforcement Learning in Programming-by-Example。論文作者:房越、金芝、安傑、陳宏申、李江夢、陳小紅、詹乃軍通訊作者:金芝、安傑現有 PBE 方法缺乏對推理過程的細粒度監督Programming-by-Example的核心目標,是從少量輸入輸出樣例中推斷用戶真正想要的程序邏輯。傳統PBE系統通常依賴預定義DSL,通過符號搜索、遞歸分解或神經網絡引導搜索完成程序合成。隨著大語言模型的發展,PBE不再必須受限於特定DSL,模型可以直接基於自然語言提示、輸入輸出樣例和推理鏈生成通用語言程序。然而,論文指出,當前LLM-based PBE方法仍存在一個關鍵缺陷:模型主要學習輸入與輸出之間的表層映射,而缺少對中間歸納過程的監督。對於複雜PBE任務,僅憑樣例進行端到端生成容易產生兩類錯誤。一類是模型推斷出完全錯誤的邏輯,例如把“多個列表相同位置元素相等的索引”錯誤理解為簡單集合交集。另一類是模型生成只覆蓋部分樣例的程序,例如任務要求降序排序,模型卻只執行反轉操作,從而在部分樣例上看似正確,但無法表達真實規則。這些失敗說明,PBE的難點並不只是最終代碼是否通過測試,而在於模型是否能夠在推理過程中逐步接近樣例背後的潛在意圖。若缺少對推理步驟的顯式監督,模型很容易沿著錯誤歸納方向繼續生成,並最終得到看似合理但邏輯不完整的程序。 用反饋引導的推理樹構建過程監督數據針對PBE中間推理過程難以監督的問題,論文提出反饋引導的推理樹構建方法。推理樹中的每個節點表示一個自然語言形式的中間推理步驟,模型從輸入輸出樣例出發,逐步採樣後繼推理節點,直到形成完整推理路徑。由於這些中間節點本身不能直接執行,系統會在路徑終止後將其轉化為完整程序,並通過執行測試判斷其是否滿足所有樣例。在此基礎上,論文用後續路徑的成功比例衡量節點質量。若某個節點的大部分後續路徑都能導向正確程序,說明該推理狀態較為可靠。若某個推理前綴的所有後繼路徑都失敗,系統則將其視為潛在邏輯偏離點,並引入外部自然語言指令進行定向修復,從而生成更多高質量正樣本,緩解PBE過程監督數據中正樣本稀疏的問題。用後繼成功率訓練過程獎勵模型在完成推理樹構建後,論文進一步訓練Process Reward Model來評估中間推理步驟的質量。PRM並不直接判斷最終程序是否正確,而是為每個推理狀態分配獎勵分數,用來估計該狀態繼續生成正確程序的可能性。具體而言,論文將節點的後繼成功率作為偏好信號。如果節點A的後續採樣路徑更容易生成正確程序,而節點B的後續路徑更容易失敗,訓練目標就要求PRM給節點A更高分數。相比簡單的正負樣本分類,這種偏好學習能夠更細緻地區分不同推理狀態的可靠程度,使模型學會識別更可能通向正確程序的歸納方向。三階段課程學習將過程獎勵注入強化學習獲得PRM後,論文將其接入強化學習框架,用過程級獎勵優化程序合成模型。為提升訓練穩定性,研究團隊設計了按失敗模式組織的三階段課程學習策略,使模型從基礎可執行性逐步過渡到複雜邏輯正確性。第一階段關注語法錯誤和運行時錯誤,訓練模型生成能夠正常執行的程序。第二階段關注可執行但與目標行為完全不一致的程序,引導模型學習輸入輸出樣例中的核心約束。第三階段處理只能通過部分樣例的程序,幫助模型減少對有限樣例的過擬合。在每個階段中,PRM對中間推理狀態提供獎勵,並通過PPO更新策略模型,從而讓模型逐步學習更可靠的程序歸納路徑。多基準實驗驗證PRM-PBE的有效性論文在PROSE、SyGuS、Playgol、Lists和MBPP五個代表性PBE基準上進行實驗,覆蓋字符串處理、列表操作、歸納邏輯程序設計以及由 MBPP改造而來的輸入輸出樣例合成任務。實驗同時比較了多種閉源與開源大語言模型,包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Flash、Qwen2.5-Coder、DeepSeek-Coder-V2、Llama-3和Qwen3。主實驗結果顯示,PRM-PBE在所有基準上均顯著優於現有基線。以 DeepSeek-Coder-V2為基礎模型時,SFT的平均Pass@1為42.76%,而PRM-PBE提升至56.61%,帶來13.85個百分點的增益。與最強非PRM基線Claude-3.5-Sonnet的WPS方法相比,PRM-PBE仍高出8.73個百分點。這說明,對於複雜PBE任務,僅依賴提示工程、搜索反饋或監督微調仍然不足,顯式過程獎勵能夠更有效地提升程序合成準確率。為PBE程序合成提供過程監督的新範式這項工作的影響在於,它把PBE中最難監督的“從樣例歸納程序意圖”這一過程顯式建模出來,並用過程獎勵為強化學習提供了比最終執行結果更細粒度的訓練信號。相比只判斷程序是否通過測試,PRM-PBE 能夠進一步識別推理路徑中的偏離點,減少只滿足部分樣例的shortcut 程序,使模型更可靠地學習輸入輸出樣例背後的全局邏輯。更進一步,這一框架也為後續LLM程序合成研究提供了可擴展思路:對於許多難以直接標註中間過程的任務,可以通過“採樣後續路徑、驗證最終結果、反推中間狀態價值”的方式構建過程監督信號。隨著更強的代碼模型和自動驗證工具發展,類似的過程獎勵機制有望擴展到更復雜的程序歸納、算法生成和真實軟件工程任務中。原文作者:公眾號“天基綜合信息系統全國重點實驗室”原文鏈接:https://mp.weixin.qq.com/s/AQxUnKKX4qqRgi3KpRgSpw雷峰網
Related
相關文章

Edge AI Daily 早報(6月19日)
AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

今天起,Claude Design要把設計師和程序員變成同一種人了
猝不及防!Anthropic深夜甩出Claude Design大更新,設計系統一鍵導入,代碼雙向同步,9大平臺一鍵導出。Anthropic設計師親自下場錄屏:AI跑了八輪自查,才敢把設計稿給你看。

OpenAI 成為 Rust 基金會白金會員,合計贊助 60 萬美元
OpenAI 正式成為 Rust 基金會白金會員,將提供總計 60 萬美元資金,用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

Claude Design 上線首周用戶破百萬,和 Claude Code 共享 AI 配額
Anthropic 今天(6 月 18 日)發佈公告,在宣佈 Claude Design 上線首周用戶規模突破 100 萬後,進一步強化和 Claude Code 的雙向聯動,實現從設計到編程的無縫工作流。
谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元
智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

微軟,考慮接入DeepSeek
這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。