騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench
重點摘要
騰訊混元團隊與中國人民大學等機構聯合開源了PlanningBench,這是一個用於評測和訓練大語言模型規劃能力的框架。它系統化地抽象了任務、約束和難度,覆蓋30多種規劃任務類型,支持數據生成與驗證,旨在評估模型的實際規劃能力。
# 騰訊攜手人大高瓴開源「PlanningBench」:讓大語言模型的規劃能力不再紙上談兵
隨著大型語言模型從單純的對話問答走向更複雜的決策與任務執行場景,如何客觀評估模型是否具備「規劃能力」,已成為AI研究的重要課題。近日,騰訊混元團隊與中國人民大學高瓴人工智慧學院等機構聯手推出了名為 **PlanningBench** 的開源框架,旨在系統化地測試與強化大語言模型在面對多步驟任務、資源限制與約束條件下的真實規劃水準。
## 重點整理:一個專為「規劃」而生的評測工具
PlanningBench 的核心價值在於,它跳脫了傳統問答或常識推理的評測方式,而是聚焦於模型能否像人類一樣,針對一個目標拆解出合理的行動順序、調配有限資源,並在各種約束條件下找出可行路徑。根據公開資訊,這個框架已抽象化地涵蓋超過三十種規劃任務類型,並支援自動化的數據生成與結果驗證。換句話說,開發者可以透過 PlanningBench 快速產生不同難度與領域的規劃問題,再用來訓練或評比自家模型,進而了解模型究竟只是「背誦答案」,還是具備真正的推理與排程能力。
## 背景脈絡:規劃能力為何成為下一個決勝點?
過去一年,大型語言模型的評測多集中於知識問答、邏輯推理、程式碼生成等面向,但真正要將模型應用於機器人流程自動化、智慧助理行程安排、供應鏈調度、甚至遊戲策略規劃時,「規劃」能力便顯得至關重要。舉例來說,要求模型「安排一趟從台北到高雄的兩天一夜旅行,預算五千元,並考慮天氣與交通時間」,它就必須同時處理時間、金錢、地理位置等變數。然而,目前許多主流模型在這類任務上仍容易產生矛盾或不可行的計畫。PlanningBench 的出現,正是為了填補這個評測缺口——讓學術界與產業界擁有一套標準化、可擴充的工具,來量化模型的規劃缺陷,並引導後續的訓練方向。
## 可能影響:加速AI從「聊天」走向「行動」
這套框架開源後,預期將對兩大領域產生直接影響。第一是**模型開發者**:無論是科技巨頭或新創團隊,都能用 PlanningBench 快速檢驗自家模型在規劃任務上的弱點,進而針對性地調整微調策略,而不必從零設計評測環境。第二是**終端應用**:當模型規劃能力被有效提升後,能更可靠地執行如自動化報帳流程、行程管理、企業資源排程等真實工作。此外,由於 PlanningBench 是開源專案,學術研究人員也能基於它發展更先進的規劃演算法或神經符號式架構,形成正向循環。
## 隱藏挑戰:規劃不等於簡單的「步驟列舉」
值得注意的是,規劃能力評測極具挑戰性。一個看似合理的計畫,可能隱藏著資源衝突、循環依賴或無效動作,而語言模型往往擅長「說出看起來對的步驟」,卻無法保證可行。PlanningBench 透過系統化的任務抽象與自動驗證機制,試圖區分「表面合理」與「真正可執行」的規劃。不過,這也帶來另一個問題:真實世界的規劃常涉及不確定性與動態變化,現階段的靜態評測能否完整反映模型的實戰能力,仍有待更多研究驗證。
## 讀者可關注的後續發展
對於關注AI技術進展的讀者,建議留意以下三個方向。第一,**主流模型在PlanningBench上的公開評分**:未來若騰訊或第三方機構公佈各模型的排行,將是判斷模型規劃能力的重要參考。第二,**框架本身是否持續擴充任務類型**:例如納入部分可觀測環境、時間壓力、或多人協作等更貼近現實的要素。第三,**應用案例的出現**:觀察是否有開發者利用PlanningBench改善模型後,成功部署於機器人控制、自動化測試或行程推薦等實際產品中。這套框架才剛開源,真正的影響力將在未來半年到一年間逐漸浮現,值得所有對AI代理與決策系統感興趣的人持續追蹤。
我們需要寫一篇原創整理稿,關於騰訊與人大高瓴聯合推出的開源規劃評測框架 PlanningBench。內容需包含重點整理、背景脈絡、可能影響、讀者可關注的後續。用台灣常用繁體中文,5-8段,至少500字。不要逐字複製,不要新增未提供的具體數字或引述。原文提到「覆蓋30多種規劃任務類型」,可以提及但不要新增其他數字。風格為科技新聞編輯。
Related
相關文章

Token成本算盤打響,Seedance開始駛向“五環外”
這篇消息聚焦「Token成本算盤打響,Seedance開始駛向“五環外”」。原始導語提到:視頻AI的決勝場,不在模型本身。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題,Gmail 無法正常回復郵件
科技媒體 Android Authority 昨日(6 月 18 日)發佈博文,報道稱 Pixel 10 系列手機遭遇 AI“搶鏡”問題,用戶在 Gmail 回覆郵件時無法彈出輸入法鍵盤,優先顯示 Help me write 功能。

DeepSeek 識圖模式正式上線 App 和網頁端
DeepSeek 多模態研究員 Xiaokang Chen 今日表示,DeepSeek 的識圖模式已在網頁和 App 端正式上線。IT之家測試,目前 DeepSeek 的 App 端識圖模式依然提示“圖片理解功能內測中”,網頁端沒有這項提示。

微信、豆包之後,消息稱阿里將推“千問輸入法”
千問團隊將推出名為“千問輸入法”的獨立 App,與 PC 端的千問語音輸入法有一定區別,AI 功能、鍵盤會更貼合手機端操作,填補千問在移動端 AI 輸入法賽道的空白,產品已開發完成,擇日上線各大應用商店。
Kimi Work 迎重大升級:推出“目標模式”並打通外部應用插件
月之暗面旗下 Kimi 電腦客戶端近日煥新升級,為 Kimi Work(Beta 版)引入兩項重磅新特性:目標模式實現連續自主工作 24 小時,插件中心正式對接多家主流辦公軟件,提升工作流效率。為加速用戶深度體驗,官方同步推出限時優惠,2026 年 6 月全月,使用 Work 模式的會員額度消耗直接打 5 折,帶來實惠。
網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運
網易雲音樂旗下“妙時”(含AI奇遇)AI情感陪伴應用發佈停運公告,將於7月14日0時全面停止服務。客服迴應屬正常業務調整,不影響其他產品。目前已停止新用戶註冊和充值,用戶可在8月14日前申請退還剩餘代幣和會員費,並導出AI戀人聊天記錄。