ICML 2026 | 當大模型開始發明自己的語言:如何讓 LLM 用更少 Token 完成高強度推理
重點摘要
原文作者:公眾號“專知”原文鏈接:https://mp.weixin.qq.com/s/GYp8zFf-C5pXqHMSDNT2Aw 雷峰網轉載論文標題: When LLMs Develop Languages: Symbolic Communication for Efficient Multi-Agent Reasoning論文作者: Zhengqi Pei, Qingming Huang, Shuhui Wang作者單位: 中國科學院計算技術研究所,中國科學院大學ICML官方鏈接: https://icml.cc/virtual/2026/poster/61557論文鏈接:https://openreview.net/pdf?id=ovpL0ujD6j代碼與後續工作: https://github.com/pzqpzq/LSF_MDia成果應用: https://github.com/pzqpzq/Principia導讀Chain-of-Thought 可以讓大模型把思考寫出來,這種操作在眾多複雜任務上被證實有效。但如果中間推理的主要接收或處理對象並不是人類,而是另一個LLM,那麼基於自然語言的長推理鏈未必是最合適的中間表示。受此啟發,本論文提出的 CLSR (Communicative Language Symbolism Routing) 提出一個更底層的問題:LLM 是否一定要用自然語言來組織推理?CLSR 認為,多個 LLM agent 在正確性與推理成本的選擇壓力下,可以自主地生成、演化得到各式各樣的機器語言符號體系,即 Language Symbolism Frameworks(LSFs)。CLSR 就是針對這些語言符號體系的管理機制。實驗顯示,在多類推理 benchmark 與多種開源 backbone 上,CLSR 通常可以把面向延遲的生成端 comp
原文作者:公眾號“專知”原文鏈接:https://mp.weixin.qq.com/s/GYp8zFf-C5pXqHMSDNT2Aw 雷峰網轉載論文標題: When LLMs Develop Languages: Symbolic Communication for Efficient Multi-Agent Reasoning論文作者: Zhengqi Pei, Qingming Huang, Shuhui Wang作者單位: 中國科學院計算技術研究所,中國科學院大學ICML官方鏈接: https://icml.cc/virtual/2026/poster/61557論文鏈接:https://openreview.net/pdf?id=ovpL0ujD6j代碼與後續工作: https://github.com/pzqpzq/LSF_MDia成果應用: https://github.com/pzqpzq/Principia導讀Chain-of-Thought 可以讓大模型把思考寫出來,這種操作在眾多複雜任務上被證實有效。但如果中間推理的主要接收或處理對象並不是人類,而是另一個LLM,那麼基於自然語言的長推理鏈未必是最合適的中間表示。受此啟發,本論文提出的 CLSR (Communicative Language Symbolism Routing) 提出一個更底層的問題:LLM 是否一定要用自然語言來組織推理?CLSR 認為,多個 LLM agent 在正確性與推理成本的選擇壓力下,可以自主地生成、演化得到各式各樣的機器語言符號體系,即 Language Symbolism Frameworks(LSFs)。CLSR 就是針對這些語言符號體系的管理機制。實驗顯示,在多類推理 benchmark 與多種開源 backbone 上,CLSR 通常可以把面向延遲的生成端 completion tokens 降低約 3–6 倍,同時基本維持 Raw CoT 的準確率水平,並在若干設置中獲得更好的 accuracy–token Pareto frontier。更重要的是,它給出了一個值得進一步研究的範式:推理效率的關鍵,不只是讓模型“少說話”,還要讓模型使用更高信息密度、更可複用、更可路由的中間語言。0. 概要CLSR 所說的語言,並非人類專屬的自然語言,也不是聲稱 LLM 獲得了人類式的語言能力。它指的是操作意義上的離散符號通信協議,簡寫為 LSF (Language Symbolism Framework)。CLSR 可以讓大模型多智能體系統在推理能力和能效的雙重壓力下,大批量產生各式各樣的 LSF 協議。具體來講,給定任務、模型族、token預算、目標準確率,CLSR 可以讓大模型多智能體系統生成、複用、自主演化若干套包含符號、語法、推理操作、有效性約束和經驗 profile 的中間表示(即 LSF)。這些 LSF 協議可以被 CLSR 靈活調用、比較、路由、組合、淘汰,也可以在後續任務上繼續使用。因此,CLSR 要解決的是一個更具體、更可實驗化的問題:在 black-box LLM 設定下,能否自動發現一類離散、可存檔、可複用的中間推理協議,使其比自然語言 CoT 更接近 accuracy–token frontier?該問題的重要性體現在,當前的主流推理系統已經不再是單個模型一次性輸出答案,它們常常涉及到多個角色(solver、router、critic、verifier、tool user、aggregator)之間的交互與協作,這種協作過程涉及到的中間狀態往往非常繁冗複雜,既然這些消息的主要處理者是機器,那麼自然語言的可讀性、修辭連貫性和解釋性冗餘,就可能變成額外帶寬成本。CLSR 則把“推理鏈”從一段文本重新定義為一種帶寬受限的狀態傳輸機制。1. 問題背景:Chain-of-Thought難以兼顧推理精度和推理成本CoT 的成功來自一個非常樸素但強大的事實:對複雜問題顯式生成中間步驟,通常比直接給出答案更穩定。無論是數學推導、科學問答、邏輯選擇還是多跳檢索,外化中間狀態都能降低一次性解碼的難度。但 CoT 同時帶來一個結構性成本:它默認中間狀態必須以自然語言 prose 的形式展開。對於人類來看,自然語言是合理的溝通接口,但對於模型來說,卻不一定是最合理的交互接口。標準 CoT 中常見的大量內容,例如,“首先我們考慮……”、“因此可以看出……”、“為了驗證答案,我們再檢查……”,這雖然對人類讀者很友好,但對模型繼續推理所需的最小狀態而言,可能只是信息密度較低的形態。尤其在 autoregressive decoding 中,生成端 token 不僅影響成本,還會直接影響延遲和吞吐。已有方法大致沿著以下幾條路線緩解這一問題。第一類是 prompt optimization。它優化自然語言指令的表面形式,希望找到更好的提示詞。這類方法很有價值,但它優化的對象主要還是臨時的“指令字符串”,而不是一個持久可用的符號協議。第二類是 short reasoning prompting,例如 Chain-of-Draft、Sketch-of-Thought、Compressed CoT 等。它們讓模型少寫或寫草稿式推理。問題是,短並不等於有效:如果壓縮刪掉了變量綁定、候選排除、證據鏈接或驗證狀態,準確率會隨之下降。第三類是 program-aided reasoning,例如 PoT、PAL 等。它們把推理轉成程序,由外部解釋器執行。這條路線在可程序化任務上非常強,但它依賴人類預設的程序語言和外部 executor,也不直接回答“LLM 自身能否發現適合自己的中間符號系統”。CLSR 的切入點與上述方法都不同。它並不把 CoT 當作一段需要壓縮的自然語言文本,而是把推理過程視為機器之間的通信問題:如果 token 是帶寬,那麼推理效率的本質就是:每個 token 能攜帶多少對答案有用的狀態。這使得研究目標從“減少字數”轉向“提高單位 token 的有效信息密度”。2. 理論視角CLSR 論文中一個關鍵思想是把測試時推理形式化為一個 constrained stochastic control problem。CLSR 主要是針對第二類操作。它的目標是讓模型發展出更緊湊、更結構化、更適合自身解碼習慣的符號協議。這個視角也解釋了為什麼“永遠更短”不是正確目標。題目越難, 越大;目標準確率越高,允許誤差越小,所需信息也越多。因此,高效推理系統必須能夠根據問題難度自適應分配 token:簡單題可以極短,難題則需要保留分解、驗證和糾錯空間。3. LSF:可複用的機器推理協議CLSR 的基本單元是 Language Symbolism Framework,簡稱 LSF。論文中把一個 LSF 表示為:這個定義使 LSF 與普通 prompt 區分開來。Prompt 通常是一次性自然語言指令,而 LSF 則更像一張協議卡。它可以被多次調用,可以在樣例分佈上評估,可以由 router 選擇或組合,也可以在演化過程中被繼承、變異和淘汰。更直觀地說,一個數學類 LSF 可能會傾向於保留變量綁定、子目標、變形操作、校驗標籤和最終答案字段;一個科學問答類 LSF 可能更強調證據等級、候選排除、概念約束和短驗證;一個多跳檢索類 LSF 則可能保留證據橋、null guard、support status 和 answer contract。下面是一個概念示意,反映了 LSF 所追求的中間狀態形態:[bind] x=..., y=...[sub] need: eliminate distractor B/C[op] evidence(A) > evidence(D); constraint: mechanism match[chk] no contradiction with condition-2[ans] A這類表達並不追求文學性,也不追求對人類完全自解釋。它追求的是:在儘可能少的 token 中,保留足以讓模型繼續推理、驗證或輸出答案的結構化狀態。4. CLSR 如何工作:生成、演化、路由CLSR 可以分為三個階段:LSF synthesis、LSF evolution、test-time routing。4.1 從樣例中生成初始 LSF給定 benchmark 的訓練樣例,CLSR 首先採樣一批 exemplars,將它們作為上下文提供給 LLM。模型被要求設計一種能在保持推理能力的同時減少 token 的 LSF。默認流程中不對符號表、語法或規則進行人工編輯;人類只給出高層目標,即“正確且 token-efficient”。這一步主要是為了得到一個多樣化的初始語言池。較高採樣溫度會產生從 strict LSF 到 soft LSF 的一系列候選:前者更接近機器式壓縮協議,後者仍保留較多自然語言結構。4.2 通過選擇壓力演化 LSF隨後,CLSR 使用一個迭代 bootstrapping 過程逐代改進 LSF pool:用當前 LSF 回答新的訓練/驗證問題;記錄答案正確性與 completion token 成本;選擇同時正確且短的 high-leverage traces;將這些 trace、父代 LSF 和失敗信息反饋給 LLM;生成下一代 LSF,並重複評估、選擇、變異。這裡的“agent”並不是訓練出的獨立神經模塊,它們其實是由 backbone、隨機種子、樣例子集和生成上下文定義的 black-box LLM proposal/critique/mutation worker。增加 agent 數量,本質上是在擴展符號協議搜索空間。這一過程類似一個小型的機器語言體系演化過程:正確性是 communicative success,token 長度是 production cost,能反覆被採用的符號與格式會被保留,不能穩定支持答案的壓縮方式會被淘汰。這也解釋了為什麼 CLSR 不等同於 prompt engineering。Prompt engineering 優化的是“如何提問模型”;CLSR 優化的是“模型之間應該用什麼協議傳遞推理狀態”。4.3 測試時路由:讓不同問題使用不同方言演化得到 LSF pool 後,CLSR 在測試時不固定使用某一個 LSF,而是由 LLM-router 根據問題和 LSF profile 實時生成協議計劃。主要有三類推理模式:因此,CLSR 的目標並不是把所有回答壓到最短,而是在預算約束下動態決定何時壓縮、何時冗餘、何時驗證。對於簡單題,單個低成本 LSF 就足夠;對於 hard reasoning,router 可以主動花更多 token 去做分解、交叉檢查和多輪組合。這正是 CLSR 與普通短推理提示的核心區別:它優化的是路由策略與協議池,而不是固定長度風格。5. 實驗設置論文在七類 benchmark 上評估 CLSR:MMLU-Pro、GPQA-main、GSM8K、MATH500、AIME21–24、ScienceQA、HotpotQA。這些任務覆蓋知識密集型 QA、專家級科學問答、算術推理、競賽數學、多選科學問答和多跳問答。backbone 包括 LLaMA3-8B、DeepSeek-R1-Distill-Qwen3-8B、Qwen3-8B、Qwen3-32B 等開源模型。對比方法包括 Raw CoT、CoD、CCoT、SoT,以及 PoT、PAL、Plan-to-Solve、PromptBreeder 等程序化或 prompt 優化基線。評價指標主要是兩個:Accuracy:最終答案准確率;Completion tokens:測試時生成端 token,包括 CLSR 的 LSF 響應、router plan、中間響應和聚合等生成部分。論文附錄也探討了在online測試中的input token和output tokens的比例對真實latency和推理成本的影響。CLSR 的核心 claim 的準確表述是:CLSR 在多模型、多任務上更穩定地把系統推向更好的 accuracy–token frontier:在接近 Raw CoT 準確率的同時,顯著減少生成端 token;在相近 token 預算下,通常比簡單短推理提示保留更多有效狀態。6. 主結果:CLSR 改善的是 accuracy–token frontier下表摘取論文主表中的若干代表性結果。每個單元格為 Acc / Tkn,Tkn 表示平均生成 completion tokens。實驗結果表明:CLSR 的收益並不只來自小模型,也不只來自簡單任務。即使在強推理模型或長推理任務上,自然語言 CoT 中仍然存在大量對機器繼續推理並非必要的表述。更關鍵的是,與短推理 baseline 相比,CLSR 並非只是“更短”。以 Qwen3-8B 為例:這組對比很能說明 CLSR 的本質:它並不是在自然語言 CoT 上做“文風壓縮”,更主要是在尋找一種更合適的狀態編碼。短推理提示可能刪掉了關鍵中間狀態;LSF 則試圖用更緊湊的符號保留這些狀態。7. 機制分析一:CLSR 的收益來自“換碼”,而非機械縮寫論文中的 accuracy–token 曲線顯示,CLSR 在 MMLU-Pro、GPQA、GSM8K、MATH500 等任務上整體更接近 Pareto frontier。實驗表明:當 token 預算增加時,CLSR 的額外 token 往往更能轉化為準確率收益。這與理論中的 解釋一致:一個好的協議使得每個 token 更可能攜帶變量、約束、候選排除、證據綁定或驗證狀態,而不是攜帶重複敘述。在不同任務上,成功 LSF 的結構也不同:知識密集型 QA:壓縮重點是證據篩選、選項排除與短驗證;數學推理:壓縮重點是變量綁定、等式變形、子目標與 check;多跳問答:壓縮重點是 evidence bridge、support status、null guard;格式敏感任務:壓縮重點是 output contract 與 parseability。這說明 LSF 是一組 task-conditioned、model-conditioned 的推理協議。8. 機制分析二:難題更需要把 token 用在驗證環節CLSR 的一個重要 ablation 是多輪數 $T$。以 Qwen3-8B 為例:若把 CLSR 理解成“讓模型儘可能短”,那麼 $T=1$ 應該總是最優;但實驗恰好說明不是。對於 GSM8K、MATH500、GPQA,$T=3$ 使用更多 token,卻顯著提高準確率,同時仍然少於 Raw CoT。因此,針對難題推理任務,CLSR 的原則不是“少說”,而是:把 token 從自然語言敘述轉移到結構化驗證、分解和糾錯上。這也是高強度推理任務中最有價值的啟示。很多失敗的壓縮方法把 verification 也刪掉了;CLSR 則通過 router 決定什麼時候需要更嚴格的 LSF、什麼時候需要多個 LSF 聚合、什麼時候需要多輪組合。9. 機制分析三:CLSR 與程序化推理的關係程序化推理方法如 PoT 和 PAL 把推理轉成代碼,再用外部解釋器執行。CLSR 沒有依賴外部 executor,但它通過多輪 LSF 協議,在一定條件下可以近似一種“模型內部的程序化狀態更新”。論文也從理論上討論了這種關係:在 interpreter-realizability 前提下,多輪 LSF protocol 可以條件性地 subsume program-execution pipeline。Qwen3-8B 上的比較如下:這裡需要謹慎解讀:PoT/PAL 的 token 統計只計算生成程序所用的 LLM decoding tokens,不等同於整個系統的所有執行成本;而 CLSR 的優勢也不意味著外部 executor 不再重要。嚴格數值計算、長程序執行、形式驗證等任務,外部解釋器仍有獨特價值。CLSR 的更準確定位是:當任務所需的符號操作仍在模型內部可實現範圍內時,LSF 可以提供一種 black-box、離散、可存檔、可路由的中間協議;它不替代所有程序執行,而是擴展了“自然語言 CoT”和“外部程序執行”之間的表示空間。10. 定性樣例:LSF trace 更像工作區定性樣例展示了 CLSR 改變的內容。標準 CoT 往往像一段面向讀者的解釋文;CLSR trace 更像一個壓縮工作區,保留變量、操作、候選、檢查與最終答案。這類 trace 並非完全不可讀。很多有效 LSF 仍然借用了人類數學符號、短標籤、箭頭、括號、變量名和驗證標記。原因顯然:LLM 預訓練於人類文本與代碼/數學語料,完全任意的亂碼未必穩定;真正有效的機器方言往往是在“人類可讀符號”和“機器壓縮協議”之間形成新的折中。這也構成一個值得注意的可解釋性問題。LSF 比普通 CoT 更短、更結構化,但不一定更容易被非專業讀者理解。因此,在實際系統中更合理的設計可能是雙層 trace:內部用 LSF 高效推理,外部在需要時生成自然語言解釋,並保留 LSF card、route plan、raw trace、parsed answer 和 verifier log 以便審計。11. Takeaway messagesCoT 的長,不全是推理本身CoT 的長有兩部分來源:一部分是解決問題確實需要的中間狀態,另一部分是自然語言解釋的表達成本。CLSR 的實驗表明,在許多任務中,後者佔比並不小。把這部分冗餘換成符號化狀態,可以在不顯著損害準確率的前提下減少生成端 token。Token-efficient reasoning 是表示學習問題,不是文本風格的控制問題“請簡潔作答”只能改變表面文本風格;LSF 演化改變的是中間表示。真正有效的壓縮必須回答:哪些變量必須保留?哪些候選必須排除?哪些證據需要綁定?哪些檢查標籤不可刪除?這些不是單純長度約束能解決的問題。沒有一種機器方言對所有問題最優簡單題適合 strict、low-cost LSF;難題需要多輪組合和驗證;科學 QA 與數學推導需要不同的狀態結構;強模型和弱模型對同一種符號協議的適應性也不同。因此,CLSR 的關鍵不只是 LSF,還包括 LSF pool 與 query-adaptive routing。小模型的能力不僅取決於參數,也取決於推理協議小模型常常被迫生成大量自然語言敘述,導致寶貴 token 預算花在低密度表達上。若把預算更多用於結構化狀態、驗證和組合,小模型在特定任務上的 accuracy–token frontier 可以明顯改善。這並不是說這些 LSF 協議能替代模型能力,而是說明系統設計能顯著改變能力的可用形態。機器語言的價值在於可複用、可評估、可路由一個短 trace 只對一個樣例有效,它只是壓縮答案;一個 LSF 能跨樣例複用、能被 profile 評估、能被 router 選擇、能與其他 LSF 組合,它才成為一個操作意義上的機器語言。緊湊的推理 trace 不是萬能的更緊湊的協議也會帶來風險:過度壓縮可能刪除關鍵驗證;符號 trace 可能降低人工可讀性;不同模型之間的協議遷移可能出現負遷移;
Related
相關文章

GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?
這篇消息聚焦「GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?」。原始導語提到:美國AI,「閉關鎖國」? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜
這篇消息聚焦「Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜」。原始導語提到:白天,Claude是高薪打工人的生產力引擎;深夜,它成了唯一知道你還醒著的那個。一份報告,意外照出了幾百萬人藏起來的24小時。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑
這篇消息聚焦「獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑」。原始導語提到:“每一代模型,我們都在押注一個非共識。” 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發
這篇消息聚焦「北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到:北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式,運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
讓AI自己修服務器?先過了這場“火線測試”再說
智東西 作者 | 陳駿達 編輯 | 漠影 隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和複雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率並降低人力成本。 然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反覆驗證,自行界定問題並尋求解決路徑。 要提升智能體在此類複雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。 正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。 這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。 一、百億條運維數據,煉出103道“考題” 任何評測體系的價值,最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性,許多問題並不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。 無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,並取得明顯成效。工單平均處理
OceanBase發佈AI數據庫三件套,TOC最高降50%,螞蟻、靈光都在用
智東西 作者 | 王涵 編輯 | 雲鵬 智東西6月29日報道,今天,OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase,該產品面向Agent應用,原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構,可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性,讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。 基於此,OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio,以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節,幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口,讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成,把過去依賴專業數據團隊完成的分析流程,轉化為可交互、可追問、可複用的智能決策能力。 智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝,進行了面對面的交流。 楊冰認為,AI正在改變數據的管理方式,數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰:VibeCoding帶來了海量Agent應用;Agent開始執行生產任務;Agent長期運行的正確性和自我進化。數據形態改變,則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。 兩者作用疊加,OceanBase給出判斷:在AI時代,數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露,OceanBase已將內核團隊分為“一體化數據庫”和“A