ICML 2026 | 當大模型開始發明自己的語言：如何讓 LLM 用更少 Token 完成高強度推理

2026年6月29日 06:36

重點摘要

站內 AI 整理稿

原文作者：公眾號“專知”原文鏈接：https://mp.weixin.qq.com/s/GYp8zFf-C5pXqHMSDNT2Aw 雷峰網轉載論文標題： When LLMs Develop Languages: Symbolic Communication for Efficient Multi-Agent Reasoning論文作者： Zhengqi Pei, Qingming Huang, Shuhui Wang作者單位：中國科學院計算技術研究所，中國科學院大學ICML官方鏈接： https://icml.cc/virtual/2026/poster/61557論文鏈接：https://openreview.net/pdf?id=ovpL0ujD6j代碼與後續工作： https://github.com/pzqpzq/LSF_MDia成果應用： https://github.com/pzqpzq/Principia導讀Chain-of-Thought 可以讓大模型把思考寫出來，這種操作在眾多複雜任務上被證實有效。但如果中間推理的主要接收或處理對象並不是人類，而是另一個LLM，那麼基於自然語言的長推理鏈未必是最合適的中間表示。受此啟發，本論文提出的 CLSR (Communicative Language Symbolism Routing) 提出一個更底層的問題：LLM 是否一定要用自然語言來組織推理？CLSR 認為，多個 LLM agent 在正確性與推理成本的選擇壓力下，可以自主地生成、演化得到各式各樣的機器語言符號體系，即 Language Symbolism Frameworks（LSFs）。CLSR 就是針對這些語言符號體系的管理機制。實驗顯示，在多類推理 benchmark 與多種開源 backbone 上，CLSR 通常可以把面向延遲的生成端 completion tokens 降低約 3–6 倍，同時基本維持 Raw CoT 的準確率水平，並在若干設置中獲得更好的 accuracy–token Pareto frontier。更重要的是，它給出了一個值得進一步研究的範式：推理效率的關鍵，不只是讓模型“少說話”，還要讓模型使用更高信息密度、更可複用、更可路由的中間語言。0. 概要CLSR 所說的語言，並非人類專屬的自然語言，也不是聲稱 LLM 獲得了人類式的語言能力。它指的是操作意義上的離散符號通信協議，簡寫為 LSF (Language Symbolism Framework)。CLSR 可以讓大模型多智能體系統在推理能力和能效的雙重壓力下，大批量產生各式各樣的 LSF 協議。具體來講，給定任務、模型族、token預算、目標準確率，CLSR 可以讓大模型多智能體系統生成、複用、自主演化若干套包含符號、語法、推理操作、有效性約束和經驗 profile 的中間表示（即 LSF）。這些 LSF 協議可以被 CLSR 靈活調用、比較、路由、組合、淘汰，也可以在後續任務上繼續使用。因此，CLSR 要解決的是一個更具體、更可實驗化的問題：在 black-box LLM 設定下，能否自動發現一類離散、可存檔、可複用的中間推理協議，使其比自然語言 CoT 更接近 accuracy–token frontier？該問題的重要性體現在，當前的主流推理系統已經不再是單個模型一次性輸出答案，它們常常涉及到多個角色（solver、router、critic、verifier、tool user、aggregator）之間的交互與協作，這種協作過程涉及到的中間狀態往往非常繁冗複雜，既然這些消息的主要處理者是機器，那麼自然語言的可讀性、修辭連貫性和解釋性冗餘，就可能變成額外帶寬成本。CLSR 則把“推理鏈”從一段文本重新定義為一種帶寬受限的狀態傳輸機制。1. 問題背景：Chain-of-Thought難以兼顧推理精度和推理成本CoT 的成功來自一個非常樸素但強大的事實：對複雜問題顯式生成中間步驟，通常比直接給出答案更穩定。無論是數學推導、科學問答、邏輯選擇還是多跳檢索，外化中間狀態都能降低一次性解碼的難度。但 CoT 同時帶來一個結構性成本：它默認中間狀態必須以自然語言 prose 的形式展開。對於人類來看，自然語言是合理的溝通接口，但對於模型來說，卻不一定是最合理的交互接口。標準 CoT 中常見的大量內容，例如，“首先我們考慮……”、“因此可以看出……”、“為了驗證答案，我們再檢查……”，這雖然對人類讀者很友好，但對模型繼續推理所需的最小狀態而言，可能只是信息密度較低的形態。尤其在 autoregressive decoding 中，生成端 token 不僅影響成本，還會直接影響延遲和吞吐。已有方法大致沿著以下幾條路線緩解這一問題。第一類是 prompt optimization。它優化自然語言指令的表面形式，希望找到更好的提示詞。這類方法很有價值，但它優化的對象主要還是臨時的“指令字符串”，而不是一個持久可用的符號協議。第二類是 short reasoning prompting，例如 Chain-of-Draft、Sketch-of-Thought、Compressed CoT 等。它們讓模型少寫或寫草稿式推理。問題是，短並不等於有效：如果壓縮刪掉了變量綁定、候選排除、證據鏈接或驗證狀態，準確率會隨之下降。第三類是 program-aided reasoning，例如 PoT、PAL 等。它們把推理轉成程序，由外部解釋器執行。這條路線在可程序化任務上非常強，但它依賴人類預設的程序語言和外部 executor，也不直接回答“LLM 自身能否發現適合自己的中間符號系統”。CLSR 的切入點與上述方法都不同。它並不把 CoT 當作一段需要壓縮的自然語言文本，而是把推理過程視為機器之間的通信問題：如果 token 是帶寬，那麼推理效率的本質就是：每個 token 能攜帶多少對答案有用的狀態。這使得研究目標從“減少字數”轉向“提高單位 token 的有效信息密度”。2. 理論視角CLSR 論文中一個關鍵思想是把測試時推理形式化為一個 constrained stochastic control problem。CLSR 主要是針對第二類操作。它的目標是讓模型發展出更緊湊、更結構化、更適合自身解碼習慣的符號協議。這個視角也解釋了為什麼“永遠更短”不是正確目標。題目越難，越大；目標準確率越高，允許誤差越小，所需信息也越多。因此，高效推理系統必須能夠根據問題難度自適應分配 token：簡單題可以極短，難題則需要保留分解、驗證和糾錯空間。3. LSF：可複用的機器推理協議CLSR 的基本單元是 Language Symbolism Framework，簡稱 LSF。論文中把一個 LSF 表示為：這個定義使 LSF 與普通 prompt 區分開來。Prompt 通常是一次性自然語言指令，而 LSF 則更像一張協議卡。它可以被多次調用，可以在樣例分佈上評估，可以由 router 選擇或組合，也可以在演化過程中被繼承、變異和淘汰。更直觀地說，一個數學類 LSF 可能會傾向於保留變量綁定、子目標、變形操作、校驗標籤和最終答案字段；一個科學問答類 LSF 可能更強調證據等級、候選排除、概念約束和短驗證；一個多跳檢索類 LSF 則可能保留證據橋、null guard、support status 和 answer contract。下面是一個概念示意，反映了 LSF 所追求的中間狀態形態：[bind] x=..., y=...[sub] need: eliminate distractor B/C[op] evidence(A) > evidence(D); constraint: mechanism match[chk] no contradiction with condition-2[ans] A這類表達並不追求文學性，也不追求對人類完全自解釋。它追求的是：在儘可能少的 token 中，保留足以讓模型繼續推理、驗證或輸出答案的結構化狀態。4. CLSR 如何工作：生成、演化、路由CLSR 可以分為三個階段：LSF synthesis、LSF evolution、test-time routing。4.1 從樣例中生成初始 LSF給定 benchmark 的訓練樣例，CLSR 首先採樣一批 exemplars，將它們作為上下文提供給 LLM。模型被要求設計一種能在保持推理能力的同時減少 token 的 LSF。默認流程中不對符號表、語法或規則進行人工編輯；人類只給出高層目標，即“正確且 token-efficient”。這一步主要是為了得到一個多樣化的初始語言池。較高採樣溫度會產生從 strict LSF 到 soft LSF 的一系列候選：前者更接近機器式壓縮協議，後者仍保留較多自然語言結構。4.2 通過選擇壓力演化 LSF隨後，CLSR 使用一個迭代 bootstrapping 過程逐代改進 LSF pool：用當前 LSF 回答新的訓練/驗證問題；記錄答案正確性與 completion token 成本；選擇同時正確且短的 high-leverage traces；將這些 trace、父代 LSF 和失敗信息反饋給 LLM；生成下一代 LSF，並重複評估、選擇、變異。這裡的“agent”並不是訓練出的獨立神經模塊，它們其實是由 backbone、隨機種子、樣例子集和生成上下文定義的 black-box LLM proposal/critique/mutation worker。增加 agent 數量，本質上是在擴展符號協議搜索空間。這一過程類似一個小型的機器語言體系演化過程：正確性是 communicative success，token 長度是 production cost，能反覆被採用的符號與格式會被保留，不能穩定支持答案的壓縮方式會被淘汰。這也解釋了為什麼 CLSR 不等同於 prompt engineering。Prompt engineering 優化的是“如何提問模型”；CLSR 優化的是“模型之間應該用什麼協議傳遞推理狀態”。4.3 測試時路由：讓不同問題使用不同方言演化得到 LSF pool 後，CLSR 在測試時不固定使用某一個 LSF，而是由 LLM-router 根據問題和 LSF profile 實時生成協議計劃。主要有三類推理模式：因此，CLSR 的目標並不是把所有回答壓到最短，而是在預算約束下動態決定何時壓縮、何時冗餘、何時驗證。對於簡單題，單個低成本 LSF 就足夠；對於 hard reasoning，router 可以主動花更多 token 去做分解、交叉檢查和多輪組合。這正是 CLSR 與普通短推理提示的核心區別：它優化的是路由策略與協議池，而不是固定長度風格。5. 實驗設置論文在七類 benchmark 上評估 CLSR：MMLU-Pro、GPQA-main、GSM8K、MATH500、AIME21–24、ScienceQA、HotpotQA。這些任務覆蓋知識密集型 QA、專家級科學問答、算術推理、競賽數學、多選科學問答和多跳問答。backbone 包括 LLaMA3-8B、DeepSeek-R1-Distill-Qwen3-8B、Qwen3-8B、Qwen3-32B 等開源模型。對比方法包括 Raw CoT、CoD、CCoT、SoT，以及 PoT、PAL、Plan-to-Solve、PromptBreeder 等程序化或 prompt 優化基線。評價指標主要是兩個：Accuracy：最終答案准確率；Completion tokens：測試時生成端 token，包括 CLSR 的 LSF 響應、router plan、中間響應和聚合等生成部分。論文附錄也探討了在online測試中的input token和output tokens的比例對真實latency和推理成本的影響。CLSR 的核心 claim 的準確表述是：CLSR 在多模型、多任務上更穩定地把系統推向更好的 accuracy–token frontier：在接近 Raw CoT 準確率的同時，顯著減少生成端 token；在相近 token 預算下，通常比簡單短推理提示保留更多有效狀態。6. 主結果：CLSR 改善的是 accuracy–token frontier下表摘取論文主表中的若干代表性結果。每個單元格為 Acc / Tkn，Tkn 表示平均生成 completion tokens。實驗結果表明：CLSR 的收益並不只來自小模型，也不只來自簡單任務。即使在強推理模型或長推理任務上，自然語言 CoT 中仍然存在大量對機器繼續推理並非必要的表述。更關鍵的是，與短推理 baseline 相比，CLSR 並非只是“更短”。以 Qwen3-8B 為例：這組對比很能說明 CLSR 的本質：它並不是在自然語言 CoT 上做“文風壓縮”，更主要是在尋找一種更合適的狀態編碼。短推理提示可能刪掉了關鍵中間狀態；LSF 則試圖用更緊湊的符號保留這些狀態。7. 機制分析一：CLSR 的收益來自“換碼”，而非機械縮寫論文中的 accuracy–token 曲線顯示，CLSR 在 MMLU-Pro、GPQA、GSM8K、MATH500 等任務上整體更接近 Pareto frontier。實驗表明：當 token 預算增加時，CLSR 的額外 token 往往更能轉化為準確率收益。這與理論中的解釋一致：一個好的協議使得每個 token 更可能攜帶變量、約束、候選排除、證據綁定或驗證狀態，而不是攜帶重複敘述。在不同任務上，成功 LSF 的結構也不同：知識密集型 QA：壓縮重點是證據篩選、選項排除與短驗證；數學推理：壓縮重點是變量綁定、等式變形、子目標與 check；多跳問答：壓縮重點是 evidence bridge、support status、null guard；格式敏感任務：壓縮重點是 output contract 與 parseability。這說明 LSF 是一組 task-conditioned、model-conditioned 的推理協議。8. 機制分析二：難題更需要把 token 用在驗證環節CLSR 的一個重要 ablation 是多輪數 $T$。以 Qwen3-8B 為例：若把 CLSR 理解成“讓模型儘可能短”，那麼 $T=1$ 應該總是最優；但實驗恰好說明不是。對於 GSM8K、MATH500、GPQA，$T=3$ 使用更多 token，卻顯著提高準確率，同時仍然少於 Raw CoT。因此，針對難題推理任務，CLSR 的原則不是“少說”，而是：把 token 從自然語言敘述轉移到結構化驗證、分解和糾錯上。這也是高強度推理任務中最有價值的啟示。很多失敗的壓縮方法把 verification 也刪掉了；CLSR 則通過 router 決定什麼時候需要更嚴格的 LSF、什麼時候需要多個 LSF 聚合、什麼時候需要多輪組合。9. 機制分析三：CLSR 與程序化推理的關係程序化推理方法如 PoT 和 PAL 把推理轉成代碼，再用外部解釋器執行。CLSR 沒有依賴外部 executor，但它通過多輪 LSF 協議，在一定條件下可以近似一種“模型內部的程序化狀態更新”。論文也從理論上討論了這種關係：在 interpreter-realizability 前提下，多輪 LSF protocol 可以條件性地 subsume program-execution pipeline。Qwen3-8B 上的比較如下：這裡需要謹慎解讀：PoT/PAL 的 token 統計只計算生成程序所用的 LLM decoding tokens，不等同於整個系統的所有執行成本；而 CLSR 的優勢也不意味著外部 executor 不再重要。嚴格數值計算、長程序執行、形式驗證等任務，外部解釋器仍有獨特價值。CLSR 的更準確定位是：當任務所需的符號操作仍在模型內部可實現範圍內時，LSF 可以提供一種 black-box、離散、可存檔、可路由的中間協議；它不替代所有程序執行，而是擴展了“自然語言 CoT”和“外部程序執行”之間的表示空間。10. 定性樣例：LSF trace 更像工作區定性樣例展示了 CLSR 改變的內容。標準 CoT 往往像一段面向讀者的解釋文；CLSR trace 更像一個壓縮工作區，保留變量、操作、候選、檢查與最終答案。這類 trace 並非完全不可讀。很多有效 LSF 仍然借用了人類數學符號、短標籤、箭頭、括號、變量名和驗證標記。原因顯然：LLM 預訓練於人類文本與代碼/數學語料，完全任意的亂碼未必穩定；真正有效的機器方言往往是在“人類可讀符號”和“機器壓縮協議”之間形成新的折中。這也構成一個值得注意的可解釋性問題。LSF 比普通 CoT 更短、更結構化，但不一定更容易被非專業讀者理解。因此，在實際系統中更合理的設計可能是雙層 trace：內部用 LSF 高效推理，外部在需要時生成自然語言解釋，並保留 LSF card、route plan、raw trace、parsed answer 和 verifier log 以便審計。11. Takeaway messagesCoT 的長，不全是推理本身CoT 的長有兩部分來源：一部分是解決問題確實需要的中間狀態，另一部分是自然語言解釋的表達成本。CLSR 的實驗表明，在許多任務中，後者佔比並不小。把這部分冗餘換成符號化狀態，可以在不顯著損害準確率的前提下減少生成端 token。Token-efficient reasoning 是表示學習問題，不是文本風格的控制問題“請簡潔作答”只能改變表面文本風格；LSF 演化改變的是中間表示。真正有效的壓縮必須回答：哪些變量必須保留？哪些候選必須排除？哪些證據需要綁定？哪些檢查標籤不可刪除？這些不是單純長度約束能解決的問題。沒有一種機器方言對所有問題最優簡單題適合 strict、low-cost LSF；難題需要多輪組合和驗證；科學 QA 與數學推導需要不同的狀態結構；強模型和弱模型對同一種符號協議的適應性也不同。因此，CLSR 的關鍵不只是 LSF，還包括 LSF pool 與 query-adaptive routing。小模型的能力不僅取決於參數，也取決於推理協議小模型常常被迫生成大量自然語言敘述，導致寶貴 token 預算花在低密度表達上。若把預算更多用於結構化狀態、驗證和組合，小模型在特定任務上的 accuracy–token frontier 可以明顯改善。這並不是說這些 LSF 協議能替代模型能力，而是說明系統設計能顯著改變能力的可用形態。機器語言的價值在於可複用、可評估、可路由一個短 trace 只對一個樣例有效，它只是壓縮答案；一個 LSF 能跨樣例複用、能被 profile 評估、能被 router 選擇、能與其他 LSF 組合，它才成為一個操作意義上的機器語言。緊湊的推理 trace 不是萬能的更緊湊的協議也會帶來風險：過度壓縮可能刪除關鍵驗證；符號 trace 可能降低人工可讀性；不同模型之間的協議遷移可能出現負遷移；

原始來源：雷峰網 ↗

查看原始來源

36氪生成式AI

GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?

這篇消息聚焦「GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?」。原始導語提到：美國AI，「閉關鎖國」？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜

這篇消息聚焦「Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜」。原始導語提到：白天，Claude是高薪打工人的生產力引擎；深夜，它成了唯一知道你還醒著的那個。一份報告，意外照出了幾百萬人藏起來的24小時。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑

這篇消息聚焦「獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑」。原始導語提到：“每一代模型，我們都在押注一個非共識。” 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家生成式AI

北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發

這篇消息聚焦「北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到：北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式，運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

智東西生成式AI

讓AI自己修服務器？先過了這場“火線測試”再說

智東西作者 | 陳駿達編輯 | 漠影隨著大模型能力持續提升，智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域，面對龐大的GPU集群和複雜架構，越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作，以提升運維效率並降低人力成本。然而，運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧，問題現象往往模糊、不完整甚至相互矛盾，智能體需要在開放環境中主動探索、反覆驗證，自行界定問題並尋求解決路徑。要提升智能體在此類複雜場景的綜合能力，一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力，導致運維智能體研發長期“無標可依”，進展評估與方向校準均缺乏牽引。正是在這樣的背景下，中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準，國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。這套基準源自百億條真實運維數據，不再只關注“會不會回答問題”，而是聚焦智能體“能不能解決問題”，為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。一、百億條運維數據，煉出103道“考題” 任何評測體系的價值，最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性，許多問題並不存在標準答案，甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境，即使得到再高的測試分數，也很難證明智能體具備實際應用價值。無問芯穹之所以能夠重點參與這一評測基準的技術建設，與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息，其早在2025年便已將運維智能體應用到實際訓練推理業務中，並取得明顯成效。工單平均處理

1 小時前閱讀分析

智東西生成式AI

OceanBase發佈AI數據庫三件套，TOC最高降50%，螞蟻、靈光都在用

智東西作者 | 王涵編輯 | 雲鵬智東西6月29日報道，今天，OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase，該產品面向Agent應用，原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構，可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性，讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。基於此，OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio，以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節，幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口，讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成，把過去依賴專業數據團隊完成的分析流程，轉化為可交互、可追問、可複用的智能決策能力。智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝，進行了面對面的交流。楊冰認為，AI正在改變數據的管理方式，數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰：VibeCoding帶來了海量Agent應用；Agent開始執行生產任務；Agent長期運行的正確性和自我進化。數據形態改變，則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。兩者作用疊加，OceanBase給出判斷：在AI時代，數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露，OceanBase已將內核團隊分為“一體化數據庫”和“A

2 小時前閱讀分析

相關文章

GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?

Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜

獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑

北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發

讓AI自己修服務器？先過了這場“火線測試”再說

OceanBase發佈AI數據庫三件套，TOC最高降50%，螞蟻、靈光都在用