GAIR Paper 103｜上海交大聯合騰訊提出 Token 級別幻覺優化，實現大模型幻覺精準消除

2026年6月23日 02:13

重點摘要

站內 AI 整理稿

讓大模型只改錯的地方，不誤傷對的內容。作者丨李寧上海交通大學大語言模型（LLM）在醫療、金融、法律等高風險場景中的部署，始終面臨一個核心挑戰——幻覺（Hallucination）。模型生成的內容可能包含與事實不符的實體、數字或邏輯關係，而這些錯誤往往隱藏在大量正確內容之中，極難檢測和消除。如何讓大模型在減少幻覺的同時，不喪失回答的信息量和實用性？來自上海交通大學與騰訊的研究團隊提出了一種全新的強化學習框架——BALTO（Balanced Token-Level Policy Optimization），通過平衡的token級信用分配機制，精準消除幻覺，同時保持回答的豐富性。01問題的本質：幻覺是"局部"的，但懲罰卻是"全局"的研究團隊首先在金融問答數據集FinLLM-Eval上進行了先導實驗，揭示了一個關鍵現象：- 幻覺在token層面是極其稀疏的：每條回答中，幻覺token平均僅佔2.77%，中位數僅1.87%。- 但幻覺在回答層面卻非常普遍：94.7%的採樣組中至少包含一條含有幻覺的回答。這意味著，大多數回答只有極少數token出了問題，但傳統的響應級強化學習方法（如GRPO）會給整條回答打一個統一的分數。當少量幻覺token導致低分時，回答中大量正確的內容也會被錯誤地懲罰。這不僅降低了幻覺消除的效果，還會誘導模型生成更短、更保守的回答，犧牲信息量來"避險"——這正是所謂的獎勵黑客（Reward Hacking）問題。論文arxiv鏈接：https://arxiv.org/abs/2606.1589302BALTO的核心思想：精準定位，平衡糾偏BALTO的設計理念可以用一句話概括：只懲罰真正出錯的token，同時給正確的事實token以正向激勵，保持整體信號的平衡。整個框架分為兩個階段：▎階段一：細粒度幻覺token檢測1. 提取可驗證的事實聲明：從模型生成的回答中提取最小粒度的、可獨立驗證的事實聲明（如實體、數值、日期、屬性和關係等）。2. 逐一驗證：將每條聲明與參考文檔進行比對，判定其為"忠實"或"幻覺"。3. 精準定位錯誤token：對於幻覺聲明，進一步定位到最小的錯誤token子集。例如，對於聲明"總收入下降了11.4%"，只有"11.4%"這個數字被標記為幻覺token，而非整個句子。▎階段二：平衡的token級信用分配BALTO為每個token分配精準的優勢值（advantage）：- 幻覺token：優勢值為 -1（負向懲罰）- 忠實事實token：優勢值為 N⁻/N⁺（正向補償，其中N⁻和N⁺分別是幻覺token和忠實token的數量）- 中性token（非事實性內容）：優勢值為 0（不參與優化）這一設計有一個優雅的數學性質——響應內零和平衡：每條回答中，所有token的優勢值之和恰好為零。這意味著BALTO引導模型將概率質量從幻覺內容重新分配到忠實內容上，而不是壓制整條回答的生成概率。03理論保證：更穩定，更高效論文從理論上嚴格證明了BALTO的兩大優勢：定理1（方差壓縮）：GRPO的梯度方差與回答總長度T成正比；BALTO的梯度方差僅與幻覺token數量N⁻成正比。由於幻覺token通常只佔回答的極小部分（N⁻ ≪ T），梯度方差可被大幅壓縮，訓練過程顯著更穩定。定理2（全階段優化效率）：設p為模型生成忠實回答的概率。訓練初期（p→0），GRPO的期望梯度趨近於零，陷入"梯度飢餓"；訓練後期（p→1），GRPO對偶發錯誤的懲罰趨向無窮大，引發"懲罰爆炸"。BALTO的token級優勢值始終有界於[-1, 1]，在訓練初期提供最強糾錯信號，在收斂階段梯度自然衰減，全程穩定高效。04實驗結果：全面領先研究團隊在三個具有代表性的基準數據集上進行了系統評估：- ConFiQA：反事實問答數據集，包含相互矛盾的證據- RAGTruth：RAG幻覺語料庫，涵蓋多種數據源和任務格式- FinLLM-Eval：金融領域問答數據集，要求精確的數值和事實回答使用Qwen3-8B和Qwen3-4B兩種規模的模型，與SFT、DPO、GRPO（二值獎勵/密集獎勵）、FSPO等多種基線方法進行對比。▎核心結果特別值得注意的是，一些基線方法（如FSPO）雖然在部分數據集上獲得了更高的信息量分數，但往往以犧牲忠實度為代價。BALTO是唯一在忠實度和信息量之間實現一致最優權衡的方法。▎訓練動態分析實驗進一步驗證了理論預測：- 梯度更穩定：BALTO的策略梯度範數比響應級方法小一個數量級（均值0.020 vs. 0.145–0.214），分佈更加集中。- 參數更新更高效：BALTO僅更新約12%的模型參數即可達到0.98的忠實度，而GRPO需要更新約17%的參數才能達到0.93。這說明BALTO能夠精準地定位和修正產生幻覺的參數子集，最大程度保留模型的通用能力。- 收斂更快：在三個數據集上，BALTO在訓練早期階段就取得了最快的忠實度提升，並用更少的訓練步數達到更高的最終性能。▎消融實驗消融實驗驗證了平衡信用分配的關鍵作用：完全移除正向優勢（PA=0）：忠實度和信息量均大幅下降使用固定正向優勢（PA=0.3或PA=1）：性能不穩定，在不同數據集上表現參差不齊- BALTO的自適應平衡機制：在所有數據集上均實現最優表現05方法總結BALTO的設計體現了一個簡潔而深刻的洞察：消除幻覺不是壓制回答，而是精準地重新分配概率質量。通過將事實檢驗的粒度從回答級下沉到token級，並引入平衡的信用分配機制，BALTO讓強化學習的優化信號真正作用於"該改的地方"，避免了對正確內容的誤傷。這一框架對於將大語言模型部署在對事實準確性要求極高的場景（如金融分析、醫療問診、法律諮詢等）具有重要的實踐價值。上車，帶你看遍全球 AI 頂會精華可獨家暢覽：專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼或點擊「閱讀原文」關注專區。雷峰網

原始來源：雷峰網 ↗

查看原始來源