單用戶提速 60-85% ！DeepSeek 聯手北大開源 DSpark ，突破推理加速工程問題

2026年6月29日 07:12

重點摘要

站內 AI 整理稿

把算力花在刀刃上，梁文鋒再次大幅降低推理優化門檻。作者丨樊天驕編輯丨馬曉寧 2026年6月27日，AI圈迎來了一則重磅消息，DeepSeek聯合北京大學正式發佈了DSpark推理加速框架，並同步開源了支撐該版本的全棧推測性解碼框架DeepSpec。這是DeepSeek在完成500億元融資後首次放出的開源新成果。在DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark兩款模型上，DSpark將單用戶生成速度提升了60%至85%。梁文鋒本人署名、聯合北京大學完成的論文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》同步上傳。雷峰網論文、代碼庫、模型已經全部開源：論文：https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf開源代碼庫：https://github.com/deepseek-ai/DeepSpec模型下載：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark01DSpark 如何讓草稿模型又快又準先澄清一個容易誤解的點：DeepSeek-V4-Pro-DSpark 不是全新架構的模型，而是在 DeepSeek-V4-Pro 基礎上引入了推測性解碼模塊。這次更新的重點在於工程落地，不是模型能力本身的迭代。說人話就是：模型還是那個模型，但讓它跑起來的方法變聰明了，所以你用起來會感覺明顯變快。要理解 DSpark 的價值，得先搞清楚它在解決什麼問題。▎推測解碼是什麼？大語言模型生成文本時採用自迴歸方式：每生成一個新 token 都需要一次完整的前向傳播，推理延遲隨輸出長度線性增長。這是目前 AI 對話系統響應偏慢的核心原因之一。推測解碼（Speculative Decoding）提供了一條解決路徑：第一步，先用一個輕量級的小模型，快速生成若干候選token（草稿模型）第二步，再由完整規模的大模型，通過單次並行前向傳播進行批量驗證這些token第三步，接受其中符合目標分佈的連續前綴由於驗證階段可並行計算，且拒絕採樣機制嚴格保證了輸出分佈與原始模型一致，推測解碼能夠在無損生成質量的前提下提升速度。這個思路不是 DSpark 發明的，這兩年一直有人在做。但是這次，Deepseek 精準解決了這個技術路線在實際落地中遇到的兩個關鍵瓶頸。雷峰網▎DSpark 的破局思路早期的草稿模型是自迴歸的，也就是跟大模型一樣一個字一個字猜。這樣猜出來的質量確實高，但小模型自己猜也要時間，猜得多了草稿本身就變慢了，得不償失。舉個例子：你讓 AI 寫一段 500 字的回覆，它需要連續做 500 次完整計算，每次只能輸出一個字。就算每次計算只要 10 毫秒，總共也要 5 秒。用戶感知到的就是"轉圈等待"。後來有人想到了並行草稿，一次前向傳播直接猜好幾個字，草稿速度一下就上來了。但新的問題來了：因為每個位置是獨立猜的，沒有考慮字跟字之間的依賴關係。"of course" 和 "no problem" 都是合理的回覆開頭，但並行草稿可能會猜出 "of problem" 這種四不像組合。越往後猜，這種錯誤累積越嚴重，接受率斷崖式下跌。大家把這個現象叫"後綴衰減"。過去通行做法是：草稿模型生成多少個 token，就原封不動地提交多少個 token 給大模型驗證，這是一種“全量驗證”模式。但因為越往後的字越不靠譜，驗證這些低置信度的字是要佔用算力的。把低置信度的 token 送去驗證，看似只是“浪費了一點算力”，但在真實的、高併發的生產系統中，這種浪費是災難性的系統性損耗。為了解決這兩大問題，DSpark 作了兩套核心設計：半自迴歸生成架構和置信度調度驗證。半自迴歸生成架構非常具有創新性，其主要針對的是並行草稿的後綴衰減問題。這種並行主幹 + 輕量串行頭的兩階段設計，可以在在幾乎不犧牲生成速度的前提下補齊塊內的 Token 依賴，直接拉高每輪驗證的有效接受長度。並行主幹可單次前向輸出全塊基礎 Logits 與隱藏態，草稿生成的核心延遲與純並行方案持平，完整保留了並行架構塊長大、生成快的速度優勢。輕量串行模塊則是補齊短板的關鍵。DSpark 在並行輸出的基礎上，疊加了一個極簡的串行單元（默認採用 Markov head），為每個位置的 Token 補充前綴依賴的轉移偏置，修正並行獨立生成導致的多模態語義衝突，大幅緩解了尾部 Token 接受率下滑的問題。從速率角度看，這套設計收益極高：串行模塊開銷極小，卻讓 Qwen3 系列模型的平均接受長度相對 DFlash 提升 16.3 % - 18.4 %，相對自迴歸的 Eagle3 提升 26.7 % - 30.9%。2 層深度的 DSpark，有效接受長度甚至超過 5 層深度的純並行 DFlash。這說明局部自迴歸的速度 - 參數效率，遠高於單純堆疊並行層。這種優勢還會隨著塊長放大：當草稿塊長從 7 增加到 15 時，DSpark 相對 DFlash 的接受長度優勢從 15% - 18% 擴大至 22% - 30%。換言之，並行架構的長塊速度潛力，此前一直被後綴衰減封印，而半自迴歸設計將其徹底釋放了出來。如果說半自迴歸解決了 “生成得更有效”，那麼置信度調度解決的就是 “驗證得更聰明”。從源頭杜絕無效 Token 佔用寶貴的驗證算力，讓大模型的每一次前向計算都產出最大價值，尤其能穩住高併發場景下的生成速度。▎這套機制分為兩層設計：第一層是置信度預判。 DSpark 在草稿模型上加了一個輕便的打分模塊（置信度頭 Confidence Head ），草稿每生成一個候選 Token，它就實時預測該 Token 的條件接受概率（Conditional Acceptance Probability）。不過 AI 打分天生容易 “自我感覺良好”，估出來的通過率往往偏樂觀。所以 DSpark 還搭配了 “順序溫度縮放（STS）” 校準方法，把對草稿的打分的誤差從原來的 3%-8% 下降到約 1% ，讓概率預估變得足夠精準，給後續的調度調整提供了可靠的判斷依據。第二層，是硬件感知動態調度。基於預測試的引擎吞吐曲線，將驗證長度選擇轉化為全局吞吐量最大化問題，用貪心算法為每個請求動態分配驗證預算：低負載時自動拉長驗證塊，把空閒算力用滿，拉滿單用戶生成速度；高負載時主動裁剪低價值 Token，避免資源爭搶，穩住系統整體吞吐量與用戶體感速度。02驗證！推理速度全場景飆升加速技術的真實分量要靠實測來印證。首先是離線基準評測。團隊選取數學推理、代碼生成、日常對話三大領域共 9 個通用數據集，在 Qwen3-4B/8B/14B、Gemma4-12B 四款目標模型上進行橫向對比。結果顯示，DSpark 的平均接受長度全面超越當前業界 SOTA 方案，對應的單 Token 理論延遲顯著低於 Eagle3 與 DFlash。測試數據同時呈現出清晰的領域差異：數學、代碼這類結構化較強的任務，接受長度明顯更高，開放對話場景的接受長度則相對更低。這一差異印證了固定驗證長度的先天侷限 —— 不同類型的請求，最優驗證塊長本就不同，而動態調度的策略能讓每一類請求都拿到最優的加速收益。線上真實流量的表現最能體現用戶的實際體感。目前 DSpark 已全量部署於 DeepSeek-V4 線上服務，對比前代 MTP-1 單 Token 生產基線，在速度、服務容量和穩定性上都有實質提升：同吞吐下絕對提速：在系統總吞吐量持平的配置下，V4-Flash 單用戶生成速度提升 60% - 85%，V4-Pro 提升 57% - 78%，用戶可直接感知到輸出跟手度提升、長文本生成等待時間大幅縮短。高 SLA 下容量擴容：在嚴格的交互性要求下（如 Flash 要求 120 token/s、Pro 要求 50 token/s），傳統單 Token 基線已接近性能極限，僅能支撐極低併發；而 DSpark 仍能維持可觀的服務容量，解鎖了此前無法實現的高速響應檔位，向外推移了推理服務的性能帕累託邊界。全負載下速度穩定：動態調度器會隨併發壓力自動調整驗證預算：低併發時用滿算力、拉滿速度；高併發時平滑收縮、避免跳水。全程不會出現傳統靜態方案的速度驟降，用戶體驗一致性顯著提升。總而言之，DSpark 跳出了過往推測解碼非此即彼的技術侷限，依靠半自迴歸架構補齊並行草稿尾部準確率短板，再通過置信度動態調度解決傳統全量驗證的算力浪費問題，完成了草稿生成與在線驗證的全鏈同優化。雷峰網值得一提的是，團隊還配套開源的 DeepSpec 全棧訓練工具鏈，將這套無損推理加速方案對外開放。過去，中小開發者和輕量化應用很難低成本實現高速大模型推理，而DSpark以高性價比大幅降低了推理優化的門檻，讓“每個小app都能用上大模型”不再是一句口號，而是正在落地的行業現實。上車，帶你看遍全球 AI 頂會精華可獨家暢覽：專家演講PPT大會報告全文熱門論文解讀學術新星訪談掃描上方二維碼或點擊「閱讀原文」關注專區。

原始來源：雷峰網 ↗

查看原始來源

36氪生成式AI

GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?

這篇消息聚焦「GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?」。原始導語提到：美國AI，「閉關鎖國」？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜

這篇消息聚焦「Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜」。原始導語提到：白天，Claude是高薪打工人的生產力引擎；深夜，它成了唯一知道你還醒著的那個。一份報告，意外照出了幾百萬人藏起來的24小時。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑

這篇消息聚焦「獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑」。原始導語提到：“每一代模型，我們都在押注一個非共識。” 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家生成式AI

北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發

這篇消息聚焦「北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到：北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式，運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

智東西生成式AI

讓AI自己修服務器？先過了這場“火線測試”再說

智東西作者 | 陳駿達編輯 | 漠影隨著大模型能力持續提升，智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域，面對龐大的GPU集群和複雜架構，越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作，以提升運維效率並降低人力成本。然而，運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧，問題現象往往模糊、不完整甚至相互矛盾，智能體需要在開放環境中主動探索、反覆驗證，自行界定問題並尋求解決路徑。要提升智能體在此類複雜場景的綜合能力，一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力，導致運維智能體研發長期“無標可依”，進展評估與方向校準均缺乏牽引。正是在這樣的背景下，中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準，國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。這套基準源自百億條真實運維數據，不再只關注“會不會回答問題”，而是聚焦智能體“能不能解決問題”，為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。一、百億條運維數據，煉出103道“考題” 任何評測體系的價值，最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性，許多問題並不存在標準答案，甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境，即使得到再高的測試分數，也很難證明智能體具備實際應用價值。無問芯穹之所以能夠重點參與這一評測基準的技術建設，與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息，其早在2025年便已將運維智能體應用到實際訓練推理業務中，並取得明顯成效。工單平均處理

1 小時前閱讀分析

智東西生成式AI

OceanBase發佈AI數據庫三件套，TOC最高降50%，螞蟻、靈光都在用

智東西作者 | 王涵編輯 | 雲鵬智東西6月29日報道，今天，OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase，該產品面向Agent應用，原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構，可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性，讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。基於此，OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio，以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節，幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口，讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成，把過去依賴專業數據團隊完成的分析流程，轉化為可交互、可追問、可複用的智能決策能力。智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝，進行了面對面的交流。楊冰認為，AI正在改變數據的管理方式，數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰：VibeCoding帶來了海量Agent應用；Agent開始執行生產任務；Agent長期運行的正確性和自我進化。數據形態改變，則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。兩者作用疊加，OceanBase給出判斷：在AI時代，數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露，OceanBase已將內核團隊分為“一體化數據庫”和“A

2 小時前閱讀分析

相關文章

GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?

Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜

獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑

北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發

讓AI自己修服務器？先過了這場“火線測試”再說

OceanBase發佈AI數據庫三件套，TOC最高降50%，螞蟻、靈光都在用