英偉達刷新 DeepSeek V4 推理紀錄：單 Token 成本降至 1/5，AI 吞吐量最高提升 20 倍

2026年7月1日 13:41

重點摘要

英偉達昨日（6 月 30 日）發佈博文，宣佈在英偉達 Blackwell 平臺上，通過優化推理軟件棧，相比較 DeepSeek V4 模型 1 個月前上線初期，單 Token 成本最多降至五分之一。

站內 AI 整理稿

### 英偉達 Blackwell 平台再進化：DeepSeek V4 推理成本驟降，AI 效能迎來巨大飛躍

AI 晶片巨頭英偉達（NVIDIA）近期宣布，透過在 Blackwell 平台上對推理軟體棧進行深度優化，成功讓 DeepSeek V4 模型的單一 Token 成本大幅縮減。相較於該模型一個月前剛上線時的初期表現，成本最多可降至原先的五分之一，同時 AI 吞吐量也獲得顯著提升。這項進展不僅展現了硬體與軟體協同優化的驚人潛力，也為大規模 AI 部署的經濟效益帶來全新想像。

從硬體層面來看，Blackwell 是英偉達新一代 GPU 架構的代號，專門針對大規模語言模型與生成式 AI 工作負載所設計。DeepSeek V4 則是中國 AI 團隊推出的參數規模龐大的開源模型，其推理時對計算資源的需求極高，過去常被認為是成本高昂的應用場景。英偉達此次的優化，正是透過調整推理框架、記憶體管理與運算排程，讓 Blackwell 的運算單元能夠更有效率地處理 DeepSeek V4 的推論請求，從而壓低每一筆回覆的單位成本。

值得注意的是，這項優化並非單純依靠硬體迭代，而是軟硬體整合的成果。英偉達的推理軟體棧（如 TensorRT-LLM 等工具）在過程中扮演關鍵角色，透過動態批次處理、精確度縮減（如 FP8 或 INT4）以及快取機制，讓原本需要大量高精度運算的推論流程變得更輕盈。這種做法類似於將大型引擎調校為更省油的模式，不犧牲太多輸出品質，卻能讓每次查詢的耗電與運算時間大幅下降。

這項消息對 AI 產業的影響相當深遠。首先，對於開發者與企業用戶而言，更低廉的 Token 成本意味著可以將更多預算投入模型微調或大規模部署，而不必擔心推理費用過高。特別是在即時對話機器人、程式碼生成或內容分析等需要頻繁查詢的場景中，成本降低五分之一甚至更多，可能直接改變服務的獲利結構。其次，吞吐量的提升（據報導最高可達 20 倍）也代表同一時間能服務的使用者數量暴增，這對需要承載大量並發請求的雲端服務商來說極具吸引力。

不過，這項優化目前僅限於英偉達的 Blackwell 平台，尚未普及到其他硬體或舊款 GPU。因此，對於使用 AMD 或自研晶片的廠商而言，短期內可能無法享受到同等程度的成本優勢，這也可能進一步拉大英偉達在 AI 推理市場的領先差距。此外，DeepSeek V4 作為開源模型，其參數量與架構設計較為靈活，英偉達的優化方案是否能直接套用到其他主流模型（如 Llama 或 Qwen）仍有待觀察。

後續值得關注的面向包括：英偉達是否會將這套推理優化方案開源或納入其商業軟體授權，讓更多開發者不用自行調整即可獲得低成本推論能力；以及競爭對手如 AMD 或 Intel 是否會推出類似的平台級優化來追趕。此外，DeepSeek 團隊本身也可能參考英偉達的實作，在後續模型版本中進一步預設支援低精度推理，從根本上降低部署門檻。對於一般讀者或科技愛好者來說，這則新聞象徵著 AI 服務的價格有望持續走低，未來使用 AI 助理或生成式工具的體驗將變得更順暢、更普及。

原始來源：IT之家 ↗

查看原始來源

量子位模型更新

A社你解釋下，啥叫Sonnet 5比Fable 5還貴？

這篇消息聚焦「A社你解釋下，啥叫Sonnet 5比Fable 5還貴？」。原始導語提到：“性價比模型”價格明降暗漲從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

智東西模型更新

剛剛，Fable 5解禁！Anthropic連夜發“性價比”新模型，網友：感謝中國開源嚴父

這篇消息聚焦「剛剛，Fable 5解禁！Anthropic連夜發“性價比”新模型，網友：感謝中國開源嚴父」。原始導語提到：Claude Sonnet 5深夜來襲！但全網只等Fable 5？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪模型更新

剛剛，Anthropic發佈Sonnet 5，性能接近Opus 4.8，但不一定更便宜

Anthropic 今日發布 Sonnet 5，官方稱其為「迄今為止最具 Agent 屬性的 Sonnet 模型」。該模型性能接近 Opus 4.8，但價格不一定更低。

剛剛閱讀分析

36氪模型更新

大規模封號後，Claude 突然發佈更便宜的新模型

Anthropic 在大規模封號後，突然推出更便宜的 Claude 新模型，旨在擴大用戶基礎。新模型以較低成本提供服務，可能吸引更多開發者與企業採用。此舉顯示 Anthropic 正積極調整策略，以應對市場競爭與用戶反饋。

剛剛閱讀分析

36氪模型更新

復旦邱錫鵬團隊提出「上下文世界建模」：無需微調，VLA即可適應新環境

復旦大學邱錫鵬團隊提出「上下文世界建模」方法，讓視覺-語言-動作（VLA）模型無需微調即可適應新環境。該研究直接針對VLA模型難以泛化的核心問題，提供無需額外訓練的適應方案。

15 分鐘前閱讀分析

雷峰網模型更新

Multi-Agent 實測：不會帶團隊，模型幹到死

雷峰網訊 Multi-Agent，就是來讓用戶當皇上的。想必很多人早已習慣睡前把成堆的事情丟給 Agent，讓它跑上一整夜，直到早上自己醒來，看到一份漂亮的交付結果。當然也有很多時候，我們得到的只是一個卡死在凌晨三點的進程，或者不知道從哪步開始，就被幻覺汙染得胡言亂語的上下文。這一點對於複雜任務尤其明顯。而在此類場景中，Multi-Agent 系統因其任務拆解能力和對上下文窗口壓力的緩解，擁有了超越單獨 Agent 的落地能力。話雖如此，一個任務具體如何拆分、各 Agent 的角色如何分配、誰來糾正幻覺以及長流程管理仍然是橫亙在 Multi-Agent 系統面前的考驗。從 CrewAI、AutoGen 到打出三省六部制旗號的 Edict，都在試圖解決這些問題。而我們好奇的是，Multi-Agent 生態經歷了從 2025 年末至今的飛速成長，今天已經發展到了何種程度？在真實的複雜任務場景中，它會作何表現？01Agent Swarm “獨苗”，Kimi K2.6我們選擇了 Kimi K2.6 作為此次的測試模型。即使今天距離這款模型的初次問世已經有了一段時間，它卻仍然有著一眾模型中極為少見的定位，一款針對 Multi-Agent 場景做了針對性優化的模型。官方將其描述為具備 SOTA Coding、Long-Horizon Execution 和 Agent Swarm capabilities 的開源模型。值得注意的是最後一點，300 sub-agents、4000-step coordination 以及 multi-agent swarm orchestration 直接被 Kimi 寫進了官方論文，至今還是止此一份。更能說明問題的是此前 Kimi 官方披露的兩個長程工程案例。K2.6 曾連續運行十幾個小時，通過數千次工具調用優化本地模型推理和金融撮合引擎性能。這些案例

4 小時前閱讀分析

相關文章

A社你解釋下，啥叫Sonnet 5比Fable 5還貴？

剛剛，Fable 5解禁！Anthropic連夜發“性價比”新模型，網友：感謝中國開源嚴父

剛剛，Anthropic發佈Sonnet 5，性能接近Opus 4.8，但不一定更便宜

大規模封號後，Claude 突然發佈更便宜的新模型

復旦邱錫鵬團隊提出「上下文世界建模」：無需微調，VLA即可適應新環境

Multi-Agent 實測：不會帶團隊，模型幹到死