IT之家模型更新

英偉達刷新 DeepSeek V4 推理紀錄:單 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍

2026年7月1日 13:41
英偉達刷新 DeepSeek V4 推理紀錄:單 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍

重點摘要

英偉達昨日(6 月 30 日)發佈博文,宣佈在英偉達 Blackwell 平臺上,通過優化推理軟件棧,相比較 DeepSeek V4 模型 1 個月前上線初期,單 Token 成本最多降至五分之一。

站內 AI 整理稿

### 英偉達 Blackwell 平台再進化:DeepSeek V4 推理成本驟降,AI 效能迎來巨大飛躍

AI 晶片巨頭英偉達(NVIDIA)近期宣布,透過在 Blackwell 平台上對推理軟體棧進行深度優化,成功讓 DeepSeek V4 模型的單一 Token 成本大幅縮減。相較於該模型一個月前剛上線時的初期表現,成本最多可降至原先的五分之一,同時 AI 吞吐量也獲得顯著提升。這項進展不僅展現了硬體與軟體協同優化的驚人潛力,也為大規模 AI 部署的經濟效益帶來全新想像。

從硬體層面來看,Blackwell 是英偉達新一代 GPU 架構的代號,專門針對大規模語言模型與生成式 AI 工作負載所設計。DeepSeek V4 則是中國 AI 團隊推出的參數規模龐大的開源模型,其推理時對計算資源的需求極高,過去常被認為是成本高昂的應用場景。英偉達此次的優化,正是透過調整推理框架、記憶體管理與運算排程,讓 Blackwell 的運算單元能夠更有效率地處理 DeepSeek V4 的推論請求,從而壓低每一筆回覆的單位成本。

值得注意的是,這項優化並非單純依靠硬體迭代,而是軟硬體整合的成果。英偉達的推理軟體棧(如 TensorRT-LLM 等工具)在過程中扮演關鍵角色,透過動態批次處理、精確度縮減(如 FP8 或 INT4)以及快取機制,讓原本需要大量高精度運算的推論流程變得更輕盈。這種做法類似於將大型引擎調校為更省油的模式,不犧牲太多輸出品質,卻能讓每次查詢的耗電與運算時間大幅下降。

這項消息對 AI 產業的影響相當深遠。首先,對於開發者與企業用戶而言,更低廉的 Token 成本意味著可以將更多預算投入模型微調或大規模部署,而不必擔心推理費用過高。特別是在即時對話機器人、程式碼生成或內容分析等需要頻繁查詢的場景中,成本降低五分之一甚至更多,可能直接改變服務的獲利結構。其次,吞吐量的提升(據報導最高可達 20 倍)也代表同一時間能服務的使用者數量暴增,這對需要承載大量並發請求的雲端服務商來說極具吸引力。

不過,這項優化目前僅限於英偉達的 Blackwell 平台,尚未普及到其他硬體或舊款 GPU。因此,對於使用 AMD 或自研晶片的廠商而言,短期內可能無法享受到同等程度的成本優勢,這也可能進一步拉大英偉達在 AI 推理市場的領先差距。此外,DeepSeek V4 作為開源模型,其參數量與架構設計較為靈活,英偉達的優化方案是否能直接套用到其他主流模型(如 Llama 或 Qwen)仍有待觀察。

後續值得關注的面向包括:英偉達是否會將這套推理優化方案開源或納入其商業軟體授權,讓更多開發者不用自行調整即可獲得低成本推論能力;以及競爭對手如 AMD 或 Intel 是否會推出類似的平台級優化來追趕。此外,DeepSeek 團隊本身也可能參考英偉達的實作,在後續模型版本中進一步預設支援低精度推理,從根本上降低部署門檻。對於一般讀者或科技愛好者來說,這則新聞象徵著 AI 服務的價格有望持續走低,未來使用 AI 助理或生成式工具的體驗將變得更順暢、更普及。

Related

相關文章

量子位模型更新

A社你解釋下,啥叫Sonnet 5比Fable 5還貴?

這篇消息聚焦「A社你解釋下,啥叫Sonnet 5比Fable 5還貴?」。原始導語提到:“性價比模型”價格明降暗漲 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛

大規模封號後,Claude 突然發佈更便宜的新模型

Anthropic 在大規模封號後,突然推出更便宜的 Claude 新模型,旨在擴大用戶基礎。新模型以較低成本提供服務,可能吸引更多開發者與企業採用。此舉顯示 Anthropic 正積極調整策略,以應對市場競爭與用戶反饋。

剛剛
雷峰網模型更新

Multi-Agent 實測:不會帶團隊,模型幹到死

雷峰網訊 Multi-Agent,就是來讓用戶當皇上的。想必很多人早已習慣睡前把成堆的事情丟給 Agent,讓它跑上一整夜,直到早上自己醒來,看到一份漂亮的交付結果。當然也有很多時候,我們得到的只是一個卡死在凌晨三點的進程,或者不知道從哪步開始,就被幻覺汙染得胡言亂語的上下文。這一點對於複雜任務尤其明顯。而在此類場景中,Multi-Agent 系統因其任務拆解能力和對上下文窗口壓力的緩解,擁有了超越單獨 Agent 的落地能力。話雖如此,一個任務具體如何拆分、各 Agent 的角色如何分配、誰來糾正幻覺以及長流程管理仍然是橫亙在 Multi-Agent 系統面前的考驗。從 CrewAI、AutoGen 到打出三省六部制旗號的 Edict,都在試圖解決這些問題。而我們好奇的是,Multi-Agent 生態經歷了從 2025 年末至今的飛速成長,今天已經發展到了何種程度?在真實的複雜任務場景中,它會作何表現?01Agent Swarm “獨苗”,Kimi K2.6我們選擇了 Kimi K2.6 作為此次的測試模型。即使今天距離這款模型的初次問世已經有了一段時間,它卻仍然有著一眾模型中極為少見的定位,一款針對 Multi-Agent 場景做了針對性優化的模型。官方將其描述為具備 SOTA Coding、Long-Horizon Execution 和 Agent Swarm capabilities 的開源模型。值得注意的是最後一點,300 sub-agents、4000-step coordination 以及 multi-agent swarm orchestration 直接被 Kimi 寫進了官方論文,至今還是止此一份。更能說明問題的是此前 Kimi 官方披露的兩個長程工程案例。K2.6 曾連續運行十幾個小時,通過數千次工具調用優化本地模型推理和金融撮合引擎性能。這些案例

4 小時前