IT之家模型更新

英偉達發佈 5500 億參數 Nemotron 3 Ultra 開源模型,較同級別前沿模型推理速度最高提升 5 倍

2026年6月1日 12:46
英偉達發佈 5500 億參數 Nemotron 3 Ultra 開源模型,較同級別前沿模型推理速度最高提升 5 倍

重點摘要

英偉達發佈全新開源模型 Nemotron 3 Ultra,擁有 5500 億參數,專為全天候運行的智能體設計。相比同級別模型,其推理速度最高提升 5 倍,使用成本降低 30%,已適配主流智能體平臺。該模型將助力企業打造更高效、低成本的 AI 智能體。#NVIDIA# #AI 模型#

站內 AI 整理稿

### 英偉達推出 5500 億參數開源模型 Nemotron 3 Ultra,專為全天候 AI 智能體打造

NVIDIA 近期發布了全新的開源大語言模型 Nemotron 3 Ultra,該模型擁有 5500 億個參數,是專為全天候運行的 AI 智能體所設計。根據官方說法,這款模型在推理速度上較同級別的前沿模型最高提升了 5 倍,同時使用成本也降低了約 30%。目前,Nemotron 3 Ultra 已經完成對主流智能體平台的適配,企業可以透過此模型更有效率地部署與管理 AI 代理。

### 重點整理:效能與成本的雙重突破

Nemotron 3 Ultra 的兩大核心亮點在於「推理速度」與「使用成本」。在推理速度方面,相較於同等參數規模的其他前沿模型,Nemotron 3 Ultra 在處理連續任務時展現出更快的回應能力,這對需要即時互動或大量計算的智能體場景尤為關鍵。而在成本面上,NVIDIA 宣稱透過架構最佳化與開源授權,企業在實際運用時能節省近三分之一的運算資源支出,這對中小型團隊或預算有限的專案來說,無疑是一大誘因。

### 背景脈絡:從硬體霸主到開源模型推手

NVIDIA 過去憑藉 GPU 在 AI 訓練與推論領域佔據主導地位,近年則積極擴展軟體生態。Nemotron 系列是其推出的開源語言模型家族,旨在為開發者提供高效、可自訂的基礎模型。這次的 Nemotron 3 Ultra 特別強調「全天候運行」與「智能體導向」,反映出市場對於能夠自主執行任務、長時間不中斷的 AI 代理需求日益攀升。NVIDIA 選擇開源此模型,也是在與 Meta 的 Llama 系列、微軟 Phi 系列等開源模型競爭中,搶佔智能體這塊新興領域。

### 可能影響:企業 AI 部署門檻降低,智能體應用加速

Nemotron 3 Ultra 的出現,可能為企業 AI 應用帶來三個層面的轉變。首先,推理速度提升與成本降低,將使更多中小型企業有能力導入高參數量的 AI 模型,不必再完全依賴閉源付費服務。其次,針對智能體的專屬設計,有助於推動客服、自動化流程、虛擬助理等場景的進化,原本需要大量人力介入的任務,未來可能由模型自主完成。最後,開源特性也讓學術界與獨立開發者能進行更深度的研究與調校,進一步豐富模型的應用方式。

### 讀者可關注的後續:實測表現、社群回饋與競爭動態

對於關注 AI 動態的讀者,後續有幾個重點值得追蹤。第一,Nemotron 3 Ultra 在真實場景下的推理速度與成本節省是否如官方所述,需要等待第三方機構或開源社群進行獨立基準測試。第二,NVIDIA 是否會同步釋出更小參數的變體版本,讓行動裝置或邊緣運算也能受惠。第三,Meta 的 Llama 4 或其他競爭對手是否會針對智能體需求推出對應更新,形成新一波開源模型軍備競賽。整體而言,Nemotron 3 Ultra 的發布,已為今年 AI 智能體的發展投下一顆震撼彈。

Related

相關文章

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

1 小時前
MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

15 小時前

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前