NVIDIA 推出 Nemotron 3 Nano Omni:為文件、音訊與影片代理提供長上下文多模態智慧
重點摘要
NVIDIA 發表 Nemotron 3 Nano Omni 全模態理解模型,整合文字、圖像、影片與音訊處理,專為文件分析、語音辨識及長影音理解等代理任務設計。該模型採用混合 Mamba-Transformer 專家混合架構,在多項基準測試中取得領先,並支援超過 100 頁文件或數小時影音的長上下文,同時實現高達 9 倍的系統吞吐量提升。
### NVIDIA 推出 Nemotron 3 Nano Omni:為文件、音訊與影片代理打造長上下文多模態智慧
NVIDIA 近日於 Hugging Face 部落格正式發表 Nemotron 3 Nano Omni,這是一款專為真實世界文件分析、多圖推理、語音辨識、長影音理解、代理式電腦操作及通用推理所設計的全模態理解模型。該模型從先前專注於視覺語言的 Nemotron 系列,擴展為整合文字、圖片、影片與音訊的完整多模態系統,並在多項權威基準測試中取得領先成績。這項發表標誌著 NVIDIA 在邊緣運算與企業級 AI 代理領域,進一步強化了長上下文與多模態推理的技術佈局。
### 重點整理:效能與架構亮點
Nemotron 3 Nano Omni 在文件理解、語音辨識與影音推理等面向展現出色表現。根據官方數據,其在 MMlongBench-Doc、OCRBenchV2 等文件智慧排行榜上名列前茅,並在 WorldSense、DailyOmni 等影音理解榜單中領先。特別值得注意的是,其在 VoiceBench 語音理解項目獲得最高準確度,同時被評為 MediaPerf 上最具成本效益的開源影片理解模型。架構方面,該模型結合 Nemotron 3 混合 Mamba-Transformer 專家混合(MoE)主幹,搭配 C-RADIOv4-H 視覺編碼器與 Parakeet-TDT-0.6B-v2 音訊編碼器,並透過分階段多模態對齊、偏好最佳化與多模態強化學習進行訓練,實現高達 9 倍的系統吞吐量提升與 2.9 倍的單串流推理速度。
### 背景脈絡:從視覺語言到全方位感知的進化
NVIDIA 的 Nemotron 系列最初以視覺語言模型為核心,專注於圖像理解與文字生成。隨著企業應用場景日趨複雜,單純的圖文互動已不足應付如合約審閱、會議記錄、教學影片分析等多模態任務。Nemotron 3 Nano Omni 的推出,正是為了填補這項空白——它不僅強化了視覺細節的保留能力,更首次原生整合音訊理解,並支援極長的多模態上下文,可處理超過 100 頁的文件或長達數小時的影音內容。這項進展反映出業界對於「代理式 AI」的期待:模型必須能同時感知文字、圖像、聲音與時間序列,才能勝任真實世界的複雜任務。
### 潛在影響:企業應用與開發者生態的轉變
對企業而言,Nemotron 3 Nano Omni 的出現可能重新定義文件自動化與客服系統的標準。例如,合規審查場景中,模型可同時解析掃描合約的排版、表格與簽名位置,並結合語音註解進行跨頁面推理;在客服中心,則能同步處理客戶的語音問題與螢幕截圖,提供更精準的即時回應。此外,該模型在代理式電腦操作(如 GUI 自動
Related
相關文章
Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages
This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather
Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight
Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途
這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

華為昇騰 0 Day 支持智譜 GLM-5.2 模型,提供全面推理優化
華為昇騰 AI 宣佈在智譜開源 GLM-5.2 大模型當天即完成深度推理優化。通過 MOE 大融合算子、通信計算融合、高併發調度等七項關鍵技術,顯著提升編程和長程任務的處理效率,現已支持 A3 系列產品部署。#AI 大模型# #國產算力#
企業AI轉型再添利器:青雲科技算力雲接入 MiniMax-M3 模型
企業AI落地面臨高效低成本難題。青雲科技旗下基石智算平臺接入國產開源大模型MiniMax-M3,提供新算力支持。MiniMax-M3以卓越上下文處理能力等三大核心技術見長,依託自研架構,助企業便捷部署AI業務。
阿里開源統一科學大模型 LOGOS,僅用五十六分之一參數超越微軟
阿里 ATH-Token Foundry 聯閤中國人民大學高瓴人工智能學院開源科學基礎模型 LOGOS。該模型採用統一科學語法與純序列建模範式,在六大科學任務上匹配或超越傳統專用方法。其中 LOGOS-1B 僅 1B 參數,即展現出極高效率,性能超越參數量達 8×7B 的微軟模型。