小米雷軍:MiMo 昨晚發佈 V2.5-Pro-UltraSpeed,這是業內首次在 1 萬億參數模型上突破 1000 tokens/s 輸出速度

重點摘要
小米創辦人、董事長兼 CEO 雷軍今日發文介紹,#MiMo# 昨晚發佈 V2.5-Pro-UltraSpeed,這是業內首次在 1 萬億參數模型上突破 1,000 tokens / 秒的輸出速度!
### 重點整理:小米 MiMo 模型創下速度新紀錄
小米創辦人雷軍近日對外宣布,旗下自研大語言模型「MiMo」昨晚正式推出最新版本「V2.5-Pro-UltraSpeed」。這款模型的最大亮點在於,它是業界首個能在 **1 萬億參數規模**下,實現 **每秒超過 1,000 tokens 輸出速度** 的產品。這項突破不僅顯示小米在 AI 基礎模型上的技術實力,也為大型語言模型的即時應用開創了新的可能性。
### 背景脈絡:大參數模型的速度瓶頸
近年來,大型語言模型的參數規模從數十億快速攀升至千億甚至萬億,但在推理速度上始終面臨挑戰。一般來說,參數越多,模型所需的計算資源與記憶體頻寬越高,導致輸出 token 速度往往落在每秒數十到數百之間。要同時維持萬億參數的精度與高速輸出,必須在模型架構、壓縮技術與硬體協同上做出極大優化。小米的 MiMo 系列自推出以來便主打高效能與低延遲,此次 V2.5-Pro-UltraSpeed 可視為該路線的一次重要躍進。
### 技術意義:突破千 token 關卡的價值
每秒 1,000 tokens 的輸出速度,意味著模型能在不到一秒內產生約 750 個中文字(依中文字詞比例換算)。這對於即時對話、程式碼生成、內容輔助寫作等場景極為關鍵——用戶幾乎感受不到等待時間,互動體驗接近真人對話水準。以往萬億參數模型多用於離線批次處理或耗時較長的任務,如今小米將速度推向即時回覆的門檻,有助於擴大這類大型模型的應用範疇。
### 可能影響:加速 AI 落地與終端整合
此一突破對小米的 AI 生態布局具有直接影響。小米長期深耕智慧裝置、物聯網與行動終端,若未來能將 MiMo V2.5-Pro-UltraSpeed 部署於雲端或邊緣端,將可賦能手機助手、智慧家電、車載系統等產品,提供更流暢的語音與文字互動。對競爭對手而言,這也意味著必須在推理效率上追上或超越此一標桿,否則可能在消費者體驗上落後。此外,業界可能因此更加關注「效能比」而非單純參數規模,推動更多模型輕量化與加速技術的研發。
### 讀者可關注的後續發展
接下來值得觀察的重點包括:第一,小米是否會公開該模型的技術細節,例如採用了哪些架構改進或量化壓縮方法。第二,MiMo V2.5-Pro-UltraSpeed 是否會整合至小米的雲端服務或開發者平台,開放給第三方使用。第三,小米何時會將此模型的能力落地於具體產品,例如新版的小愛同學或 HyperOS 更新。第四,萬億參數模型在保持高速度的同時,能否兼顧生成內容的準確性與安全性,這需要後續的評測與使用者的實際回饋。總體而言,這項進展為大型語言模型的即時化應用樹立了新標竿,也讓市場更加期待小米在 AI 領域的下一步布局。
Related
相關文章
Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages
This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather
Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight
Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途
這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

華為昇騰 0 Day 支持智譜 GLM-5.2 模型,提供全面推理優化
華為昇騰 AI 宣佈在智譜開源 GLM-5.2 大模型當天即完成深度推理優化。通過 MOE 大融合算子、通信計算融合、高併發調度等七項關鍵技術,顯著提升編程和長程任務的處理效率,現已支持 A3 系列產品部署。#AI 大模型# #國產算力#
企業AI轉型再添利器:青雲科技算力雲接入 MiniMax-M3 模型
企業AI落地面臨高效低成本難題。青雲科技旗下基石智算平臺接入國產開源大模型MiniMax-M3,提供新算力支持。MiniMax-M3以卓越上下文處理能力等三大核心技術見長,依託自研架構,助企業便捷部署AI業務。
阿里開源統一科學大模型 LOGOS,僅用五十六分之一參數超越微軟
阿里 ATH-Token Foundry 聯閤中國人民大學高瓴人工智能學院開源科學基礎模型 LOGOS。該模型採用統一科學語法與純序列建模範式,在六大科學任務上匹配或超越傳統專用方法。其中 LOGOS-1B 僅 1B 參數,即展現出極高效率,性能超越參數量達 8×7B 的微軟模型。