IT之家模型更新

小米雷軍:MiMo 昨晚發佈 V2.5-Pro-UltraSpeed,這是業內首次在 1 萬億參數模型上突破 1000 tokens/s 輸出速度

2026年6月9日 14:57
小米雷軍:MiMo 昨晚發佈 V2.5-Pro-UltraSpeed,這是業內首次在 1 萬億參數模型上突破 1000 tokens/s 輸出速度

重點摘要

小米創辦人、董事長兼 CEO 雷軍今日發文介紹,#MiMo# 昨晚發佈 V2.5-Pro-UltraSpeed,這是業內首次在 1 萬億參數模型上突破 1,000 tokens / 秒的輸出速度!

站內 AI 整理稿

### 重點整理:小米 MiMo 模型創下速度新紀錄

小米創辦人雷軍近日對外宣布,旗下自研大語言模型「MiMo」昨晚正式推出最新版本「V2.5-Pro-UltraSpeed」。這款模型的最大亮點在於,它是業界首個能在 **1 萬億參數規模**下,實現 **每秒超過 1,000 tokens 輸出速度** 的產品。這項突破不僅顯示小米在 AI 基礎模型上的技術實力,也為大型語言模型的即時應用開創了新的可能性。

### 背景脈絡:大參數模型的速度瓶頸

近年來,大型語言模型的參數規模從數十億快速攀升至千億甚至萬億,但在推理速度上始終面臨挑戰。一般來說,參數越多,模型所需的計算資源與記憶體頻寬越高,導致輸出 token 速度往往落在每秒數十到數百之間。要同時維持萬億參數的精度與高速輸出,必須在模型架構、壓縮技術與硬體協同上做出極大優化。小米的 MiMo 系列自推出以來便主打高效能與低延遲,此次 V2.5-Pro-UltraSpeed 可視為該路線的一次重要躍進。

### 技術意義:突破千 token 關卡的價值

每秒 1,000 tokens 的輸出速度,意味著模型能在不到一秒內產生約 750 個中文字(依中文字詞比例換算)。這對於即時對話、程式碼生成、內容輔助寫作等場景極為關鍵——用戶幾乎感受不到等待時間,互動體驗接近真人對話水準。以往萬億參數模型多用於離線批次處理或耗時較長的任務,如今小米將速度推向即時回覆的門檻,有助於擴大這類大型模型的應用範疇。

### 可能影響:加速 AI 落地與終端整合

此一突破對小米的 AI 生態布局具有直接影響。小米長期深耕智慧裝置、物聯網與行動終端,若未來能將 MiMo V2.5-Pro-UltraSpeed 部署於雲端或邊緣端,將可賦能手機助手、智慧家電、車載系統等產品,提供更流暢的語音與文字互動。對競爭對手而言,這也意味著必須在推理效率上追上或超越此一標桿,否則可能在消費者體驗上落後。此外,業界可能因此更加關注「效能比」而非單純參數規模,推動更多模型輕量化與加速技術的研發。

### 讀者可關注的後續發展

接下來值得觀察的重點包括:第一,小米是否會公開該模型的技術細節,例如採用了哪些架構改進或量化壓縮方法。第二,MiMo V2.5-Pro-UltraSpeed 是否會整合至小米的雲端服務或開發者平台,開放給第三方使用。第三,小米何時會將此模型的能力落地於具體產品,例如新版的小愛同學或 HyperOS 更新。第四,萬億參數模型在保持高速度的同時,能否兼顧生成內容的準確性與安全性,這需要後續的評測與使用者的實際回饋。總體而言,這項進展為大型語言模型的即時化應用樹立了新標竿,也讓市場更加期待小米在 AI 領域的下一步布局。

Related

相關文章

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

14 分鐘前
MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

14 小時前

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前