智東西生成式AI

雷軍:3倍價格10倍速度!小米萬億參數模型1000 tokens/s狂飆,只需8張GPU

2026年6月9日 05:12

重點摘要

智東西 作者 | 李水青 編輯 | 雲鵬 智東西6月9日報道,今日,小米MiMo團隊與推理系統團隊TileRT聯合宣佈,Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已實現萬億參數(1T)旗艦模型輸出速度首次突破1000 tokens/s。 ▲雷軍發文宣佈MiMo-V2.5-Pro-UltraSpeed新進展(圖源:新浪微博) 1000 tokens/s是什麼概念?從下面這個例子我們能有直觀的感受。以複雜可視化大屏生成任務為例,UltraSpeed版僅需13秒完成,標準版耗時6分15秒,同等效果下最高提速28倍。 提示詞:生成一個AI服務運營總覽大屏,深色科技風(深色底 + 藍青主色 + 紅色異常);頂部KPI卡片(在線服務數 / 今日總調用量 / 整體成功率 / 平均latency),左中實時調用趨勢折線圖(1min粒度,3s刷新)+ 併發用戶數 sparkline,右中型分佈環形圖+接口成功率TOP5進度條,底部異常告警列表(脈衝紅點)+ 資源水位(CPU/GPU/ 內存);點擊趨勢圖展開60min明細浮層;純HTML+CSS+JS單文件,Canvas繪圖,KPI超大數字發光動畫。 背後,團隊僅用一個標準的8卡通用GPU節點,便讓1T模型突破了1000 tokens/s的輸出速度。涉及技術包含FP4量化、DFlash高效推測解碼,搭配TileRT定製編譯內核,通過軟硬件協同充分釋放算力等。 TileRT是一家聚焦AI推理系統的獨立技術團隊,其主營業務是高性能推理引擎。此前5月22日,該團隊與智譜聯合進行系統級優化,使得GLM-5.1高速版API輸出速度達400Tokens/s,創下彼時公開大模型商用API推理速度紀錄。 今日,Xiaomi MiMo-V2.5-Pro-UltraSpeed的API同步上線。該API採用限時體驗價,定價為MiMo-V2.

站內 AI 整理稿

智東西 作者 | 李水青 編輯 | 雲鵬 智東西6月9日報道,今日,小米MiMo團隊與推理系統團隊TileRT聯合宣佈,Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已實現萬億參數(1T)旗艦模型輸出速度首次突破1000 tokens/s。 ▲雷軍發文宣佈MiMo-V2.5-Pro-UltraSpeed新進展(圖源:新浪微博) 1000 tokens/s是什麼概念?從下面這個例子我們能有直觀的感受。以複雜可視化大屏生成任務為例,UltraSpeed版僅需13秒完成,標準版耗時6分15秒,同等效果下最高提速28倍。 提示詞:生成一個AI服務運營總覽大屏,深色科技風(深色底 + 藍青主色 + 紅色異常);頂部KPI卡片(在線服務數 / 今日總調用量 / 整體成功率 / 平均latency),左中實時調用趨勢折線圖(1min粒度,3s刷新)+ 併發用戶數 sparkline,右中型分佈環形圖+接口成功率TOP5進度條,底部異常告警列表(脈衝紅點)+ 資源水位(CPU/GPU/ 內存);點擊趨勢圖展開60min明細浮層;純HTML+CSS+JS單文件,Canvas繪圖,KPI超大數字發光動畫。 背後,團隊僅用一個標準的8卡通用GPU節點,便讓1T模型突破了1000 tokens/s的輸出速度。涉及技術包含FP4量化、DFlash高效推測解碼,搭配TileRT定製編譯內核,通過軟硬件協同充分釋放算力等。 TileRT是一家聚焦AI推理系統的獨立技術團隊,其主營業務是高性能推理引擎。此前5月22日,該團隊與智譜聯合進行系統級優化,使得GLM-5.1高速版API輸出速度達400Tokens/s,創下彼時公開大模型商用API推理速度紀錄。 今日,Xiaomi MiMo-V2.5-Pro-UltraSpeed的API同步上線。該API採用限時體驗價,定價為MiMo-V2.5-Pro的3倍,同時提供約10倍的輸出速度提升。該模式僅支持API體驗,暫不支持Token Plan。 本次體驗採取申請制,6月9日至6月23日限時開放。通過審核的用戶可獲得兩週限時免費的Chat體驗。 團隊已開源MiMo-V2.5-Pro-FP4-DFlash checkpoint至HuggingFace,包含FP4量化權重與DFlash模型參數。MiMo-V2.5極致推理支持在後續將推出。 申請入口: https://platform.xiaomimimo.com/ultraspeed Chat體驗入口: https://ultraspeed.xiaomimimo.com Hugging Face地址: https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash 一、每秒千token推理:10秒做貪吃蛇、1分鐘復刻 macOS 萬億參數尺度上突破1000 tps意味著什麼?小米公告中稱,這有望帶來以下AI應用模式的底層改變: 速度轉化為智能:在相同等待時間內,模型可並行運行數十條推理路徑(Best-of-N/Tree Search),後臺自動驗證糾錯,用速度換取思考深度和推理質量。 解放Coding Agent生產力:極速推理下,開發者無需長時間等待代碼生成,大幅提升編碼效率。 進入實時決策閉環:毫秒級的“思考-響應”循環使萬億模型可以接入高頻量化交易信號生成、瞬時反欺詐風控攔截、智能競價及實時交互對話等對時間極度敏感的場景。 醫療場景的價值:在手術輔助、醫療影像分析等場景中,速度的提升可幫助AI更快完成病灶分析與風險預判,為醫生爭取更多處置時間。 如下圖所示,僅需10秒,Xiaomi MiMo-V2.5-Pro-UltraSpeed可生成一個貪吃蛇小遊戲。 僅需1分鐘,Xiaomi MiMo-V2.5-Pro-UltraSpeed就能復刻一個macOS系統。 二、不走專用芯片路線,模型+系統雙向優化,通用8卡GPU跑出極速推理 與業界Cerebras晶圓級集成或Groq純片上SRAM定製芯片等專用硬件路線不同,小米和雙方TileRT系統團隊選擇在通用GPU上實現這一速度。 在模型側,他們針對通用硬件的帶寬瓶頸,進行了FP4量化,大幅縮減模型體積並減少訪存開銷;同時引入基於塊級Masked並行預測的高效推測解碼DFlash,大幅提升單次驗證的Token接受長度。 在系統側,TileRT適配算法的動態特性,為全新的量化和推測解碼流程量身定製專項優化的編譯引擎與計算核。 1、FP4量化:大幅瘦身不丟精度 在萬億參數尺度上,傳統8比特甚至16比特推理會帶來巨大的顯存佔用和內存帶寬壓力。團隊採用了業界較為通用的MXFP4量化方案。 針對MiMo-V2.5-Pro的MoE(Mixture of Experts)架構特性,他們只對MoE Expert進行參數FP4量化,其他模塊保留原有精度。通過FP4量化感知訓練(QAT),在大幅縮減模型體積、榨乾硬件帶寬的同時,模型整體能力與原模型基本持平。 ▲FP4 vs FP8模型對比 2、DFlash投機解碼:單次驗證一口氣確認多段文本 傳統投機解碼依賴小型Draft模型猜測後續tokens,再由大模型驗證,瓶頸在於Draft模型質量與計算開銷難以兼得。團隊採用了DFlash塊級Masked並行預測方法:Draft模型在一次前向中同時填出一整塊Mask位置,解除Draft自迴歸的串行約束。 針對MiMo-V2.5-Pro的萬億MoE與長上下文場景,團隊進行了定製優化: (1)Draft模型採用滑動窗口注意力(SWA),與MiMo-V2系列自身設計對齊,單次預測算力從隨上下文線性增長變為常數級。 (2)訓練時Mask信號採樣下沉到GPU本地分片,單步產出數萬級獨立訓練信號,對齊MiMo-V2系列模型長上下文能力的同時避免跨設備通信開銷。 效果上,其並行預測推測解碼在多個Agent和Coding高價值場景實現了顯著的接受長度提升,意味著大模型每次驗證都能“一口氣”確認更多內容;此外,他們將Mask 塊大小限制為8以降低驗證開銷、提高併發水平,使得高接受長度直接轉換為高推理吞吐。 ▲DFlash在不同場景下的接受長度 團隊在Coding場景中平均接受長度達到6.30,部分樣本最高7.14,每輪驗證8個Draft token中可接受6-7個。同時,在語義更發散、不確定性更高的通用對話場景中,當前的接受率仍不高,團隊正在持續優化。 3、TileRT超低延遲推理系統:打通算子壁壘,軟硬件協同破千Token吞吐 在1000 tokens/s的超高頻運行狀態下,傳統推理系統的算子邊界成為瓶頸。為了消滅算子邊界帶來的執行間隙,TileRT引入了新的執行模型: (1)常駐內核引擎:摒棄逐算子啟動模式,讓計算流水線常駐在GPU內部持續流轉,實現數據搬運與計算的極致重疊。 (2)異構流水線協作:在Tile級別將通信、搬運和張量計算進行更精細的物理拆解,不同Warp(線程束)精密協作。 (3)微秒級軟硬件收斂:TileRT與MiMo團隊深度協同,針對FP4混合量化與DFlash投機解碼量身定製編譯引擎與計算核,讓執行壓力最終在硬件邊界內平穩閉環。 官方表示,1000 tokens/s的誕生,是高水平系統基礎設施與極致算法模型向著彼此深度收斂、共同演化的結果。 結語:10倍提速,萬億模型的“實時夢”更近了 小米MiMo與TileRT在通用GPU上實現1T模型千tps級輸出,驗證了軟硬件協同設計路徑的可行性。相比依賴專用芯片的方案,這一思路有望降低實時AI推理的硬件門檻,使更多場景能以可接受的成本獲得近實時響應能力。 不過,當前高接受率仍主要集中在Coding等結構化任務,通用對話場景尚存優化空間。同時,推理資源的緊張與申請制開放也反映出大規模商用仍需時間。1000 tokens/s的技術突破值得關注,同時距離普惠應用還有一段路要走。

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

3 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

23 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前