IT之家模型更新

谷歌推出 DiffusionGemma 文本擴散模型:本地 AI 推理速度提升 4 倍

2026年6月10日 06:53
谷歌推出 DiffusionGemma 文本擴散模型:本地 AI 推理速度提升 4 倍

重點摘要

谷歌今天(6 月 11 日)發佈公告,宣佈推出 DiffusionGemma,是基於文本擴散機制的開放 AI 模型,相比較自迴歸模型在本地推理速度上提升了 4 倍。

站內 AI 整理稿

### 谷歌推出 DiffusionGemma:文本擴散模型讓本地 AI 推理速度飆升

Google 於 6 月 11 日正式發表了名為 DiffusionGemma 的全新開放 AI 模型,這套模型採用文本擴散機制,號稱在本地端推理速度上比傳統自迴歸模型快了 4 倍。這項突破不僅為開發者與研究人員提供了更輕量、更高效的選擇,也預示著 AI 模型在邊緣裝置上的應用將迎來新一波變革。不同於以往依賴雲端的大型語言模型,DiffusionGemma 直接鎖定在地端運行的場景,讓更多裝置能夠流暢執行複雜的生成任務。

### 文本擴散模型 vs. 自迴歸模型:速度與效率的關鍵差異

傳統的自迴歸模型(如 GPT 系列)需要逐字依序生成文字,每個新 token 都依賴上一個輸出,導致推理過程較為冗長。而 DiffusionGemma 採用的文本擴散技術,則是先從隨機雜訊開始,透過逐步去噪的步驟直接還原出完整的文字序列。這種並行生成的方式大幅縮短了推理時間,官方數據顯示在本地端性能提升達 4 倍。對於開發者而言,這意味著搭載這款模型的應用程式可以在手機、筆電等終端裝置上即時回應,不必頻繁連線雲端。

### 背景脈絡:Gemma 家族再添新血,開源策略加速生態發展

DiffusionGemma 是 Google 在開放模型領域的最新力作,延續了年初推出的 Gemma 系列輕量級開源模型精神。Gemma 系列原本就以參數量適中、易於部署為特色,而 DiffusionGemma 進一步導入擴散架構,讓模型在保持輕巧的同時,在文字生成任務上獲得更快的推理速度。Google 此舉顯然是為了吸引更多開發者擁抱自家的生態系,尤其是在邊緣 AI 與隱私保護需求日益高漲的趨勢下,能夠在本地完成推理的模型變得格外重要。

### 可能影響:邊緣運算與終端 AI 應用即將迎來質變

這項技術若順利落地,最直接的影響將是加速智慧型手機、物聯網裝置與穿戴式設備上的 AI 應用。例如,語音助理可以更即時地回覆複雜問句,離線翻譯工具能提供更流暢的對話體驗,甚至內容創作者也能在筆電上快速產出文案草稿。更重要的是,本地推理減少了資料傳輸至雲端的環節,有助於降低延遲並保護用戶隱私——這對於金融、醫療等高度重視機密性的領域而言,無疑是一大利多。

### 讀者應關注的後續發展:開源時間與實測表現

目前 Google 僅以新聞稿形式宣布 DiffusionGemma 的問世,具體的開源時程、模型權重與示範程式碼尚未完整公開。後續值得關注的幾點包括:第一,這款模型在真實裝置上的推理速度是否真能達到 4 倍提升,以及其輸出品質能否維持與自迴歸模型相近的水準。第二,Google 是否會推出不同參數規模的版本,讓開發者依照運算資源靈活選擇。第三,文本擴散技術是否會進一步與多模態生成(如圖+文)結合,拓展應用範疇。

### 總結:本地 AI 的黃金時代即將到來

DiffusionGemma 的出現,代表著 AI 模型的發展正從「越大越好」逐漸轉向「小而快、準而省」。文本擴散機制的引入,不僅挑戰了自迴歸模型長期以來的霸主地位,也為終端裝置的智慧化鋪平了道路。對於一般使用者而言,或許在不久的將來,就能在日常用品中體驗到不需連網、卻比現在更聰明的 AI 助手。而開發者更應密切留意 Google 後續的開源動作,第一時間掌握這項新技術的實作細節,搶先布局下一波邊緣 AI 商機。

Related

相關文章

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

21 分鐘前
MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

14 小時前

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

16 小時前