每秒狂吐1000個token！谷歌開源擴散模型新作，4090單卡可跑

2026年6月11日 07:59

重點摘要

站內 AI 整理稿

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月11日消息，今天凌晨，谷歌DeepMind推出一款探索文本擴散（text diffusion）技術的開放實驗模型DiffusionGemma。這款模型基於Apache 2.0許可協議發佈，是260億參數的混合專家（MoE）模型，能夠一次性生成整段文本，在GPU上文本生成速度最高可達自迴歸LLM的4倍。 ▲DeepMind官宣（圖源：X） DeepMind還聯合英偉達完成了全硬件棧優化，DiffusionGemma可適配消費級硬件（已針對GeForce RTX 5090、4090顯卡完成量化適配），同時在企業級設備上也能發揮性能。無論是搭載Hopper架構、Blackwell架構並支持NVFP4內核的設備，還是面向本地桌面部署的英偉達DGX Spark、DGX Station，以及面向AI專業人員的RTX PRO系列產品，都能流暢運行DiffusionGemma。值得一提的是，該模型原生支持NVFP4技術，能夠在幾乎不損失生成精度的前提下，大幅提升計算吞吐量，進一步提速整體運行效率。模型權重： DiffusionGemma 26B 指令微調版（A4B‑it）： https://huggingface.co/google/diffusiongemma-26B-A4B-it 框架地址： Hugging Face Transformers： https://github.com/huggingface/transformers 一、DiffusionGemma速度佔優，生成質量不及Gemma 4 DeepMind稱，儘管自迴歸模型的生成質量相對較高，但如果用戶想要一邊寫、一邊實時補全、或者來回修改，模型可能要重新生成一整段，響應速度不夠快。同時，不少開發實時交互式AI應用的開發者，也常常會面臨本地推理帶來的延遲問題。自迴歸語言模型的工作原理類似打字機，從左至右逐一生成token。在雲端場景中，服務端可批量處理數千條用戶請求、分攤硬件負載，因此該模式具備較高效率。但當模型在本地為單一用戶運行時，這種逐詞生成的方式會造成專用GPU或TPU利用率低下，硬件大部分時間都處於等待下一個“輸入字符”的空閒狀態。不少研發團隊在思考如何從模型架構層面提高推理速度，而擴散模型架構被認為是頗有潛力的一個方向。業界對其進行了長期研究，但要把這項技術用在大模型上一直困難重重。具體而言，擴散模型的計算成本高，長文本的生成質量也難以保證，其對離得近的信息敏感，對遠距離信息容易忽略，以致對長上下文理解存在侷限，要在不犧牲質量、不燒掉太多算力的前提下把它做大、做穩定，長期以來缺乏有效的工程方案。 DeepMind此次推出DiffusionGemma正是為了改變了這一現狀，它的核心思路是重新設計模型調用硬件的方式。 DiffusionGemma依託Gemma 4系列模型的單位參數性能，結合Gemini Diffusion相關研究打造，同時搭載全新的diffusion head（擴散輸出頭），能突破傳統自迴歸LLM逐個token串行處理的模式，以最大化提升文本生成速度。 DiffusionGemma沒有進行串行逐詞預測，而是一次性生成包含256個token的完整文本段落。其一次性向處理器分配更大的計算任務，能夠讓硬件算力得到充分利用。這一特性在行內編輯、代碼補全、氨基酸序列、數學圖譜等非線性應用場景中有一定優勢。這款模型推理模式由此從單臺串行工作的打字機，升級為可一次性輸出整段文本的大型印刷設備。不止如此，該模型推理階段僅激活38億參數，經過量化處理後，可流暢運行在高端消費級專用顯卡18GB顯存的硬件限制內。 DiffusionGemma的文本擴散技術，其原理與AI圖像生成模型相似。圖像模型從隨機噪點開始，迭代優化最終生成清晰畫面，DiffusionGemma則將這套邏輯應用於文本生成中。首先，DiffusionGemma會先生成一組隨機的佔位token，作為文本生成的初始基底。隨後該模型會進行多輪迭代計算，先鎖定已經生成準確的token內容，再將這些有效信息作為上下文依據，持續修正和優化剩餘文本。如下所示，經過層層打磨後，該模型生成的整體內容不斷收斂優化，最終形成通順、完整、可直接使用的文本結果。此外，在生成文本的全過程中，該模型能夠同步處理整段內容，由此衍生出新的實用能力，比如精準補全複雜的Markdown格式，或是近乎實時地生成並渲染代碼等。二、能生成3D SVG圖形，支持開發者微調優化 DiffusionGemma能直擊本地推理帶來延遲問題這一痛點，不過它也並非十全十美。以下是該款模型的功能特點：首先是極速推理。DiffusionGemma將解碼瓶頸從內存帶寬轉移至計算單元，在專用GPU上token輸出速度實現提升。例如，其在單張英偉達H100的生成速度可達每秒1000個token以上，在GeForce RTX 5090的生成速度可達每秒700個token以上。第二點則是智能自糾錯。該模型會迭代優化輸出內容，可一次性對整段文本進行校驗，實時修正錯誤。不止如此，該模型不侷限於純文本創作，還能理解文字語義、輸出圖形相關內容，可根據文字描述生成3D SVG圖形。這一生成過程如下圖所示，Hugging Face製作了演示樣例，直觀呈現了DiffusionGemma根據文字描述生成圖形的全過程。同時，開發者還可通過微調進一步提升DiffusionGemma在特定任務中的表現。如下圖所示，大模型高效微調開源框架Unsloth對DiffusionGemma進行數獨任務微調，數獨任務中每個token都與後續token存在關聯，自迴歸模型處理該任務難度較大，而DiffusionGemma的雙向注意力機制則能降低處理難度。 DiffusionGemma面向追求高速、本地實時交互的研究人員與開發者設計，適用於各類對速度敏感的交互式本地工作場景，例如行內編輯、內容快速迭代以及非線性文本結構生成等。不過，DiffusionGemma主打的提速優勢主要體現在本地部署及低併發推理場景。這種“快”不是所有場景都試用，尤其不適合高併發雲端服務。在高查詢量（QPS）的雲端服務場景中，自迴歸模型可充分榨取計算資源，DiffusionGemma的並行解碼優勢會不斷弱化，還可能推高服務成本。綜合來看，DiffusionGemma的吞吐性能優勢，在單張加速卡、中小批次任務的場景下最為突出。也就是說，個人開發者、小團隊在本地跑實驗的場景，使用DiffusionGemma能最大程度發揮其性能優勢。如下圖所示，由於DiffusionGemma優先兼顧生成速度與並行輸出架構，單請求生成token的速度約為Gemma 4的3.65倍，但整體輸出質量不及Gemma 4。對於追求極致生成質量的應用場景，DeepMind建議用戶繼續使用標準版Gemma 4。結語：聚焦端側提速需求，探索文本生成新路徑 DiffusionGemma的推出，並不意味著文本擴散模型將立即取代當前主流的自迴歸大模型。至少在生成質量、雲端高併發部署效率等方面，自迴歸架構依然佔據主導地位。但DiffusionGemma展示了另一種可能。在本地推理、實時交互和低併發場景下，通過改變文本生成方式，該模型可以突破傳統逐token解碼帶來的速度限制。隨著端側AI和本地部署需求持續增長，如何在生成質量、推理速度與硬件成本之間取得平衡，正成為大模型發展的重要方向。DiffusionGemma更像是一次針對這一問題的前沿探索，其最終價值仍有待開發者社區和實際應用場景進一步驗證。來源：谷歌官網

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析

36氪生成式AI

微軟，考慮接入DeepSeek

這篇消息聚焦「微軟，考慮接入DeepSeek」。原始導語提到：Copilot Cowork轉為按量計費。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前閱讀分析

相關文章