何愷明團隊新作：刪掉VAE和私有數據後，文生圖竟然更強了

2026年6月22日 18:07

重點摘要

這篇消息聚焦「何愷明團隊新作：刪掉VAE和私有數據後，文生圖竟然更強了」。原始導語提到：刪繁就簡從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

### 何愷明團隊新作：刪掉 VAE 和私有數據後，文生圖竟然更強了

近期，何愷明團隊發表了一項令人矚目的研究——他們在文本生成圖像（文生圖）模型上大膽「刪繁就簡」，拿掉了業界普遍使用的 VAE（變分自編碼器）與私有數據，結果生成的圖片品質不降反升。這項工作顛覆了過去「元件越多越好、資料越多越強」的直覺，為生成式 AI 帶來全新的思考方向。

#### 重點整理：簡化架構與資料依賴

傳統的文生圖模型（如 Stable Diffusion）通常依賴 VAE 將圖像壓縮至潛在空間，再透過擴散模型進行生成，最後解碼回像素空間。訓練時更需仰賴大規模私有圖像-文字配對數據（例如 LAION-5B）。何愷明團隊的新作直接省略 VAE 模組，也不必使用私有數據，而是僅以公開可取得、無版權爭議的資料來訓練，卻能達到甚至超越既有模型的生成效果。這代表模型架構與資料來源都走向更輕量、更透明的方向。

#### 背景脈絡：為何 VAE 與私有數據被視為必需？

近年文生圖的爆發，很大程度上歸功於 VAE 與擴散模型的結合。VAE 能將高維圖像壓縮成較小維度的潛變量，大幅降低計算成本；而私有數據（如爬取自網路的圖文對）則提供豐富的視覺與語義對應。然而，VAE 本身會引入資訊損失與解碼偽影，私有數據也面臨版權、隱私與偏見等問題。業界逐漸意識到，這些「標準配備」可能並非最優解，反而限制了模型的泛化能力與公平性。

#### 可能影響：降低門檻、提升可控性與透明度

這項研究的直接影響是：未來開發文生圖模型不再需要鉅額的數據採購與儲存成本，也不需要複雜的 VAE 解碼步驟。研究者與小型團隊可以用公開數據（如 CC-0 授權的圖像與合成描述）訓練出高品質模型，從而降低進入門檻。此外，移除 VAE 意味著模型能在原始像素空間直接學習，可能減少生成圖像中的模糊或變形問題。對於終端使用者來說，後續應用（如 AI 繪圖工具、設計輔助）的生成效果將更加穩定，且版權疑慮也較低。

#### 可關注的後續發展：細節、開源與產業落地

目前該團隊尚未公開完整論文與程式碼，但學術界已開始熱議。讀者後續可關注三個方向：第一，**模型架構細節**——他們是用何種方法取代 VAE 的壓縮功能？是完全端到端地訓練擴散模型，還是引入了新的正則化機制？第二，**數據策略**——公開數據的規模與品質如何保證？是否需要特殊的資料增強或過濾流程？第三，**開源與實測對比**——若團隊釋出預訓練權重與推理程式碼，屆時可與 Stable Diffusion 3、DALL-E 3 等主流模型進行主觀與客觀比較，驗證其在人臉、物體結構、文字生成等場景的實際表現。這項研究很可能催生新一代「去繁從簡」的生成式 AI 範式，值得持續跟蹤。

原始來源：36氪 ↗

查看原始來源