去掉 VAE 之後，商湯用 8B 參數重新定義了開源生圖的上限

2026年5月31日 08:14

重點摘要

站內 AI 整理稿

雷峰網文章開源一週多，GitHub 破 1,500 Star，衝上HuggingFace趨勢榜——商湯SenseNova U1 在開發者社區引發的熱度，和這個模型本身的技術野心一樣不尋常。它做的事情，是把多模態理解和生成這兩件事，真正塞進同一個大腦。開發者在討論什麼？除了效果有多驚豔，還有一個更底層的問題：為什麼這次把 VAE也去掉了？從 Stable Diffusion 到 FLUX，幾乎所有主流擴散模型都依賴變分自編碼器（VAE）把圖像壓進潛空間，這是近年來整個圖像生成技術棧的地基。SenseNova U1 的 NEO-unify 架構選擇把它整個拆掉，直接在像素層面端到端建模語言與視覺。這不是工程優化，是架構層面的重新選邊站。HuggingFace 社區的熱門討論包括「能否在單張 RTX 5090 上運行」、「是否會有更輕量版本」等極具落地指向的問題，說明已經有大量開發者在認真跑通它。有開發者評價稱，這是「終於有人在原生統一方向上認真做了工程落地」，和此前的偽統一架構完全不可同日而語。與此同時，模型以 Apache 2.0 協議完全開源，支持商用，發佈後不到兩週，團隊已陸續推出 8 步推理加速版、LoRA 微調版、GGUF 量化版及低顯存layer-offload 推理模式，迭代節奏之快，也是社區熱度持續的原因之一。01多模態的「兩條腿走路」，走了太久多模態的理解與生成，長期以來都是“兩條腿走路”。在多模態理解方面，以GPT-4V、LLaVA、Qwen-VL 為代表的視覺語言模型（VLM）能夠執行復雜的圖像描述、視覺問答和推理任務，而圖像生成技術，則有Stable Diffusion、FLUX、DALL-E 3 為代表的擴散模型。兩條技術路線雖然各有突破，但長期以來因獨立演進，形成了截然不同的架構範式，是不爭的事實。變革最初發生在 2025 年，GPT-4o 的統一多模態能力引爆了業界對統一架構的追求，也就是用一款模型既能理解圖像內容，又能生成高質量圖像。不過業界普遍推測，GPT-4o的圖像理解能力仍然是依賴視覺編碼器提取圖像特徵實現，這款模型本身也並不原生生成高質量圖像，而是依賴集成的DALL-E 3。實現路徑之所以重要，是因為它關係到模型的多模態能力是否真正實現了統一。以 GPT-4o 為代表的混合架構雖然在物理上共享部分參數，但是理解與生成在特徵表示和計算路徑上仍相對獨立。這種不同模塊接力完成任務的路徑，不可避免地導致了模型冗餘、能力割裂和交互障礙。02NEO-unify：真正靠同一個大腦做到這件事真正靠同一個大腦做到這件事，曾經是很多人的設想，今天被商湯實現了。SenseNova U1 系列模型基於商湯於今年 3月自主研發的NEO-unify 架構，率先在單一模型架構上統一多模態理解、推理與生成，實現了從「模態集成」向「原生統一」的範式跨越。NEO-unify 架構的核心突破在於，它徹底摒棄了視覺編碼器（VE）和變分自編碼器（VAE），直接從像素和文本進行端到端學習。商湯在官方文章裡打了個比方，傳統架構像“說不同語言的人組成的工作組”，而 SenseNova U1更像「一個從一開始就同時掌握多項技能的人」。這一設計的技術意義在於：VAE 的壓縮過程本質上是有損的，開發者為此花了數年時間調參和打補丁；而 NEO-unify 直接在像素層面建模語言與視覺信息，像素與詞語的信息從一開始就在同一個表徵空間裡共同參與每一層計算，消除了跨模塊傳遞帶來的信息損耗。圖注：該框架結合了（1）近無損視覺接口，（2）由兩層卷積編碼與類 MLP 編碼層實現，以及（3）原生的混合 Transformer（MoT）主幹架構。架構重點在於同時解決三組⽭盾：語義抽象與像素細節的共同表徵、理解與⽣成的協同、語⾔因果性與圖像空間⼀致性。到此為止，我們才能說端到端統一框架真正得到了實現。下到一次圖像生成的效果，上到整個多模態模型的智能上限，都和這一里程碑的實現與否休慼相關。本次開源的 SenseNova U1 Lite，包含兩個不同規格的模型：▪ 基於稠密骨幹網絡的 SenseNova-U1-8B-MoT：理解與生成兩條分支參數約 9.37B / 8.19B▪ 基於混合專家（MoE）骨幹網絡的 SenseNova-U1-A3B-MoT：理解分支約 30.54B，生成分支約 8.2B，每 token 激活 top-8 專家，實際活躍參數約 3B 03 模型測評：數據說話在商湯最新發布的U1技術報告中，有一些數據格外亮眼。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準測試中，8B-MoT均達到同量級開源模型SOTA 水平，甚至在部分指標上超越了部分大型商業閉源模型。圖注：SenseNova-U1 與其他頂級多模態理解模型在多模態基準測試（Benchmarks）上的對比。圖注：SenseNova-U1 與僅具備理解能力的頂級模型在純文本基準測試（Benchmarks）上的對比圖注：GenEval 上的定量評估結果從上表可以看出，SenseNova U1 實現了理解、生成、編輯、交錯和智能體能力的一體融合，形成了相對均衡的能力譜系。關鍵數據上，GenEval總分約 0.91-0.92，OneIG中文文字渲染達0.977，信息圖生成領先多數開放模型，多模態理解MMMU 達 80.55——這些數字發生在同一個模型內部，而不是多個專用模型的拼接。技術報告中一個值得單獨拿出來說的結論是：統一架構具備更高數據效率。NEO-unify相比類似統一模型BAGEL，在更少訓練token 下取得了更好表現。原因在於原生像素-文本接口減少了跨模塊對齊成本，MoT 又讓兩類能力共享上下文、互相提供監督信號，訓練數據利用率因此更高。在生成延遲與平均性能的綜合對比中，SenseNova U1 Lite 在保證圖像生成質量比肩 Qwen-Image 2.0 Pro、Seedream 4.5 等大型閉源模型的同時，推理響應速度也展現出顯著優勢，尤其在複雜信息圖（Infographic）生成任務中，控制力超出預期。更值得注意的是，作為最強開源生圖模型的 SenseNova U1 Lite，僅僅只有 8B的體量。光是這個數字本身，就意味著落地上的巨大潛力。04實測與部署方案回到生產場景，SenseNova U1 對長文檔和數據圖表進行總結分析、生成高質量信息圖表的能力，有著廣闊的應用空間。我們也針對性地設計了一個任務，看看SenseNova U1 在實際工作流中的表現。先讓U1畫一幅雲南的水彩風景畫，用連續圖文創作輸出的方式，展示從線稿到上色完稿的逐步過程。SenseNova U1 能夠很好的理解要求，進行符合邏輯的連貫輸出，並保持畫面信息的一致性。同樣是在生產場景，圖文交錯生成、帶圖思考背後的一致性也讓 SenseNova U1 帶來了更多可能性。在下面這個用例中，我們請它為一座建築群設計了7步分鏡，覆蓋了從二維底圖到帶有好萊塢級CG效果的人視街景。信息圖生成方面，我們先讓 SenseNova U1 根據公開信息，做了一份 5 月院線電影觀影指南。觀影指南是一個關鍵信息高度密集的場景，每部電影的片名、日期、主題等標籤都需要保證可讀，在文字渲染準確性的難關之上，這又對SenseNova U1 處理多對象結構化排版的能力提出了考驗。此時文字的清晰呈現已經成為了最基本要求，更進一步的表現，是在高信息密度的約束下，仍然保持雜誌級的排版審美。平面設計師的排版能力，與產品經理的信息架構能力，這二者的交叉點，恰恰是最容易暴露AI 能力的短板。為了進一步測試 SenseNova U1 的結構化敘事和設計能力，我們又讓它做了一份介紹《甄嬛傳》中“滴血驗親”這場戲的信息圖，並且把關鍵臺詞融入設計中。兩份信息圖都沒有拿模板套作的痕跡，每一頁都做到了根據內容密度自適應，信息圖表和數據可視化都有對應的視覺呈現，字體、顏色、元素比例在視覺效果上也很協調。這兩項任務真正的難點有兩個。首先是異構素材的知識合併能力，公開信息來源涵蓋了文本、圖像等多種格式，SenseNova U1 需要讓重疊的知識點相互印證、合併，最終得到差異化的分層信息。沒有真正的理解能力，做不到這一點。其次是邏輯感，提示詞非常簡練，SenseNova U1卻能自主對蒐集的內容進行取捨，找到一條合理的敘述邏輯，這一點在總結“滴血驗親”劇情的用例中，體現得更為明顯。見慣了漢字在 AI 圖片裡扭曲成麻花，SenseNova U1 在如此高密度的信息輸出之下，準確率居然也已經達到了落地級別。手搓信息圖乃至 PPT，或許很快就要成為一種正在消失的技能。05ComfyUI 快速部署方案：5 分鐘上手在SenseNova U1 的最近一次更新中，商湯正式上線了 ComfyUI 部署支持，開發者可以將 U1 作為自定義節點直接嵌入 ComfyUI 工作流，實現從“提示詞構建 → 圖像生成 →結果預覽”的全鏈路可視化操作。值得一提的是，U1 在 ComfyUI 中提供了“帶圖思考”的交錯生成節點，複雜邏輯的可視化推理過程一目瞭然。環境要求▪ Python ≥ 3.10，ComfyUI 最新版▪ GPU：推薦 16GB 顯存（8B-MoT 標準版）▪ 低顯存用戶：8B-MoT-GGUF 版本可在 8GB 顯存下運行；支持 layer-offload，進一步降低顯存佔用安裝步驟# 1. 進入 ComfyUI 的 custom_nodes 目錄cd ComfyUI/custom_nodes# 2. 克隆官方倉庫git clone https://github.com/OpenSenseNova/SenseNova-U1# 3. 安裝依賴（推薦 uv）uv pip install -r requirements.txt# 4. 配置 API Key（本地推理可跳過此步）export SENSENOVA_API_KEY=your_key_here# 5. 啟動 ComfyUI，拖入 workflow_demo.json 即可運行▎核心節點說明▎加速與量化選項▪ 8 步推理加速版（SenseNova-U1-8B-MoT-8step-preview）：大多數場景下生成質量與基礎模型接近，推理速度大幅提升▪ LoRA 微調版（SenseNova-U1-8B-MoT-LoRA-8step-V1.0）：支持風格定製與場景適配▪ GGUF 量化版：由社區貢獻者 @smthem 提供，權重已發佈於 HuggingFace，適合消費級 GPU 本地推理對於偏好免安裝體驗的用戶，商湯還同步提供了辦公小浣熊https://office.xiaohuanxiong.com/home的體驗方式，無需 GPU，直接在瀏覽器中即可試用 U1 的核心功能。06 生產級任務新選擇過去一年，主流大模型廠商在多模態理解側的表現已相對趨同，GPT-4V、Gemini Pro、Qwen-VL 等模型在圖像理解、視頻解析、文檔理解等任務上的差距日益收窄。但生成側始終是短板——理解一個數據集，然後生成信息圖或製作一份 PPT，往往需要調用多個專用模型串聯完成，不僅延遲高、風格一致性差，而且交付質量也參差不齊。SenseNova U1 的差異化正在於此。把 SenseNova U1 放進多模態當前的競爭格局，你幾乎無法找到同樣的定位：▪ GPT 系列多模態理解能力一流，但原生圖像生成仍然依賴獨立模塊，走專用模型協作的路子▪ Qwen-VL 開源生態龐大，但生成以文本輸出為主▪ DeepSeek-V4 行業翹首以盼，但多模態生成亦不是其核心賣點此前頭部玩家的核心能力多集中在理解側，SenseNova U1 率先實現了生成和理解的原生融合。在端到端交付已經成為 Agent 落地共識的今天，只要理解與生成之間還橫亙著跨模塊的鴻溝，反映在落地上，就是交付質量和生產效率的真實痛點。SenseNova U1 一己之力，將這場拼交付的競爭，拉到了底層架構創新的高度。技術階段的代差本身就意味著生產力。SenseNova U1 針對企業辦公場景做了定向優化，將信息圖、PPT、研究報告這類高頻交付物作為重要戰場，技術優勢直接轉化為了落地能力。由此，SenseNova U1 才能在已經是一片紅海的生圖市場佔據一席之地，成為生產級任務的全新選擇。07結語NEO-unify 的核心創新，就是讓語言和視覺在同一個表徵空間裡共同參與每一層計算。此後模型在生成圖像時，不是在翻譯文字指令，而是在同一個思維框架之下，使語言與視覺信息能夠作為一個統一的複合體被直接建模。統一架構會打破理解與生成之間的信息壁壘，消除模塊邊界本身帶來的信息損耗。當理解和生成成為同一種認知能力的兩面，協同效應就不再是設計的結果，而只是統一表徵自然湧現的屬性。這些革新共同支撐了應用層面的全新體驗：統一架構首先意味著更強的複雜指令遵循能力，同時多輪交互中跨模態推理的可視化，也增強了輸出的可解釋性，對於抽象推理過程尤其如此。商湯還在技術報告中通過一系列消融實驗，回答了一個核心問題：理解生成統一是否帶來了真正的收益？實驗結論明確：統一架構在表示、訓練穩定性和數據效率上確實有收益，而不是一種折中。▪ 原生像素-文本設計能同時保留語義和像素信息。實驗驗證了 encoder-free 架構不僅能學到理解所需的語義表示，也能支持像素級重建與編輯。即使凍結理解分支，生成路徑仍能恢復細節並完成較好的圖像編輯——說明理解端訓練的內在表徵並不只是「理解 token」，也具備生成所需的細粒度信息。▪ MoT讓理解與生成協同，而不是互相干擾。在聯合 mid-training 和 SFT 階段，即使生成數據和理解數據共同訓練，理解能力仍保持穩定，生成能力還收斂更快。MoT 的參數解耦加共享注意力上下文，能有效降低理解/生成之間的內在衝突。▪ 統一架構具備更高數據效率。NEO-unify 相比類似統一模型 BAGEL，在更少訓練 token 下取得更好表現。原因在於原生像素-文本接口減少了跨模塊對齊成本，MoT 又讓兩類能力共享上下文、互相提供監督信號，訓練數據利用率因此更高。單一模型替代專用模型協作的傳統範式，能夠顯著降低存儲、計算和部署成本，不過這還只是真原生架構革命性的一角。而更深遠的意義在於，原生統一的多模態智能，仍然是一條被寄予厚望的 AGI 之路。多模態智能的未來突破，並不只是簡單的規模擴大，更重要的是朝著深度融合進化的內核架構創新。今天底層範式和模型架構的創新正變得越來越珍貴。開原生統一架構之先河的SenseNova U1，或許會有與其歷史地位相匹配的表現——而這，才剛剛開始。SenseNova U1：https://github.com/OpenSenseNova/SenseNova-U1/SenseNova-Skills：https://github.com/OpenSenseNova/SenseNova-Skills雷峰網文章

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析