文生圖開源第一易主，但 HiDream-O1-Image 為什麼褒貶不一？

2026年7月1日 03:48

重點摘要

站內 AI 整理稿

雷峰網訊 2026 年 5 月，智象未來開源了文生圖模型 HiDream-O1-Image（8B），直接登頂 Artificial Analysis 開源模型全球第一，Elo 1187 的分數力壓 Qwen Image（27B）和 FLUX.2 dev。值得注意的是，這也是 Artificial Analysis 榜單前十中唯一的開源模型。但消息一齣，有人說最強一代開源文生圖模型“實至名歸”，卻也有人直接罵“生成質量一坨”。Artificial Analysis 可不是隨便哪裡冒出來的野生榜單，盲測 Arena 裡都是用戶實時投票打出來的結果。兩極分化的評價讓我們感到好奇。因此我們花了幾天時間，從 Reddit 到 GitHub，從架構解析到上手實測地拆解了一遍。HiDream-O1-Image 更像是一個技術方向正確的探路者，無法也不必承擔殺死比賽的期待。作為開源第一，它和目前的行業第一 GPT Image 2 之間還有著不小的差距。這背後是 8B 參數開源版本同樣明顯的亮點和問題，但它卻已然勾勒出了，未來 200B＋參數 Pro 版本宏偉的可能性。Artificial Analysis榜單前十隻有HiDream 8B作為開源模型入圍01 UiT 架構創新在 HiDream-O1-Image 之前，主流文生圖模型都選擇了一條“拼盤”路線。VAE 負責壓縮圖像，T5/CLIP 負責理解文本，DiT 負責生成。三件套各司其職，這種方案不可避免的後果就是信息損耗，每一次跨模塊的傳遞，都會丟失細節。而 HiDream-O1-Image 此番登頂 Artificial Analysis，其核心創新 UiT 架構正是瞄準了這一行業短板。HiDream 採用的 UiT 架構，把像素、文本、任務條件全部映射到了同一個 token space 進行端到端處理。換言之，砍掉 VAE 和獨立的文本編碼器之後，所有的信息都在一個空間內部流轉，最直接的好處就是信息損耗更少，效率更高了。基於這一項架構創新，HiDream-O1-Image 以 8B 的參數表現出了不遜於 Qwen Image 27B 參數的性能。這一點得到了技術報告和榜單排名數據的交叉印證，在多個指標上，HiDream 相對於後者保持了持平甚至領先。與此同時，UiT 原生支持多任務，文生圖、指令編輯、主題驅動個性化，一套架構全包。想用 Stable Diffusion 3.5 編輯圖像，需要加裝 ControlNet，Qwen-Image 則根本不支持指令編輯。目前 HiDream-O1-Image 在開源文生圖模型中，是獨一份的存在。但代價也很明顯，那就是原生架構不兼容現有生態。SD 3.5 有成熟的 LoRA 和 ControlNet，社區積累了數萬小時的微調經驗。反觀 HiDream 生態，ComfyUI 剛剛實現支持，Ostris 訓練工具也才就緒，工具鏈仍處在起步期。用戶面對的局面，就是原生的成熟 LoRA 尚且稀缺，從 SD 生態遷移的選擇又因為 checkpoint 格式不通用而被堵死。最殘酷的差距仍然來自 GPT Image 2，上面的問題對用戶而言都不復存在，所有的交互就是打開網頁、輸入 prompt。在文生圖模型走向落地的過程中，開箱即用本身就是一種至關重要，卻又常常被開源模型忽視的競爭力。HiDream在github上展示的demo02五維實測：HiDream-O1-Image 的能力邊界在哪光看技術報告沒意思，接下來看看 HiDream-O1-Image 在實際任務中表現如何。首先是為一款無糖氣泡水設計電商海報，用於即將到來的 618 促銷。我們要求 HiDream-O1-Image 針對不同投放平臺，分別生成1:1、3:4、16:9、9:16 四種比例的畫面，整體風格要清爽、年輕化。實測中四種比例的畫面都沒有翻車，這裡以 16：9 的版本為例，可以看到冰塊和水花四濺的效果相當自然，畫面非常清爽。更可圈可點的是文字部分，"0 糖也好喝"和"第二件半價"的文案渲染清晰準確。對於一款 8B 模型而言，可以說是超出預期。美中不足的是生成結果缺乏商業要素，平臺 logo、價格標籤和促銷信息都沒有，還達不到直接作為廣告投放的水準。在這一點上，GPT Image 2 和 Midjourney 的完成度顯然更高，差距就在對語境的理解上。當然，如果回到素材工具的維度衡量，HiDream-O1-Image 的生成和審美能力則已經完全勝任了。第二項測試是漫畫生成，這種多鏡頭場景覆蓋了漫畫創作、分鏡頭生成或遊戲資產的生產，同樣是文生圖模型距離落地最近的場景之一。而其中最關鍵的考量，就是模型能否在頻繁切換的鏡頭和視角下，維持住角色形象的一致性。在測試生成的四宮格漫畫中，可以注意到一個細節是，主角柴犬的紅色圍巾在四個畫面中都出現了，顏色、位置不變，紋理也基本一致，說明 HiDream-O1-Image 具備跨鏡頭保持視覺元素的能力。有意思的是，我們的提示詞雖然描述了畫面、情節，並向模型指出這是一則漫畫，但 HiDream-O1-Image 卻似乎無法理解漫畫對文字的包含關係，因此最初交付的生成結果只有圖片，需要我們手動添加指令“加入中文對白”。這和此前電商海報的測試任務某種程度上實現了互相印證，HiDream-O1-Image 在主動理解語境上，似乎力有不逮。在第三項測試中，我們要求 HiDream-O1-Image 生成一張面向初中生的水循環科普圖片，介紹包括蒸發、凝結、降水、地表徑流和地下滲透的水循環環節，並用箭頭展示先後順序。在圖解中，還需要用簡短中文標籤標註每個階段的名稱。這項任務涉及到複雜指令遵循，和複雜畫面元素對模型排版能力的考驗。在最終的五份交付結果中，有四張均準確無誤。下面是唯一齣現了錯誤的一張，其中地下滲透的水循環方向發生了顛倒。比起簡單的幻覺，這更像是某種常識錯誤。閉源模型得益於更長週期的 RLHF 與真實用戶反饋積累，在複雜排版、文本生成和信息層級控制上的穩定性更加突出。而相對地，常識一致性和複雜指令對齊能力仍然是今天開源模型和閉源模型最主要的差距之一。第四項測試是街景生成。這項任務的特殊之處在於，我們僅僅給出了對地點的簡單描述，如“上海舊城區街景”，要求模型自行補全，生成邏輯、元素合理的圖像。這考驗的是模型的世界知識。在實際測試中，我們選擇了東京澀谷、巴黎咖啡館、新加坡牛車水、上海弄堂、廣州騎樓、東京京都 6 個風格強烈且對比明顯的地點。比較有代表性的是左上角的巴黎咖啡館。深紅遮陽棚加金色字體、外擺的藤編咖啡椅配小圓桌，都是巴黎左岸咖啡館典型的視覺語言。空間邏輯上，最成功的一張當屬上排中間的新加坡水牛車街景，燈籠街的部分不僅在色彩飽和度上儘可能控制，而且整體街道透視非常穩定。從燈籠的排列就能看出這一點，燈籠之間距離幾乎保持一致，消失點也符合空間邏輯。美中不足的是，HiDream-O1-Image 雖然復刻了南洋騎樓和彩色店屋的建築風格，但是畫面中仍然能看出一些香港唐樓的影子，讓街景像是一種地域混搭的產物。論建築語言，最準確的一副是右上角的廣州騎樓。連續廊柱下的遮雨空間、混合立面、深進深商鋪都是鮮明的騎樓特徵，畫面中甚至還生成了雨天下的反光地面，很符合廣州多雨水的城市印象。對於大部分場景，HiDream-O1-Image 都能生成建築形態合理、空間邏輯在線的街景。但縱觀六個畫面，文字渲染混亂的“偽漢語”仍然層出不窮。其實法語也沒能逃過，左上角的巴黎咖啡館街景中，CAFE 的拼寫無誤，但左側的 OAMER 疑似無意義的字母組合。這也是一種“偽文字”的典型表現，也就是在缺乏具體文字內容指令的情況下，模型可以生成看起來像文字的紋理，但卻無關乎語義的完整與否。在最後一項測試中，我們要求 HiDream-O1-Image 為健身 APP 生成一份 UI 頁面，其中需要包括訓練計劃、卡路里消耗、課程卡片、底部導航欄等元素。這是最有迷惑性的一個測試。界面結構合理，組件對齊，乍看之下幾乎以為是真實的 UI 稿，但卻經不起細看。最明顯的問題是文字系統崩壞，熱量單位在同一個頁面裡出現了 “kcal / kcl / kcs / kal” 四種寫法，卡片標題和副標題重複，中文字體與英文排版體系完全不統一，佈局上也沒有突出應有的信息層級，重要區域只是靠“大數字 + 大圓角 + 熒光色”製造視覺衝擊，此外的人臉破碎更不必多說，真正的 UI 設計師手底下出不了這麼糙的活。與此同時，很多看似合理的內容其實只是視覺拼貼。例如“核心強化”配圖是一個人站著舉啞鈴，視覺上和訓練內容沒有直接關聯。事實上這仍然是對街景生成任務中，“偽文字”問題的重複，即在不理解真實語義的情況下，文字只是某種視覺紋理。038B 開源版，到底該跟誰比你能透過這份實測看到 HiDream-O1-Image 引起的幾乎所有爭議。在某些場景下，它確實以 8B 參數做到了 27B 的表現，UiT 的架構創新值得尊重。而在另一些場景，GPT Image 2 的統治力依然無可撼動，用 HiDream-O1-Image 去橫向對比，無異以卵擊石。但問題在於，這種對比本身是否合理？此次開源的 8B 版本更像是一個技術路線的驗證者，如果它的任務是證明 UiT 架構可行，那麼這一目的顯然達成了。但如果開發者社區拿到手之後，選擇直接對標 GPT Image 2，由於預期錯位導致的落差幾乎必然的。同樣的原因，此前 GPT Image 2 收穫了一邊倒的好評，也並非出於它的完美，而在於用戶和廠商對其定位達成了共識，一款付費使用的生產級工具。那麼回到探路者的角色，HiDream-O1-Image 表現如何？GitHub 兩週 443 stars，26 forks，6 個 open issues，對一個剛滿半個月的開源項目而言，這個熱度不算低。ComfyUI 支持，Reddit 上累計 100+ upvotes，Ostris 訓練工具就緒，技術報告上線 arXiv，就生態建設而言，動作也不算慢。縱觀整個文生圖模型生態，HiDream-O1-Image 的獨特位置在於，它有著最前沿的架構，模型本身的成熟度卻沒那麼高。雖然以 Elo 1187 的評分拿下了開源模型第一，但中文支持還要打上一個問號，生態建設也仍在起步階段，至於 LoRA、ControlNet 這些高階玩法更是暫時不用多想。回頭來看，HiDream-O1-Image 最大的價值，就在於它揭示了 UiT 架構是一條能走通的路。統一 token space 的效率優勢指向未來，此前的五維測試也暴露了邊界。如果說 8B 開源版本的使命是技術驗證和社區預熱，藉此看看 UiT 架構能做到什麼程度，那麼後續發佈的 Pro 版本，才是那個真正要和 GPT Image 2 一較高下的選手。8B 開源版是一扇窗，真正的風景還在 200B＋參數的 Pro 版本之後。雷峰網文章

原始來源：雷峰網 ↗

查看原始來源

IT之家生成式AI

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

OpenAI 最新報告顯示，ChatGPT 全球採用率持續擴大，非英語用戶佔比已超過一半。用戶地域分佈更廣，非洲和亞洲增速最快，35 歲以上用戶群體也在擴大。工作用途中，視覺設計任務增長最快。#ChatGPT##AI#

剛剛閱讀分析

雷峰網生成式AI

UC Berkeley Ken Goldberg 教授：具身數據規模落後十萬年，你仍然相信數據萬能嗎？| ICRA 2026

雷峰網訊數以十億計的資金湧入具身智能行業，與此同時，這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下，VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈，以至於某種程度上，甚至帶上了意識形態的色彩。這成為了本屆國際機器人與自動化會議（ICRA）現場最引人關注的話題。在會議第二天，UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講，發表了他對具身數據採集、數據飛輪、GAP 系統，以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。過去幾年，隨著 ChatGPT、視覺語言動作模型（VLA）和人形機器人熱潮興起，依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律，人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻，乃至真正的通用機器人。對此，Ken Goldberg 提出了靈魂之問：什麼時候？“如果按照人類平均閱讀速度計算，閱讀完今天訓練大型語言模型所使用的全部數據，大約需要10萬年。而換算到機器人領域，我們目前積累的數據總量，大概只相當於幾年的規模。”具身智能數據鴻溝的抽象討論背後，是一組恐怖的對比數據。Ken Goldberg 相信，這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程，在一條更可靠的具身落地路徑上，工程架構、模塊設計和物理建模仍然不可替代。在演講中，Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率，到構建大規模仿真數據集，再到訓練神經網絡完成真實世界抓取，這個近十年前的嘗試對於今天的具身

2 小時前閱讀分析

雷峰網生成式AI

殺上閉源前沿，國產最強已經無法滿足 GLM-5.2 了

雷峰網訊過去一週，AI 開發者圈討論的焦點，已經不只是誰又發佈了更強的模型，而是一個更現實的問題，誰還能穩定地調用到最強的模型？隨著美國對於 Fable 5 調用的限制，頂級閉源模型的可獲得性終於成為了懸在開發者頭上的不確定因素。特別是對於已經把大模型深度接入代碼生成、Agent 工作流和企業應用的團隊來說，一個模型哪怕性能再強，只要存在訪問受限、策略調整、價格波動或突然下架的風險，就跟“可靠的基礎設施”不沾邊了。OpenRouter 給出了一種解法，即不要押注單一最佳模型，而是通過多模型協作和模型路由，在不同任務之間動態切換能力最合適的模型。這代表了應用層的一種新趨勢，當最強模型不可控時，開發者開始追求可替代、可組合、可持續的模型系統。就在這個背景下，6 月 17 日 GLM-5.2 的發佈格外觸動神經。硅谷最頂級的風投機構之一a16z 的聯合創始人 Marc Andreessen 在十天後於X 上發文稱，「許多聰明人和 AI 圈內人認為，GLM-5.2 是第一個能夠無妥協地匹敵、甚至超越美國大實驗室公開模型的中國 AI」，並特別點出：「時機妙極，恰逢當下。」這句評價更重要的意義或許在於，他轉述的，正是硅谷圈子裡正在形成的共識—開源的中國模型，在能力上做到了和美國頂級實驗室同臺競技。根據智譜 AI 官方文檔，GLM-5.2 整體表現介於 Claude Opus 4.7 與 Opus 4.8 之間，在 FrontierSWE 等長程編程任務上表現尤其突出，僅落後 Opus 4.8 約 1%，同時超過 GPT-5.5 和 Opus 4.7。另有社區討論也將其視為目前開源模型陣營中，最接近頂級閉源模型的一次躍遷。馬斯克預測智譜大模型大約在 2027 年 Q1 達到 Fable 5，唐傑本人親自下場回覆：用不了那麼久。在一個頂級模型供給越來越不穩定的時間點，開發者擁有了新的可

2 小時前閱讀分析

雷峰網生成式AI

國產 Coding 爭霸賽：MiniMax 爆冷登頂，DeepSeek 性價比稱王

雷峰網訊你很難把 Coding 僅僅視為大模型的諸多能力維度之一。和單純的文本或圖像生成相比，代碼更明確的規則、嚴格的語法和可驗證的結果只是部分原因。更為特殊之處在於，在 ChatBot 到 Agent 這條進化鏈上，Coding 意味著的工具調用、數據處理和複雜流程自動化，幾乎承載了模型從“會說”走向“能幹”的絕大部分期待。一個值得關注的變化是，Coding 正在從眼花繚亂的 Benchmark 榜單中脫穎而出，成為一種模型競爭的基礎設施級指標。無論 OpenAI、Anthropic、Google 還是其他廠商，在發佈新模型時幾乎都會將 Coding 場景作為大秀肌肉的選擇。某種意義上，這就是正在形成中的行業共識，即代碼能力不僅意味著編程水平，更是衡量模型邏輯推理、工具使用和實際生產力的重要角度。我們也很好奇，國產模型如今在 Coding 這條卷生卷死的賽道里已經進化到了何種程度。為此我們選擇了五款以編程能力見長的國產模型，包括 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3，將它們放進同一個真實工程任務的場景裡，並讓 Claude Opus 4.7 擔任裁判模型，從可運行性、正確性、可讀性、可維護性四個維度量化評分。接下來就看看，各家模型的表現如何。編者注：此次測試選用模型，為截至 2026 年 6 月 10 日各家最新款旗艦模型，故隨後發佈的 Kimi K2.7 及 GLM-5.2 均未參賽。對上述兩款模型的測試也將陸續發佈，歡迎關注。01不寫八股文，真正的壓力測試Coding 能力的測試也大有講究。HumanEval、MBPP 這些業界常見的 Coding Benchmark，本質上都在測試模型會不會寫代碼。最常見的模式就是給出一道算法題，看模型能不能給出正確的解法。只能說程序員有自己的八股文

2 小時前閱讀分析

雷峰網生成式AI

阿里速賣通首次公佈618中國品牌出海成交榜

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器此為臨時鏈接，僅用於文章預覽，將在時失效業界正文發私信給徐咪發送 0 阿里速賣通首次公佈618中國品牌出海成交榜本文作者：徐咪 2026-07-01 13:00 導語：阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜，覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍；家電品類阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜，覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍；家電品類中，泳池清潔機器人SEAUTO以黑馬之姿躋身第四；李寧、特步、361°穩居中國出海運動鞋服品牌前三。今年618大促，速賣通品牌成交同比增長90%，品牌成交滲透近40%，進一步鞏固品牌出海全新主場地位。 0人收藏分享：徐咪編輯發私信當月熱門文章藍信發佈2026全棧AI新品，打造100%國產化政企智能辦公新範式美團電話會：“小美”與騰訊“元寶”的合作將於近期上線騰訊雲護航全球16個國家及地區世界盃直播，AI技術首次在世界盃大規模應用 SoulAgent 即將亮相北京智源大會，探索個人智能體在知識服務場景中的應用美團發佈AI瀏覽器Tabbit 1.0，可自動執行各類任務最新文章百花獎聯合即夢AI首設AIGC推優單元，即日啟動全球徵集他山科技聯合圖靈獎得主薩頓共建“機器人幼兒園”，具身智能從“模仿時代”邁向“經驗時代” UC Berkeley Ken Goldberg 教授：具身數據規模落後十萬年，你仍然相信數據萬能嗎？| ICRA 2026 殺上閉源前沿，國產最強已經無法滿足 GLM-5.2 了國產 Coding 爭霸賽：MiniMax 爆冷登頂，DeepSeek

3 小時前閱讀分析

雷峰網生成式AI

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄：砍掉 VAE，是圖像模型的未來嗎？

雷峰網訊 “8B 開源版是一扇窗，真正的風景還在 200B＋參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版（8B）發佈之後，我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前，今天 1.5 閉源版本又和公眾見面了。珠玉在前，HiDream-O1-Image-1.5 可以說是備受矚目，而智象未來的官方口徑很大程度上回應了這種期待：“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力，更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績，你就知道這不是一句空話。已躍升至文生圖模型排名的第3位，超越了Google的Nano Banana 2，僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分，展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構，也在新版本中繼續大放異彩。但今天我們不聊榜單，1.5 版本提出了兩個更值得關心的問題是，一個圖像模型到底需不需要“先想再畫”？以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯？01八維評測拆解：複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手，不碰一下，實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義，我這次把它和 Nana Banana 2 放在了同一條起跑線上，用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話，我把圖像模型能力拆成了八個維度：▪ Prompt 遵循度：能否準確執行文字指令要求▪ 構圖能力：鏡頭組織和視覺重心▪ 攝影語言理解：景深、

4 小時前閱讀分析

相關文章

OpenAI：ChatGPT 全球採用率持續擴大，非英語用戶佔比過半

UC Berkeley Ken Goldberg 教授：具身數據規模落後十萬年，你仍然相信數據萬能嗎？| ICRA 2026

殺上閉源前沿，國產最強已經無法滿足 GLM-5.2 了

國產 Coding 爭霸賽：MiniMax 爆冷登頂，DeepSeek 性價比稱王

阿里速賣通首次公佈618中國品牌出海成交榜

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄：砍掉 VAE，是圖像模型的未來嗎？