會寫字、懂排版、能分鏡：HiDream-O1-Image-1.5 全能圖像生成能力解析

2026年6月10日 15:43

重點摘要

站內 AI 整理稿

近日，智象未來（HiDream.ai）全新推出的商用版圖像生成模型 HiDream-O1-Image-1.5 再次實現 SOTA，在全球知名獨立 AI 模型評測與分析平臺 Artificial Analysis的文生圖榜單（Text to Image Leaderboard）上，一舉登上中國圖像生成模型第一，成為評分僅次於OpenAI的中國大模型公司，超越Google Nano Banana 2（Gemini 3.1 Flash Image Preview）、NVIDIA Cosmos3-Super-Text2Image 和字節跳動的Seedream 4.0等國內外大廠的主流圖像生成模型。半個月前，智象未來 HiDream-O1 系列的開源模型 HiDream-O1-Image-Dev-2604 剛剛登頂文生圖榜單開源模型全球第一。數週之後，HiDream-O1-Image-1.5再次進入全球文生圖大模型榜單前三，連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力，更標誌著其已在視覺生成大模型的角逐中穩居全球第一梯隊陣營。Artificial Analysis 的 Text to Image Leaderboard 採用匿名對比、用戶投票和ELO動態排名機制，儘量減少品牌認知對評測結果的影響，更接近真實用戶在開放生成場景中的偏好判斷，在這一專業評測體系下，HiDream-O1-Image-1.5在超過4000 個樣本對比中取得1265 ELO。HiDream-O1-Image-1.5 的表現不僅體現了模型在圖像質量上的競爭力，也反映出其在語義遵循、複雜畫面生成、文字渲染和多主體控制等綜合能力上的提升。HiDream-O1-Image-1.5 的再度 SOTA, 不只是中國領先大模型公司的又一次全球榜單領先，它更標誌著智象未來在業內率先把創新的原生全模態架構Unified Transformer (UiT)從“技術驗證”推進到“生產驗證”，是 HiDream將底層架構優勢轉化為視覺生產力工具的關鍵一步：開源版本證明了像素級原生全模態架構可以在開放評測和開發者社區中跑通，HiDream-O1-Image-1.5 商用版本則進一步面向廣告營銷、品牌設計、電商視覺、遊戲內容、影視分鏡、IP 創作等更高要求的商業場景，全面展示了強化的圖像質量、文字渲染、複雜排版、多主體一致性和視覺敘事能力。接下來，真正值得關注的，是它在真實內容生產任務中的表現。01 會寫字、懂排版、能分鏡，HiDream-O1-Image-1.5 展現全能圖像生成能力1. 人像攝影生圖實例：攝影級畫質與多風格表達在人像生圖場景中，HiDream-O1-Image-1.5 展現出穩定的攝影級畫質和多風格適配能力。從魔幻光影、雙人互動到人物特寫，模型在皮膚質感、服飾紋理、肢體關係和環境虛化等細節上表現自然；即使面對廣角、低機位、室內暖光等複雜構圖，也能保持人物比例、空間透視與畫面敘事的協調。體現出面向商業人像、品牌視覺和影視分鏡等高要求場景的強交付能力。 2. 動物生圖實例：運動形態與自然環境的精細建模在動物生圖場景中，HiDream-O1-Image-1.5 展現出對主體形態、運動狀態與自然環境的精細建模能力，在動物結構、皮毛質感、動態表現及複雜光照、水下折射等高難度畫面中保持真實感與視覺衝擊力，體現出面向自然影像、品牌視覺、遊戲資產和創意內容生產等場景的生產級交付能力。3. 自然風光生圖實例：空間與光影變化的精細捕捉在自然生圖場景中，HiDream-O1-Image-1.5 展現出對大場景空間層次、光影變化與環境氛圍的精準控制能力，在雪山湖泊、沙漠駝隊、晶體洞穴等複雜地貌與多光源場景中保持縱深感、電影感和細節表現，體現出面向旅遊視覺、影視概念圖、遊戲場景和品牌傳播等複雜商用場景的穩定交付能力。4. 多種藝術風格：精確的風格理解與視覺表達在多風格藝術生成場景中，HiDream-O1-Image-1.5 展現出優秀的風格理解、語義遵循與視覺表達能力，可在日系插畫、動漫戰鬥、卡通海報和國風武俠等風格間準確切換，並保持角色造型、構圖關係、動作節奏與畫面氛圍統一，同時在複雜姿態、動態特效和基礎文字渲染上具備較強穩定性。可為 IP 創作、漫畫分鏡、遊戲美術、品牌創意視覺提供高效的生產支持。 5. 電商海報生圖實例：複雜畫面與文字信息無縫融合在電商海報生成場景中，HiDream-O1-Image-1.5 展現出對商品主體、版式結構與文字信息的綜合把控能力，可針對不同品類快速匹配視覺風格，並自然融合商品、場景、裝飾元素與營銷文案；在中英文混排、多層級賣點和複雜排版任務中，仍能保持較高的文字可讀性、畫面完整度與商業質感，顯著提升廣告營銷、電商上新、社媒種草和品牌物料製作效率。6. IP形象設計：多視角生成與角色一致性在 IP 形象設計場景中，HiDream-O1-Image-1.5 展現出對角色設定、表情變化與多視角一致性的穩定控制能力，可圍繞同一角色生成多角度視圖和多種情緒表情，並保持五官、髮型、服飾與整體風格統一，呈現豐富的性格與表現力，可顯著提升 IP 設定、角色三視圖、動畫前期、美術資產和品牌吉祥物開發的效率。7. 多宮格/分鏡設計圖：穩定敘事理解與連續畫面生成在多宮格與分鏡設計場景中，HiDream-O1-Image-1.5 展現出對連續敘事、畫面順序與信息層級的理解能力，可在工具流程、任務推進、兒童繪本和冒險故事等多畫面內容中生成邏輯連貫的分鏡畫面，並保持角色、場景與視覺風格統一；同時對宮格佈局、編號、標題和關鍵文字具備較強組織能力，可為影視分鏡、漫畫創作、廣告腳本、教育內容和短視頻腳本視覺化提供高效支持。8. 多層次複雜文字渲染能力：多語言，多結構的綜合生成能力在多層次複雜文字渲染任務中，HiDream-O1-Image-1.5 展現出對多語言文本、信息結構與視覺場景的綜合生成能力，可將海報、計劃書、結構拆解圖、課堂白板、直播界面和數據看板等內容自然嵌入對應場景，併兼顧排版秩序、圖文關係與整體美感；面對中英文混排、數字公式、圖表信息和多級標題等複雜需求，仍能保持較好的可讀性與版面穩定性，拓展了其在廣告設計、辦公協作、電商詳情頁和教育培訓等場景的實用價值。02 原生全模態進入生產驗證階段，HiDream-O1-Image-1.5持續放大UiT 架構優勢HiDream-O1-Image-1.5 的表現，進一步證明了智象未來在原生全模態路線上的架構創新優勢和快速迭代能力，HiDream-O1 系列（8B 開源版、Pro 版到 1.5 商用版）已經形成清晰而高效的能力演進曲線。傳統文生圖模型通常採用“文本編碼器 + VAE + DiT / 擴散模型”的模塊化路徑，其形態更像一棵不斷分叉生長的樹：文本有自己的 tokenizer，圖像和視頻有各自的 encoder / decoder，音頻、動作、空間關係也往往沿著不同路徑被處理，模塊之間需要多次轉換信息。在文字密集排版、UI 頁面、多主體生成、多參考圖控制、多分鏡敘事等複雜任務中，也更容易帶來細節損耗、語義錯位和結構不穩定。HiDream-O1 原生全模態架構走的是另一條路線：真正的“原生全模態”，不是各個模態長大之後二次拼接，而是從原生初始階段就像“青梅竹馬”一般在模型底層水乳相融。HiDream-O1 的 Image系列模型剔除了傳統路徑中的 VAE 和獨立文本編碼器，將圖像像素、文本 Token、視頻體素以及音頻、動作、空間關係等原始信號映射進同一個共享 Token 空間，直接與同一套 UiT——像素級統一的 Unified Transformer 交互，在統一表徵系統中完成理解、生成和推理。以下為X平臺Artificial Analysis 官方賬號發佈的一組對比效果圖：這也是 HiDream-O1 能夠在複雜圖文融合、文字渲染、多主體一致性和分鏡敘事等任務中持續進階的關鍵。當所有模態在底層被真正打通，模型才有可能走向真正的“Any to Any”：任意輸入支持任意輸出。這不僅是圖像生成模型的能力升級，也是世界模型所需要的基礎能力——在統一架構中理解、生成並預測現實世界的不同狀態。HiDream-O1-Image-1.5 的快速進階，正是對原生全模態這一路線可擴展性的堅實驗證。03 持續架構創新，構建原生全模態世界模型智象未來始終認為，圖像是通向視頻生成和全模態世界建模的重要入口。一張圖像承載著現實世界某一時刻的主體、空間、材質、光影、文字和關係；只有穩定理解並生成這些狀態，模型才有可能進一步處理連續時間中的運動、因果、鏡頭和敘事。HiDream-O1-Image-1.5強勢表現說明，基於像素級原生統一架構的路線，正在把圖像生成模型的競爭從“更大參數”和“更好看畫面”，推進到由架構能力、生產效率和工作流價值共同決定高度的新階段。它不僅提升了單圖生成效果，也為多圖一致性、分鏡生成、視頻首幀、圖像編輯乃至未來長視頻生成提供了更穩定的底層能力，進一步證明了中國大模型企業參與全球頂級打模型競爭的實力，也驗證了 UiT 原生統一架構作為下一代多模態模型堅實底座的可行性。面向未來，智象將繼續沿著原生全模態技術路線推進模型迭代，加速圖像、視頻、動作等多模態能力的融合，推動生成式人工智能技術深入落地到內容創作、商業營銷、影視創作、遊戲生產等全模態智能體的真實應用場景。從單張圖像生成的入口到連續世界建模，智象未來正在以持續的底層架構創新，構建下一代內容生產與智能交互的人工智能基礎設施。歡迎通過以下鏈接體驗HiDream-O1-Image-1.5 ：https://vivago.ai/https://hiharness.ai/開源模型HiDream-O1-Image下載地址：GitHub：https://github.com/HiDream-ai/HiDream-O1-ImageHuggingface：https://huggingface.co/HiDream-ai/HiDream-O1-Image和Nano Banana 2對比Prompt：一張高端中國白酒的奢華電商海報。正中央矗立著一個純淨、半透明的羊脂玉瓷瓶。在瓶身的曲面上直接浮雕著一首八句中文古詩：“昔人已乘黃鶴去，此地空餘黃鶴樓。黃鶴一去不復返，白雲千載空悠悠。晴川歷歷漢陽樹，芳草萋萋鸚鵡洲。日暮鄉關何處是？煙波江上使人愁。”雕刻的文字內部鑲嵌著精緻、閃爍的金箔，正捕捉著光線。酒瓶放置在一塊粗糙的黑板巖上，半浸在清澈見底的淺水池中，水面盪漾著柔和的同心漣漪。美麗的液體焦散光影和反光在瓶底跳躍。在深度虛化的背景中，有微型盆景松樹和薄霧。戲劇性的邊緣輪廓光，商業產品攝影。Prompt: An adorable, candid photograph of a curious kitten exploring a lush, green garden, with oversized flowers and foliage creating a whimsical, fairy-tale atmosphere.Prompt: 在一個燈光昏暗、煙霧瀰漫的審訊室裡，一張氣氛緊張的過肩鏡頭（OTS）電影劇照。在極度靠前的前景中，佔據畫面左側三分之一的是偵探肩膀和側臉的嚴重失焦剪影。相機的焦點完全鎖定在背景中坐在金屬桌對面的嫌疑人身上。嫌疑人是一個疲憊的賽博格，擁有發光的紅色光學植入物，被頭頂搖晃的刺眼聚光燈照亮。極淺的景深在模糊的前景審訊者和細節銳利、滿頭大汗的嫌疑人面部之間形成了強烈的光學分離。85mm鏡頭，f/1.4大光圈。

原始來源：雷峰網 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

19 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析

36氪生成式AI

微軟，考慮接入DeepSeek

這篇消息聚焦「微軟，考慮接入DeepSeek」。原始導語提到：Copilot Cowork轉為按量計費。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前閱讀分析

相關文章