雷峰網生成式AI

HiDream-O1-Image-1.5 刷新國產圖像生成模型紀錄:砍掉 VAE,是圖像模型的未來嗎?

2026年7月1日 03:55

重點摘要

雷峰網訊 “8B 開源版是一扇窗,真正的風景還在 200B+ 參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版(8B)發佈之後,我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前,今天 1.5 閉源版本又和公眾見面了。珠玉在前,HiDream-O1-Image-1.5 可以說是備受矚目,而智象未來的官方口徑很大程度上回應了這種期待:“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力,更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績,你就知道這不是一句空話。已躍升至文生圖模型排名的第3位,超越了Google的Nano Banana 2,僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分,展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構,也在新版本中繼續大放異彩。但今天我們不聊榜單,1.5 版本提出了兩個更值得關心的問題是,一個圖像模型到底需不需要“先想再畫”?以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯?01八維評測拆解:複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手,不碰一下,實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義,我這次把它和 Nana Banana 2 放在了同一條起跑線上,用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話,我把圖像模型能力拆成了八個維度:▪ Prompt 遵循度:能否準確執行文字指令要求▪ 構圖能力:鏡頭組織和視覺重心▪ 攝影語言理解:景深、

站內 AI 整理稿

雷峰網訊 “8B 開源版是一扇窗,真正的風景還在 200B+ 參數的 Pro 版本之後。”智象未來 HiDream-O1-Image 開源版(8B)發佈之後,我在測評最後留下了這樣一句判斷。前者以 Peanut 匿名登上 AA 榜、拿下文生圖開源模型全球第一的事蹟猶在眼前,今天 1.5 閉源版本又和公眾見面了。珠玉在前,HiDream-O1-Image-1.5 可以說是備受矚目,而智象未來的官方口徑很大程度上回應了這種期待:“連續登頂不僅印證了智象未來在圖像生成大模型上的硬核實力,更標誌著公司已穩居全球視覺生成大模型的第一梯隊”。看過 1.5 版本在 Artificial Analysis 榜單上的成績,你就知道這不是一句空話。已躍升至文生圖模型排名的第3位,超越了Google的Nano Banana 2,僅次於OpenAI的兩款模型。它與排名第二的GPT-Image 1.5綜合評分差距僅有1分,展現了強勁的競爭力。此前在 HiDream-O1-Image 上初露鋒芒的 UiT 架構,也在新版本中繼續大放異彩。但今天我們不聊榜單,1.5 版本提出了兩個更值得關心的問題是,一個圖像模型到底需不需要“先想再畫”?以及砍掉 VAE 這件事到底改變了文生圖的什麼底層邏輯?01八維評測拆解:複雜 Prompt 下的真實優勢Google Nano Banana 曾經是文生圖賽道最有存在感的選手,不碰一下,實在不好意思給自己加冕新王。HiDream-O1-Image-1.5 的單獨展示已經沒什麼意義,我這次把它和 Nana Banana 2 放在了同一條起跑線上,用完全相同的 prompt 做三組盲測。為了不讓評價變成“我覺得好看”這種沒法對焦的廢話,我把圖像模型能力拆成了八個維度:▪ Prompt 遵循度:能否準確執行文字指令要求▪ 構圖能力:鏡頭組織和視覺重心▪ 攝影語言理解:景深、焦點、鏡頭參數等概念▪ 材質表現:如光影、反射、紋理等▪ 細節準確性:文字、結構、生物解剖等硬指標▪ 氛圍塑造:情緒與環境營造▪ 主體設計能力:自由發揮情況下,主體表現力的高級程度▪ 以及商業完成度:能不能直接用測試結束後我拿到了六份生成結果,但我隱去了它們分別出自誰手。你可以在閱讀過程中先猜猜,看看判斷和真相是否一致。第一組測試是生成一張白酒產品圖。Prompt:一張高端中國白酒的奢華電商海報。正中央矗立著一個純淨半透明的羊脂玉瓷瓶。在瓶身的曲面上直接浮雕著一首八句中文古詩——崔顥的《黃鶴樓》。雕刻的文字內部鑲嵌著精緻閃爍的金箔。酒瓶放置在一塊粗糙的黑板巖上,半浸在清澈見底的淺水池中,水面盪漾著柔和的同心漣漪。焦散光影在瓶底跳躍。背景有微型盆景松樹和薄霧。邊緣輪廓光,商業產品攝影。1.11.1 的第一印象很驚豔,這就是奢侈品廣告的畫風,玉瓷材質的光澤和水面效果也很到位,讓人覺得下一幀就要切到觥籌交錯的商務宴請上。但文生圖模型最怕細看,如果你盯著瓶身上的文字,問題就出來了。古詩嚴重錯誤是最明顯的,浮雕的層次感也模糊成一片。它在視覺創造力和材質表現上幾乎滿分,但細節準確性實在不夠看。而細節恰恰是這組 prompt 關注的重點。好看、寫字精確,1.1 在第一條上做到了極致,但在第二條上幾乎放棄了。1.2與之相對,1.2 在複雜中文文字渲染上的優勢就更加突出。你可以看到《黃鶴樓》的全詩被比較完整地呈現,文字排列也更接近真實產品包裝上的豎排中文視覺效果,最直觀的感受就是更可讀、內容關係更明顯。詩詞全文的呈現,或許是一種相對少見的需求,但它本質上是產品廣告圖這類場景對信息準確性的壓力測試。相比 1.1 中文字出現的明顯錯亂、重複、錯字和語義斷裂,1.2 的穩定呈現已經跨越了落地的鴻溝,在此之上才有討論視覺效果的空間。在這一維度上,1.2 同樣不令人失望,玉瓷瓶體、浮雕文字、金色裝飾、瓶身高光的塑造都審美在線。第二組測試是生成一張小貓在花園裡的照片。提示詞用英文寫成,原文及翻譯如下:prompt:An adorable, candid photograph of a curious kitten exploring lush green gardens, with oversized flowers and foliage creating a whimsical fairy-tale atmosphere.翻譯:一張可愛而自然抓拍的照片:一隻充滿好奇心的小貓正在鬱鬱蔥蔥的綠色花園中探索,周圍碩大而繁盛的花朵與枝葉營造出夢幻般的童話仙境氛圍。2.12.1 在這組裡的表現很有趣。它完美還原了 oversized flowers 的視覺衝擊,對花朵巨大、色彩飽和、童話氛圍這些畫面元素的把握,都無師自通。此外光影處理也很棒,陽光穿過葉片的方式有真實攝影感。要說有什麼問題,就是小貓和環境沒什麼交互,不要說玩弄花草,它甚至不像在看路,眼神踏實得像在自己窩裡。另外,作為主體的小貓在畫面裡也相對偏小,視覺中心容易被大葉片和花叢分散,存在感稍弱一些。2.22.2 的主體辨識度就強上許多,生成的小貓眼神、姿態和身體結構清晰,“curious kitten”的好奇感躍然其上。此外小貓面部焦點明確,五官、毛髮、四肢關係也更自然,保留了真實動物攝影的質感。整體構圖上,2.2 在畫面右側同時保留了放大的花朵、蘑菇、綠色植物等童話元素,但沒有讓環境壓過主體。這種對主體清晰和氛圍營造進行取捨之後得到的平衡,也是一大亮點。第三組測試,我打算設計點展現模型創造力的。科幻題材是個不錯的選擇,我讓兩款模型分別生成了一個賽博格接受審訊的畫面。prompt:在一個燈光昏暗、煙霧瀰漫的審訊室裡,一張過肩鏡頭(OTS)電影劇照。前景左側三分之一是偵探肩膀和側臉的嚴重失焦剪影。焦點鎖定在背景中坐在金屬桌對面的嫌疑人——一個疲憊的賽博格,擁有發光的紅色光學植入物,被頭頂搖晃的刺眼聚光燈照亮。極淺的景深在模糊前景和銳利的嫌疑人面部之間形成強烈光學分離。85mm 鏡頭,f/1.4 大光圈。3.13.1 在這組的表現最均衡。OTS 鏡頭角度標準,前景虛化到位,景深控制準確,攝影語言理解上這已經時滿分的水平。同樣值得一提的是審訊室的氛圍感和燈光效果也能看出是經過設計的,在物理準確性之外,也很好地發揮了敘事功能。你能看出這是一個審訊場景,知道誰是權力方。3.23.2 的表現也難分伯仲。前景人物虛化形成壓迫感,焦點集中在嫌疑人身上,畫面敘事關係清晰,同樣一個 OTS 鏡頭拍出了電影級的質感。值得注意的是,Prompt 明確要求 85mm、f/1.4、大光圈、極淺景深。3.2 的輸出更明顯地體現了前景虛化和背景主體清晰的光學分離,這說明模型不僅識別關鍵詞,還能把鏡頭參數轉化為畫面效果。這對於影視分鏡、廣告片預演、概念視覺生成非常關鍵。另一個亮點是主體設計。此前 3.1 的賽博格設計偏保守,機械細節不夠豐富,只是象徵性地在人體上加了幾處發光物。而 3.2 中的賽博格則有著更豐富的機械細節、更具質感的光學植入物。這種對主體的強調和突出似乎和上一個任務中的小貓一脈相承,模型能夠理解畫面的重點、敘事的中心在哪裡。那麼回到本節開頭的問題,作者是誰?此前每組的第一張是 Nano Banana 2,第二張則是 HiDream-O1-Image-1.5 的作品。到此為止,兩款模型的能力畫像都變得逐漸清晰。在開放審美任務中,二者都已達到很高水準。但當評測標準從主觀好看轉向準確、穩定、可交付,HiDream 的優勢會更清晰。Nano Banana 2 像一個藝術家,懂攝影語言,構圖能力在線,偶爾還能主動發揮一下創意,這些能力共同塑造了其作品中恰到好處的氛圍感。但缺點也在捉摸不定的創意上,它給人一種“意譯”而非直譯 prompt 的感覺,文字類任務的準確率並不穩定。給出一個需求,它會按自己的審美給你一套方案。未必 100% 按描述來的意思是,用抽卡成本交換潛在的驚喜。而 HiDream-O1-Image-1.5 則是一個工程師,文字理解準確、細節執行嚴格、物體真實感高。你說什麼,它就做什麼,交付物絕不出錯。不過這種能力取向的不同,並沒有在兩款模型之間造成碾壓式的差距。在標準 Benchmark 下,兩者總體水平其實非常接近。HiDream-O1-Image-1.5 和 Nano Banana 2 的對比做到最後,我體感上不像在測試模型,更像是在測試選型。02CoT 推理層:Prompt 和像素之間的翻譯上面三組盲測反映出的一個核心差異,是模型對於 prompt 的理解深度。從白酒廣告的中文古詩,貓貓花園對“curious kitten”的獨特理解,到賽博格審訊室對“一個疲憊的賽博格”的語言約束,1.5的響應更真實,更細節。這背後是HiDream-O1-Image-1.5 所採用的 “先推理、後生成”機制。該機制基於 Gemma 4 的 Reasoning-Driven Prompt Agent模塊,嵌入在生成管線內部,在用戶按下生成按鈕後、擴散模型開始工作前,先跑一輪思維鏈。這跟 ChatGPT 的 system prompt 有本質區別。ChatGPT 的推理層在純文本空間跑,優化的是“回答的邏輯一致性”。而 1.5 的 Prompt Agent 做的是從語義到空間的翻譯。如果你做過需要同時控制主體、環境、情緒和構圖的複雜生圖任務,就能直觀感受到這個 Agent 在解決什麼痛點。直白地說,以前你需要靠反覆調 prompt 撞運氣的任務,現在 HiDream-O1-Image-1.5 在生成之前就會先幫你把畫面邏輯理清楚。賽博格審訊室那組對比最能說明問題。“OTS + 淺景深 + 85mm f/1.4 + 賽博格 + 聚光燈”,這麼多高信息密度的指令如果一股腦塞進傳統文本編碼器,編碼器不會自動為這五個約束分配權重,很可能出現的情況是它會過度關注“賽博格”而忽略“OTS鏡頭”,或者過度渲染聚光燈效果而丟掉“淺景深”的質感。但 HiDream-O1-Image-1.5 的 Agent 在推理階段就把這五個約束分開處理了。鏡頭語言是 OTS、光學參數是 85mm f/1.4、氛圍是聚光燈照明、主體是賽博格,各管各的,最後彙總。當然,這裡有一個重要的前提條件。CoT Agent 解決的是指令理解問題,而非常識儲備。如果 prompt 沒提供足夠信息讓 Agent 推理,它仍然不會憑空生成正確邏輯。如果你只說“水往低處流”,它仍然無法渲染複雜的流體變化,Agent 推理能力的邊界,就是你 prompt 的信息邊界。03無 VAE 架構:為什麼砍掉壓縮層會利好文字和細節CoT 解決了“理解”,但還有一個更底層的改動,解釋了為什麼 HiDream-O1-Image-1.5 的長文本渲染能達到 CVTG-2K 的 0.978,超越 GPT Image 2 的 0.961,以及為什麼白酒產品圖任務中只有 1.2 把崔顥的《黃鶴樓》從筆畫到結構完整還原了出來。在 HiDream-O1-Image之前,幾乎所有主流文生圖模型都是拼盤式的:VAE 壓縮圖像,T5/CLIP 理解文本,DiT 負責生成。VAE 的工作方式是把一張 1024×1024 的圖編碼到一個小得多的潛空間(latent space),比如壓縮 8 倍,在潛空間跑擴散,最後解碼回原尺寸。這樣做的好處很明顯,計算量驟降,64×64 潛空間的擴散比 1024×1024 像素空間快不止一個數量級。但壓縮必然丟信息。而 VAE 丟掉的,恰好是文生圖場景下最不能丟的兩類。第一類是高頻細節。 VAE 在頻域上傾向保留低頻結構(物體輪廓、色塊分佈),壓縮高頻紋理(邊緣銳度、細線、毛髮)。這就是 SD 生成的圖放大看經常有“塗抹感”的原因,問題都沒跑到生成環節,因為在解碼階段高頻信息就已經被丟了。第二類是文字,這是更致命的。文字在圖像裡是一種極其脆弱的信號,它的辨識依賴精確的筆畫邊界和方向。“一”和“丨”只差 90 度的旋轉,“士”和“土”只差幾個像素的偏移。VAE 壓縮對這類信號近乎災難,壓縮到重建的過程中,筆畫端點模糊、拐角圓化、間距偏移幾乎是肯定的。在這裡文字“缺胳膊少腿”不是修辭,是 VAE 壓縮的必然副作用。HiDream 的 UiT(像素級統一 Transformer)架構直接砍掉了 VAE。所有信息——像素、文本 token、控制條件——映射到同一個 token 空間。沒有了“壓縮-重建”這個環節,文字信號從 prompt 到像素全程在一個空間內流轉。回到三組盲測。白酒產品圖最能體現無 VAE 的價值。1.2 的畫面在玉瓷材質的光澤感、焦散光影的銳度、金箔鑲嵌的紋理細節上都表現出極高的還原度。1.1 的構圖更大膽,但在材質銳度和細節密度上明顯不如 1.2,部分原因就在於競品使用的 VAE 壓縮削平了一些高頻細節,讓畫面少了那層真實物料的質感。古詩文字渲染則是更直接的證據。1.1 的古詩完全寫錯,並不是因為它不知道怎麼佈局,而是 VAE 壓縮把中文字符的關鍵筆畫特徵破壞後,擴散過程只能“腦補”出近似文字的紋理,而非可辨識的字體。HiDream-1.5 砍掉了 VAE,文字信號從 prompt 到像素全程在同一個 token 空間流轉,這也是 1.2 能把黃鶴樓全詩完整寫出來的根本原因。在中文場景下,這個問題被進一步放大。英文單詞靠輪廓也能猜出大概,像是“ca_e”和“cake”,但中文單字完全依賴筆畫完整性。上次測 8B 時頻繁出現的“偽漢語”就是這麼來的。HiDream-1.5 的長文本渲染數據,揭示了一個相當底層的洞察,那就是想要穩定輸出可讀文字,目前解法只有兩條,要麼堆參數量補償 VAE 損耗(FLUX 的 56B 路線),要麼直接砍掉 VAE。HiDream 選了後者,8B 開源版已經做到了比肩 56B 的渲染效果,1.5 在此基礎上繼續推高上限。而且此前 8B 開源版的性價比確實離譜,在 GenEval、DPG、HPSv3 等多個榜單上,8B 不僅秒殺同量級的 SD3.5 Large,還越級逆襲了參數量大得多的 Qwen-Image(27B)和 FLUX.2 [Dev](56B)。本來以為是小模型裡的尖子生,結果是直接在跟大兩個數量級的選手對打,還打贏了。對想本地部署或者算力有限的團隊,開源 8B 是更務實的選擇。消費級顯卡就能跑,出圖質量不輸那些大好幾倍的模型。閉源的 HiDream-1.5 則適合對生成效果有更高要求的商業場景。兩條路都擺出來了,按需取用。04推理層 + 統一 token space:兩個子系統怎麼協同到這裡可以回答一個更內核的問題,為什麼 CoT 推理和無 VAE 架構必須一起出現?分開看,每個都有侷限。CoT 推理層能拆複雜指令、生成空間約束,但如果沒有不打折扣的傳遞通道,這些約束在 VAE 壓縮環節難免有所丟失。推理層拆得再細,生成底座拿到的也是缺損版本。無 VAE 的 UiT 能忠實渲染細節,但如果 prompt 本身缺少空間邏輯,它也沒有推理能力來補全缺失的約束。當你說“幫我畫一個街景”卻不指定透視角度,最終很可能拿到一個忠實渲染、每一個元素單獨看上去都對,但整體空間邏輯奇奇怪怪的街景。HiDream-1.5 的做法是把兩個子系統串成完整鏈路,CoT Agent 負責推理和結構化,UiT 負責不打折扣地執行。用一個不太嚴謹但直觀的類比。▪ 傳統方案像 source code → 有損壓縮 → 二進制,精度在中間環節丟失▪ 1.5 像 source code → 語法分析和優化(CoT)→ 不加中間層的直接編譯(UiT)還有一個官方提到但實測沒來得及覆蓋的能力。1.5 原生支持多宮格故事板生成和 15 種以上的電影級鏡頭控制,包括特寫、全景、鳥瞰、低角度……從單張圖生成到連貫敘事,這個跨度比參數數字暗示的要大得多。從架構原理看,多宮格故事板對 IP 保持和空間連貫性的要求極高,而這恰好是 1.5 的兩個最強項。如果你是做視頻預演、廣告分鏡或漫畫創作的,這個功能值得儘早上手試試。05未竟的共識?當然,作為一種尚且年輕的技術路線,CoT 加無 VAE 的策略也有其代價。一是 CoT 推理的延遲。 Gemma 4 的推理不是免費的,簡單 prompt 可能只需要幾十毫秒,但複雜提示詞需要的更深層次推理,顯然會增加延遲。這是一個沒法繞過的取捨,要麼犧牲 prompt 門檻,要麼犧牲響應速度。另一個問題是無 VAE 的效率瓶頸。VAE 的核心價值是壓縮計算量,1024×1024 的圖,像素空間的計算量理論上約是 64×64 潛空間的 256 倍。HiDream-1.5 的解法是蒸餾加速,8B 的 DMD+GAN 蒸餾版(DMD 快速採樣 + GAN 生成對抗網絡)只需 28 步推理。但蒸餾通常導致生成多樣性下降,對於這一點,1.5 的具體指標暫未公開。因此回到最初的問題,文生圖的“慢思考”到底有沒有用?有用,但方式可能跟你想象的不同。它不是讓模型“更聰明”,而是降低從“我想畫什麼”到“模型理解我想畫什麼”之間的語義損耗。與之相對地,無 VAE 的 UiT 架構則在試圖減少從“理解”到“呈現”之間的信息損耗。兩條路線合在一起,就是先理解,再無損執行。六維玫瑰圖的數據和三組盲測的結果相互印證。長文本渲染(中文 0.978 vs GPT Image 2 的 0.961)和 IP 保持上,HiDream-1.5 有著斷層級的領先,主體理解精度和空間關係處理也明顯優於同價位競品。但在綜合產品完成度和生態成熟度上,HiDream-1.5仍有不小的成長空間。SD 生態在 VAE+DiT 路線上積累深厚,遷移成本極高。FLUX 堆參數填 VAE 的坑,雖然貴但不改變使用習慣。HiDream 改架構省算力,但生態重構是繞不過去的坎。不過從此前的 8B 版本開始,HiDream 的應對策略就已經很清楚。開源 8B 培育社區信任和開發者生態,閉源 1.5 版本面向商用交付。它意味著你可以在 GitHub 上免費下載 8B 跑原型驗證,驗證通過了再升級到 1.5 做生產交付。這種直接利好落地的兩步走思路,比單項技術參數更值得關注。開源版的社區數據佐證了這個策略的可行性。僅發佈一天,8B 版本就在 Hugging Face 衝上模型趨勢榜第四,目前 HF 下載超 1 萬、ModelScope 超 2 千。更實際的是,它已經被 WaveSpeedAI 和 fal 兩個平臺集成上線,用戶無需自己部署就能跑。協議給的是 MIT,商業可用,對想拿它做產品的團隊來說是實打實的利好。VAE 架構因其模塊協作之間的信息損耗而深受詬病,但人和模型之間,又何嘗不是時刻在經歷這種割裂。當圖像模型從“生成一張好看的圖”,走向“生成用戶真正想要的圖”,技術的切口會在哪裡被發現,這是 HiDream-1.5 真正試圖回答的問題。CoT 推理和無 VAE 架構,是目前看得見的兩個切口。它們不完美,但它們指向的方向,減少語義損耗,減少信息損耗,大概率是未來兩年圖像模型迭代的源動力。所以要不要用 HiDream-1.5?這取決於你需要做什麼。如果你常做中文海報、電商圖、品牌物料,那麼在長文本渲染和多主體保持這兩個維度上,當前沒有更好的選擇。如果你是被 CoT 吸引來的創作者,HiDream-1.5 也的確能

Related

相關文章

雷峰網生成式AI

UC Berkeley Ken Goldberg 教授:具身數據規模落後十萬年,你仍然相信數據萬能嗎?| ICRA 2026

雷峰網訊 數以十億計的資金湧入具身智能行業,與此同時,這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下,VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈,以至於某種程度上,甚至帶上了意識形態的色彩。這成為了本屆國際機器人與自動化會議(ICRA)現場最引人關注的話題。在會議第二天,UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講,發表了他對具身數據採集、數據飛輪、GAP 系統,以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。過去幾年,隨著 ChatGPT、視覺語言動作模型(VLA)和人形機器人熱潮興起,依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律,人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻,乃至真正的通用機器人。對此,Ken Goldberg 提出了靈魂之問:什麼時候?“如果按照人類平均閱讀速度計算,閱讀完今天訓練大型語言模型所使用的全部數據,大約需要10萬年。而換算到機器人領域,我們目前積累的數據總量,大概只相當於幾年的規模。”具身智能數據鴻溝的抽象討論背後,是一組恐怖的對比數據。Ken Goldberg 相信,這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程,在一條更可靠的具身落地路徑上,工程架構、模塊設計和物理建模仍然不可替代。在演講中,Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率,到構建大規模仿真數據集,再到訓練神經網絡完成真實世界抓取,這個近十年前的嘗試對於今天的具身

2 小時前
雷峰網生成式AI

殺上閉源前沿,國產最強已經無法滿足 GLM-5.2 了

雷峰網訊 過去一週,AI 開發者圈討論的焦點,已經不只是誰又發佈了更強的模型,而是一個更現實的問題,誰還能穩定地調用到最強的模型?隨著美國對於 Fable 5 調用的限制,頂級閉源模型的可獲得性終於成為了懸在開發者頭上的不確定因素。特別是對於已經把大模型深度接入代碼生成、Agent 工作流和企業應用的團隊來說,一個模型哪怕性能再強,只要存在訪問受限、策略調整、價格波動或突然下架的風險,就跟“可靠的基礎設施”不沾邊了。OpenRouter 給出了一種解法,即不要押注單一最佳模型,而是通過多模型協作和模型路由,在不同任務之間動態切換能力最合適的模型。這代表了應用層的一種新趨勢,當最強模型不可控時,開發者開始追求可替代、可組合、可持續的模型系統。就在這個背景下,6 月 17 日 GLM-5.2 的發佈格外觸動神經。硅谷最頂級的風投機構之一a16z 的聯合創始人 Marc Andreessen 在 十天後於X 上發文稱,「許多聰明人和 AI 圈內人認為,GLM-5.2 是第一個能夠無妥協地匹敵、甚至超越美國大實驗室公開模型的中國 AI」,並特別點出:「時機妙極,恰逢當下。」這句評價更重要的意義或許在於,他轉述的,正是硅谷圈子裡正在形成的共識—開源的中國模型,在能力上做到了和美國頂級實驗室同臺競技。根據智譜 AI 官方文檔,GLM-5.2 整體表現介於 Claude Opus 4.7 與 Opus 4.8 之間,在 FrontierSWE 等長程編程任務上表現尤其突出,僅落後 Opus 4.8 約 1%,同時超過 GPT-5.5 和 Opus 4.7。另有社區討論也將其視為目前開源模型陣營中,最接近頂級閉源模型的一次躍遷。馬斯克預測智譜大模型大約在 2027 年 Q1 達到 Fable 5,唐傑本人親自下場回覆:用不了那麼久。在一個頂級模型供給越來越不穩定的時間點,開發者擁有了新的可

2 小時前
雷峰網生成式AI

國產 Coding 爭霸賽:MiniMax 爆冷登頂,DeepSeek 性價比稱王

雷峰網訊 你很難把 Coding 僅僅視為大模型的諸多能力維度之一。和單純的文本或圖像生成相比,代碼更明確的規則、嚴格的語法和可驗證的結果只是部分原因。更為特殊之處在於,在 ChatBot 到 Agent 這條進化鏈上,Coding 意味著的工具調用、數據處理和複雜流程自動化,幾乎承載了模型從“會說”走向“能幹”的絕大部分期待。一個值得關注的變化是,Coding 正在從眼花繚亂的 Benchmark 榜單中脫穎而出,成為一種模型競爭的基礎設施級指標。無論 OpenAI、Anthropic、Google 還是其他廠商,在發佈新模型時幾乎都會將 Coding 場景作為大秀肌肉的選擇。某種意義上,這就是正在形成中的行業共識,即代碼能力不僅意味著編程水平,更是衡量模型邏輯推理、工具使用和實際生產力的重要角度。我們也很好奇,國產模型如今在 Coding 這條卷生卷死的賽道里已經進化到了何種程度。為此我們選擇了五款以編程能力見長的國產模型,包括 DeepSeek V4 Pro、Kimi K2.6、Qwen 3.7 Max、GLM 5.1 和 MiniMax M3,將它們放進同一個真實工程任務的場景裡,並讓 Claude Opus 4.7 擔任裁判模型,從可運行性、正確性、可讀性、可維護性四個維度量化評分。接下來就看看,各家模型的表現如何。編者注:此次測試選用模型,為截至 2026 年 6 月 10 日各家最新款旗艦模型,故隨後發佈的 Kimi K2.7 及 GLM-5.2 均未參賽。對上述兩款模型的測試也將陸續發佈,歡迎關注。01不寫八股文,真正的壓力測試Coding 能力的測試也大有講究。HumanEval、MBPP 這些業界常見的 Coding Benchmark,本質上都在測試模型會不會寫代碼。最常見的模式就是給出一道算法題,看模型能不能給出正確的解法。只能說程序員有自己的八股文

2 小時前
雷峰網生成式AI

阿里速賣通首次公佈618中國品牌出海成交榜

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器 此為臨時鏈接,僅用於文章預覽,將在時失效 業界 正文 發私信給徐咪 發送 0 阿里速賣通首次公佈618中國品牌出海成交榜 本文作者: 徐咪 2026-07-01 13:00 導語:阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜,覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍;家電品類 阿里旗下跨境電商平臺速賣通首次公佈618中國品牌出海成交榜,覆蓋手機、汽摩配、數碼影音、電腦辦公、戶外運動等10大品類。手機由POCO、小米包攬冠亞軍;家電品類中,泳池清潔機器人SEAUTO以黑馬之姿躋身第四;李寧、特步、361°穩居中國出海運動鞋服品牌前三。今年618大促,速賣通品牌成交同比增長90%,品牌成交滲透近40%,進一步鞏固品牌出海全新主場地位。 0人收藏 分享: 徐咪 編輯 發私信 當月熱門文章 藍信發佈2026全棧AI新品,打造100%國產化政企智能辦公新範式 美團電話會:“小美”與騰訊“元寶”的合作將於近期上線 騰訊雲護航全球16個國家及地區世界盃直播,AI技術首次在世界盃大規模應用 SoulAgent 即將亮相北京智源大會,探索個人智能體在知識服務場景中的應用 美團發佈AI瀏覽器Tabbit 1.0,可自動執行各類任務 最新文章 百花獎聯合即夢AI首設AIGC推優單元,即日啟動全球徵集 他山科技聯合圖靈獎得主薩頓共建“機器人幼兒園”,具身智能從“模仿時代”邁向“經驗時代” UC Berkeley Ken Goldberg 教授:具身數據規模落後十萬年,你仍然相信數據萬能嗎?| ICRA 2026 殺上閉源前沿,國產最強已經無法滿足 GLM-5.2 了 國產 Coding 爭霸賽:MiniMax 爆冷登頂,DeepSeek

3 小時前
雷峰網生成式AI

文生圖開源第一易主,但 HiDream-O1-Image 為什麼褒貶不一?

雷峰網訊 2026 年 5 月,智象未來開源了文生圖模型 HiDream-O1-Image(8B),直接登頂 Artificial Analysis 開源模型全球第一,Elo 1187 的分數力壓 Qwen Image(27B)和 FLUX.2 dev。值得注意的是,這也是 Artificial Analysis 榜單前十中唯一的開源模型。但消息一齣,有人說最強一代開源文生圖模型“實至名歸”,卻也有人直接罵“生成質量一坨”。Artificial Analysis 可不是隨便哪裡冒出來的野生榜單,盲測 Arena 裡都是用戶實時投票打出來的結果。兩極分化的評價讓我們感到好奇。因此我們花了幾天時間,從 Reddit 到 GitHub,從架構解析到上手實測地拆解了一遍。HiDream-O1-Image 更像是一個技術方向正確的探路者,無法也不必承擔殺死比賽的期待。作為開源第一,它和目前的行業第一 GPT Image 2 之間還有著不小的差距。這背後是 8B 參數開源版本同樣明顯的亮點和問題,但它卻已然勾勒出了,未來 200B+參數 Pro 版本宏偉的可能性。Artificial Analysis榜單前十隻有HiDream 8B作為開源模型入圍01 UiT 架構創新在 HiDream-O1-Image 之前,主流文生圖模型都選擇了一條“拼盤”路線。VAE 負責壓縮圖像,T5/CLIP 負責理解文本,DiT 負責生成。三件套各司其職,這種方案不可避免的後果就是信息損耗,每一次跨模塊的傳遞,都會丟失細節。而 HiDream-O1-Image 此番登頂 Artificial Analysis,其核心創新 UiT 架構正是瞄準了這一行業短板。HiDream 採用的 UiT 架構,把像素、文本、任務條件全部映射到了同一個 token space 進行端到端處理。換言之,砍掉 VAE 和獨立的

4 小時前