93 億參數打爆 800 億,這個開源模型把 Midjourney 短板給秒了

2026年6月5日 10:52
93 億參數打爆 800 億,這個開源模型把 Midjourney 短板給秒了

重點摘要

開源模型 Ideogram 4.0 僅以 93 億參數就擊敗了 800 億參數的對手,解決了 AI 生成圖像中文字書寫困難的問題。這項進展直接補足了 Midjourney 長期以來的弱項。 我們需要為一篇關於開源模型Ideogram 4.0的文章生成摘要。標題說93億參數打爆800億,開源模型把Midjourney短板給秒了。內容提到開源模型Ideogram 4.0解決AI生圖寫字難問題。摘要應包含關鍵資訊:模型名稱、參數量(93億)、擊敗更大參數模型(800億)、解決Midjourney的短板(生圖寫字難)。用繁體中文台灣用語,2-3句話。

站內 AI 整理稿

## 93億參數力壓群雄!開源生圖模型 Ideogram 4.0 引爆設計圈,文字生成不再「鬼畫符」

生成式 AI 的圖像領域迎來重大轉折點。加拿大新創 Ideogram 於 6 月 3 日正式推出首款開放權重的文生圖大模型 Ideogram 4.0。這款僅有 93 億(9.3B)參數的開源模型,一改過去閉源、訂閱制的策略,以「小而精」的姿態,在許多專業設計師的主觀盲測中擊敗參數規模十倍以上的競爭對手,尤其是過去長期困擾設計師的「圖內文字生成」痛點,獲得了技術突破。

## 直擊痛點:如何解決 AI 寫字的千古難題?

回顧 AI 繪圖發展歷程,Midjourney、Stable Diffusion 乃至 DALL·E,雖然在場景渲染、光影表現上令人驚豔,但在生成包含特定文字的海報或 Logo 時,往往會出現拼寫錯誤、文字扭曲甚至變成亂碼的尷尬情況。開源陣營過去主要透過 ControlNet 外加 LoRA 等輔助工具來勉強補救,無法從根源解決。

Ideogram 4.0 之所以能扭轉局面,關鍵在於其獨特的架構設計。不同於主流模型將文字理解與影像生成分開處理,Ideogram 採用**單流 Diffusion Transformer (DiT) 架構**,讓文字的語意標記(token)與影像的像素標記在同一序列中進行多層次的統一注意力運算,並選用 Qwen3-VL-8B-Instruct 視覺語言模型作為文字編碼器。這項設計讓模型在底層邏輯上深刻理解每個字母該出現在圖像的哪個位置,而非靠機率隨機拼湊,從而在設計類圖像的精準度上建立了龐大的技術門檻。

## 規格碾壓:不只是寫對字,還要生得美

如果只是能寫對字,也許還不足以撼動市場。Ideogram 4.0 在畫質與輸出規格上同樣展現了極高水準。該模型原生支援 **2K(2048×2048)解析度**輸出,並能直接生成透明背景的 PNG 圖片,省去設計師繁瑣的後期去背流程,直接對接 Photoshop 等專業設計軟體。

根據第三方權威評測,Ideogram 4.0 在 X-Omni 英文 OCR 測試中準確率高達 0.97,且在 ContraLabs 組織的設計師雙盲測中,以 47.9% 的勝率顯著領先 Gemini(30%)、Flux(15.5%)以及 Grok(15%)。目前該模型在 DesignArena 的開源模型排行榜中排名第一,綜合性能僅次於 OpenAI 與 Google 推出的閉源商用模型,超越 Midjourney v8 並與 Flux 模型處於同一水平線。

## 賦能設計師:從「猜 AI 的想法」到「精準下指令」

Ideogram 4.0 的另一個殺手級功能,是支援**結構化的 JSON 提示詞控制**。過往設計師只能利用模糊的自然語言來引導 AI,最後常常要靠抽卡碰運氣。但現在,使用者可以透過 JSON 字串,直接在指令中鎖定 Hex 色碼調色盤,並利用邊界框(Bounding Box)精準指定圖中每個元素的座標與大小尺寸。這種從「極簡繪圖」走向「參數化設計」的轉變,對於需要大量產出商品圖、排版素材的電商與廣告產業來說,將大幅提升工作流程的確定性與效率。

## 開源生態與商業拉鋸:免費玩、付費用?

值得關注的是 Ideogram 4.0 的授權策略。開發團隊將推理程式碼以 Apache 2.0 許可開源釋出,並在 Hugging Face 平台上架 NF4 與 FP8 兩種量化權重版本,號稱一般 24GB 顯卡的消費級設備即可進行本地部署與模型微調。但若是企業內部打算將此模型整合至商業產品或服務中,則需向官方取得對應的商業授權並支付費用。這種「研究免費、商用付費」的雙軌模式,是否能吸引足夠的開發者貢獻社群資源,同時維持公司的商業獲利,將是後續值得觀察的重要指標。

## 讀者接下來可以關注的動向

對於關注 AI 繪圖工具的設計師與創作者來說,Ideogram 4.0 的出現意味著開源陣營在特定專業領域首次展現了超越閉源模型的實力。不過,Midjourney 已在 V7 版本中急起直追,宣稱文字準確率達到驚人的 98%,這也代表著這場文字渲染的軍備競賽才剛剛開始。

建議讀者可以實際前往官網進行生成測試,比較 Ideogram 的排版精準度與 Midjourney 的藝術風格直覺度之間的取捨。此外,是否會有台灣本土團隊利用開源的 Ideogram 4.0 權重進行特定繁體中文或本地化設計風格的微調,也是值得追蹤的後續發展方向。

用户DEEP_SEARCH需要一篇关于Ideogram 4.0的原创整理稿,内容涉及重点、背景、影响和后续关注点。标题提到93亿参数打败800亿,以及解决了Midjourney的写字难题,这些核心点需要验证。先搜索Ideogram 4.0的基本信息,同时看看它跟Midjourney在文本渲染能力上的对比,还有跟Flux、Stable Diffusion等其他模型的性能比较,这样能全面覆盖用户要求。FINISHED出来了,信息很丰富。Ideogram 4.0确实是93亿参数的开源模型,在文字渲染和结构化控制上是强项,技术上用了单流DiT架构和Qwen3-VL文本编码器。用户提到的“93亿参数打爆800亿”说法,可能指向它和某些闭源大模型在特定任务上的对比。为了写稿,需要把这些关键的技术细节、性能数据和行业对比信息都打开看看,确保内容准确有深度。FINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHEDFINISHED显示Ideogram 4.0是93亿参数的开源模型,其结构化JSON控制与文字渲染能力对设计场景很实用,而Midjourney V7在文字准确性上已有明显改进。回答可以从技术亮点切入,先概述核心参数和架构,再对比前代与竞品的差异,最后讨论开源策略对行业生态的潜在影响与用户可关注的后续动态。

Related

相關文章

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

1 小時前
MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

15 小時前

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前