鈦媒體模型更新

砍掉獨立編碼器:Gemma 4 12B推翻多模態"拼接設計"

2026年6月6日 11:23
砍掉獨立編碼器:Gemma 4 12B推翻多模態"拼接設計"

重點摘要

這篇消息聚焦「砍掉獨立編碼器:Gemma 4 12B推翻多模態"拼接設計"」。原始導語提到:無編碼器架構,12B硬剛26B 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

站內 AI 整理稿

近期多模態AI的技術賽道出現了一個值得關注的轉折點。過去大型語言模型為了處理圖片、聲音等非文字訊息,多半仰賴外加的獨立編碼器作為「翻譯官」。然而,Google 新一代開源模型 **Gemma 4 12B** 的發布,卻直接砍掉了這個沿襲已久的多階段視覺與音訊編碼器,不再走傳統的拼接設計老路。這種砍掉編碼器、推翻拼接設計的做法,不僅跳脫出參數規模的軍備競賽,更開始重新定義「開源多模態」的技術典範。

### 🏗️ 打破「拼接」思維:什麼是無編碼器統一架構?

過去,開源多模態模型依賴於多階段的設計,必須先將圖片或聲音透過龐大的獨立視覺編碼器(如傳統 Gemma 4 大型模型使用的 5.5 億參數視覺編碼器)與音訊編碼器(約 3 億參數)進行轉換,生成「標記」(tokens)後才能交由 LLM 處理。為了簡化這個繁瑣的轉換流程,降低延遲與記憶體碎片,Gemma 4 12B 導入全新的「無編碼器」(Encoder-Free)統一架構:

* **視覺革新**:以總量僅約 3,500 萬參數(35M)的超輕量化模組,大幅取代傳統 27 層視覺轉換器(27 vision transformer layers)。實作上僅透過單一矩陣乘法、位置嵌入與標準化操作,將原始視覺區塊直接投影至 LLM 的隱藏維度。

* **聽覺直連**:完全拔除外界音訊編碼器。Gemma 4 12B 可接收 16 kHz 的原始音訊,將其切片為 40 毫秒的幀(每幀 640 個浮點數)後,直接線性投影為語言模型可理解的「語言」。

這種設計讓多模態輸入不再需要透過多個獨立的編碼器轉換與拼接,而是實現了真正的「原生」多模態處理流程。

### 🚀 輕量級的巨人:12B 直面超越 26B 與 Llama?

Gemma 4 12B 雖然在 Google 家族中定位為中量級(約 120 億參數),其表現卻出奇亮眼。在標準標竿測試中,Gemma 4 12B 的推理與執行能力直逼參數規模大一倍的 **26B 混合專家(MoE)模型**,但記憶體佔用卻僅需對方的不到一半。

更值得注意的是,在考驗邏輯思維的 GPQA 與 AIME 測試中,Gemma 4 12B 不僅大幅超越同量級的 Llama 3 8B 模型,甚至在部分環節超越了體積大上數倍的 **Llama 3 70B** 模型,展現出極高的參數使用效率。

### 💻 指尖上的端點 AI:16GB 記憶體即可執行

這款模型展示了強大的多步驟推理與智慧體工作流。由於精簡了編碼器,配合 Google 獨家的多 Token 預測(MTP)起草技術來進一步降低延遲,Gemma 4 12B 因此能在硬體限制較為嚴苛的設備上高效運行:

* **硬體需求**:可在配備 **16GB 視訊記憶體或統一記憶體**的消費級筆記型電腦上本地端流暢運行。

* **量化潛力**:經過 4-bit 量化後,記憶體需求更可進一步下探至 **8GB**,意味著更廣泛的輕薄型筆電、甚至部分高階平板裝置都有可能部署。

### 🌍 從雲端到落地:Gemma 4 12B 如何改變遊戲規則?

Gemma 4 12B 的全面開源,使用 Apache 2.0 授權發布,不僅打破了開發者生態的界線,更帶來了幾項深遠的影響:

1. **商業化的無縫接軌**:Apache 2.0 授權對商業應用極為友善,大幅降低企業開發邊緣 AI 產品的法律與技術門檻。

2. **降低資料隱私風險**:過去依賴雲端 API 處理敏感數據(如金融、醫療領域)的企業,現在可在本地設備上安全運行,將隱私風險降到最低。

3. **打造多元生態系**:基於對開發者極度友善的 Apache 2.0 授權,任何個人開發者或企業皆可免費將模型用於商業場景,大幅加速端側智慧應用的落地與普及。Google 與社群不僅在 Hugging Face 與 Kaggle 等平台開放了預訓練及微調權重,模型也支援 llama.cpp、MLX、vLLM 與 Ollama 等主流開發工具,讓軟硬體的整合無縫接軌。同時,Google 也首次推出可在 Apple Silicon 上離線運行的 macOS 桌面應用程式,提供更完整的語音與視覺本地互動體驗。

### 💎 焦點分析與後續觀察

在 AI 圈熱議「規模法則是否撞牆」之際,Gemma 4 12B 再次印證了架構創新遠比盲目堆疊參數來得關鍵。當前的 AI 產業正加速從「誰擁有最多 GPU」的雲端軍備競賽,轉向 **「誰能在有限硬體中榨出最高智慧」** 的在地端部署之戰。Google 開源此模型,其背後戰略不只在補齊 Gemma 4 家族的產品線,更是在提供一套能讓應用開發者直接在終端設備上,打造強大多模態互動體驗的基礎建設。

> **📌 給讀者的追蹤指南**

> * **技術風向**:未來是否會有更多跟進的「無編碼器」模型?或者進化為更輕量的「嵌入層」架構?

> * **應用場景**:除了開發者搭建智慧體(AI Agent),一般使用者能否在短時間內透過簡易圖形化介面(如 LM Studio 或 Ollama),輕鬆在本機調用這些功能呢?

> * **商業版圖**:Google 最近特別將 AI Edge Gallery 從手機端擴展至桌機,這是否意味著 Google 下一步要全面推動混合式 AI 生態,將運算自主權歸還給裝置端?

Related

相關文章

MarkTechPost AI模型更新

Liquid AI Introduces LFM2.5-Embedding-350M and LFM2.5-ColBERT-350M: Dense Bi-Encoder and Late-Interaction Models for Fast Multilingual Search Across 11 Languages

This week, Liquid AI released two new retrieval models. They are LFM2.5-ColBERT-350M and LFM2.5-Embedding-350M. Both hold 350M parameters. Both are the first bidirectional members of the LFM family. They build on LFM2.5-350M-Base, released in March. The pair targets fast multilingual and cross-lingual search across 11 languages. Their footprint is small enough to run almost anywhere. Both are available now on Hugging Face under the LFM Open License v1.0. LFM2.5 Retrievers The two models share one backbone but represent text differently. LFM2.5-Embedding-350M is a dense bi-encoder. It turns each document into a single vector. Pick it when you want the fastest search and the smallest, cheapest index. LFM2.5-ColBERT-350M is a late-interaction model. It converts each token into a vector rather

1 小時前
MarkTechPost AI模型更新

Perplexity Launches Brain, a Self-Improving Memory System That Builds a Context Graph of an Agent’s Work and Learns Overnight

Most AI memory remembers the user. It stores your preferences, your tastes, and your role. Perplexity is taking a different path. Today, Perplexity launched Brain, a self-improving memory system for its agent product, Computer. Brain does not focus on remembering you. It remembers what the agent did. That reframes what memory in AI is for. What is Perplexity‘s Brain Brain is a self-improving memory system. It builds a context graph of the work Computer performs. At set intervals, such as overnight, Brain reviews that graph. It then teaches itself how to do the work better. The idea is straightforward. The more work you do, the more efficient Brain makes your Computer. Brain is rolling out today to Perplexity Max and Enterprise Max subscribers in Research Preview. Two Axes of AI Memory Perp

15 小時前

智譜新高,MiniMax承壓,“大模型雙雄”命運殊途

這篇消息聚焦「智譜新高,MiniMax承壓,“大模型雙雄”命運殊途」。原始導語提到:大模型在被市場重新定價 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

17 小時前