Together AI 開源 OSCAR：一種用於長上下文 LLM 服務的注意力感知 2 位元 KV 快取量化系統

2026年5月25日 21:24

重點摘要

Together AI 發布了 OSCAR（離線頻譜協方差感知旋轉），這是一種用於長上下文 LLM 服務的 INT2 KV 快取量化方法。與先前基於旋轉的、應用資料無關的 Hadamard 變換的方法不同，OSCAR 從離線估計的注意力感知協方差結構中為鍵和值推導出單獨的旋轉。每個 KV 元素僅佔用 2.28 位元時，OSCAR 在 Qwen3-4B-Thinking-2507 上將 BF16 準確度差距縮小至 3.78 個百分點，在 Qwen3-8B 上則縮小至 1.42 個百分點，同時提供顯著的服務效能提升。

站內 AI 整理稿

Together AI 近期開源了名為 OSCAR 的技術，這是一種專為長上下文大型語言模型（LLM）服務設計的 INT2 KV 快取量化系統。其核心目標是在不顯著犧牲準確度的前提下，大幅減少記憶體佔用，讓長文本處理變得更有效率。

OSCAR 的關鍵創新在於從離線估計的注意力感知協方差結構中，為鍵值推導出獨立的旋轉，從而實現更精確的 2 位元量化。初步測試顯示，在僅佔用約 2.28 位元的情況下，OSCAR 在 Qwen3-4B-Thinking-2507 模型上能將與 BF16 格式的準確度差距大幅縮小，證明低精度量化仍有潛力維持模型表現。

隨著 LLM 處理的上下文長度不斷增加，KV 快取佔用的記憶體已成為部署瓶頸。過去的量化方法常忽略注意力機制的特性，導致長序列任務的效能下滑；OSCAR 的注意力感知設計正好回應了這個挑戰，為業界提供了一個更可行的輕量化方案。

這項開源成果可能降低長上下文 LLM 的部署成本，讓更多開發者能在有限硬體上運行高效能的聊天或文件分析服務。同時，它也可能啟發其他團隊在量化策略中納入更多模型結構的資訊，推動壓縮技術的進步。

讀者未來可關注 OSCAR 在不同模型架構與硬體上的相容性測試，以及開源社群是否會針對其旋轉推導流程提出更簡化的版本。此外，結合其他量化技巧（如權重量化）實現端到端低精度推理，也是值得觀察的發展方向。

總體而言，OSCAR 展示了注意力感知量化在長上下文場景下的潛力，為 LLM 服務的記憶體最佳化提供了一條新路徑。後續若能在更多實際應用中驗證其穩定性，將有助於加速高效能 AI 服務的普及。

原始來源：MarkTechPost AI ↗

查看原始來源

鈦媒體AI工具與產品

Token成本算盤打響，Seedance開始駛向“五環外”

這篇消息聚焦「Token成本算盤打響，Seedance開始駛向“五環外”」。原始導語提到：視頻AI的決勝場，不在模型本身。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家AI工具與產品

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題，Gmail 無法正常回復郵件

科技媒體 Android Authority 昨日（6 月 18 日）發佈博文，報道稱 Pixel 10 系列手機遭遇 AI“搶鏡”問題，用戶在 Gmail 回覆郵件時無法彈出輸入法鍵盤，優先顯示 Help me write 功能。

2 小時前閱讀分析

IT之家AI工具與產品

DeepSeek 識圖模式正式上線 App 和網頁端

DeepSeek 多模態研究員 Xiaokang Chen 今日表示，DeepSeek 的識圖模式已在網頁和 App 端正式上線。IT之家測試，目前 DeepSeek 的 App 端識圖模式依然提示“圖片理解功能內測中”，網頁端沒有這項提示。

19 小時前閱讀分析

IT之家AI工具與產品

微信、豆包之後，消息稱阿里將推“千問輸入法”

千問團隊將推出名為“千問輸入法”的獨立 App，與 PC 端的千問語音輸入法有一定區別，AI 功能、鍵盤會更貼合手機端操作，填補千問在移動端 AI 輸入法賽道的空白，產品已開發完成，擇日上線各大應用商店。

1 天前閱讀分析

AIBaseAI工具與產品

Kimi Work 迎重大升級：推出“目標模式”並打通外部應用插件

月之暗面旗下 Kimi 電腦客戶端近日煥新升級，為 Kimi Work（Beta 版）引入兩項重磅新特性：目標模式實現連續自主工作 24 小時，插件中心正式對接多家主流辦公軟件，提升工作流效率。為加速用戶深度體驗，官方同步推出限時優惠，2026 年 6 月全月，使用 Work 模式的會員額度消耗直接打 5 折，帶來實惠。

1 天前8300閱讀分析

AIBaseAI工具與產品

網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運

網易雲音樂旗下“妙時”（含AI奇遇）AI情感陪伴應用發佈停運公告，將於7月14日0時全面停止服務。客服迴應屬正常業務調整，不影響其他產品。目前已停止新用戶註冊和充值，用戶可在8月14日前申請退還剩餘代幣和會員費，並導出AI戀人聊天記錄。

1 天前9400閱讀分析

相關文章

Token成本算盤打響，Seedance開始駛向“五環外”

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題，Gmail 無法正常回復郵件

DeepSeek 識圖模式正式上線 App 和網頁端

微信、豆包之後，消息稱阿里將推“千問輸入法”

Kimi Work 迎重大升級：推出“目標模式”並打通外部應用插件

網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運