Together AI 開源 OSCAR:一種用於長上下文 LLM 服務的注意力感知 2 位元 KV 快取量化系統

重點摘要
Together AI 發布了 OSCAR(離線頻譜協方差感知旋轉),這是一種用於長上下文 LLM 服務的 INT2 KV 快取量化方法。與先前基於旋轉的、應用資料無關的 Hadamard 變換的方法不同,OSCAR 從離線估計的注意力感知協方差結構中為鍵和值推導出單獨的旋轉。每個 KV 元素僅佔用 2.28 位元時,OSCAR 在 Qwen3-4B-Thinking-2507 上將 BF16 準確度差距縮小至 3.78 個百分點,在 Qwen3-8B 上則縮小至 1.42 個百分點,同時提供顯著的服務效能提升。
Together AI 近期開源了名為 OSCAR 的技術,這是一種專為長上下文大型語言模型(LLM)服務設計的 INT2 KV 快取量化系統。其核心目標是在不顯著犧牲準確度的前提下,大幅減少記憶體佔用,讓長文本處理變得更有效率。
OSCAR 的關鍵創新在於從離線估計的注意力感知協方差結構中,為鍵值推導出獨立的旋轉,從而實現更精確的 2 位元量化。初步測試顯示,在僅佔用約 2.28 位元的情況下,OSCAR 在 Qwen3-4B-Thinking-2507 模型上能將與 BF16 格式的準確度差距大幅縮小,證明低精度量化仍有潛力維持模型表現。
隨著 LLM 處理的上下文長度不斷增加,KV 快取佔用的記憶體已成為部署瓶頸。過去的量化方法常忽略注意力機制的特性,導致長序列任務的效能下滑;OSCAR 的注意力感知設計正好回應了這個挑戰,為業界提供了一個更可行的輕量化方案。
這項開源成果可能降低長上下文 LLM 的部署成本,讓更多開發者能在有限硬體上運行高效能的聊天或文件分析服務。同時,它也可能啟發其他團隊在量化策略中納入更多模型結構的資訊,推動壓縮技術的進步。
讀者未來可關注 OSCAR 在不同模型架構與硬體上的相容性測試,以及開源社群是否會針對其旋轉推導流程提出更簡化的版本。此外,結合其他量化技巧(如權重量化)實現端到端低精度推理,也是值得觀察的發展方向。
總體而言,OSCAR 展示了注意力感知量化在長上下文場景下的潛力,為 LLM 服務的記憶體最佳化提供了一條新路徑。後續若能在更多實際應用中驗證其穩定性,將有助於加速高效能 AI 服務的普及。
Related
相關文章

Token成本算盤打響,Seedance開始駛向“五環外”
這篇消息聚焦「Token成本算盤打響,Seedance開始駛向“五環外”」。原始導語提到:視頻AI的決勝場,不在模型本身。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Pixel 10 手機用戶反饋谷歌 AI“搶鏡”問題,Gmail 無法正常回復郵件
科技媒體 Android Authority 昨日(6 月 18 日)發佈博文,報道稱 Pixel 10 系列手機遭遇 AI“搶鏡”問題,用戶在 Gmail 回覆郵件時無法彈出輸入法鍵盤,優先顯示 Help me write 功能。

DeepSeek 識圖模式正式上線 App 和網頁端
DeepSeek 多模態研究員 Xiaokang Chen 今日表示,DeepSeek 的識圖模式已在網頁和 App 端正式上線。IT之家測試,目前 DeepSeek 的 App 端識圖模式依然提示“圖片理解功能內測中”,網頁端沒有這項提示。

微信、豆包之後,消息稱阿里將推“千問輸入法”
千問團隊將推出名為“千問輸入法”的獨立 App,與 PC 端的千問語音輸入法有一定區別,AI 功能、鍵盤會更貼合手機端操作,填補千問在移動端 AI 輸入法賽道的空白,產品已開發完成,擇日上線各大應用商店。
Kimi Work 迎重大升級:推出“目標模式”並打通外部應用插件
月之暗面旗下 Kimi 電腦客戶端近日煥新升級,為 Kimi Work(Beta 版)引入兩項重磅新特性:目標模式實現連續自主工作 24 小時,插件中心正式對接多家主流辦公軟件,提升工作流效率。為加速用戶深度體驗,官方同步推出限時優惠,2026 年 6 月全月,使用 Work 模式的會員額度消耗直接打 5 折,帶來實惠。
網易雲音樂旗下AI情感陪伴App“妙時”宣佈7月14日停運
網易雲音樂旗下“妙時”(含AI奇遇)AI情感陪伴應用發佈停運公告,將於7月14日0時全面停止服務。客服迴應屬正常業務調整,不影響其他產品。目前已停止新用戶註冊和充值,用戶可在8月14日前申請退還剩餘代幣和會員費,並導出AI戀人聊天記錄。