智東西生成式AI

國產萬億級模型技術報告公開!螞蟻這樣攻克能力成本延遲“不可能三角”

2026年6月16日 08:57

重點摘要

智東西 編譯 | 楊京麗 編輯 | 李水青 智東西6月16日消息,今天,螞蟻百靈團隊發佈Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T三款模型的Ling & Ring 2.6技術報告,系統公開百靈2.6系列模型在架構、預訓練、後訓練與推理基礎設施等方面的技術細節。 此前,百靈已陸續開源Ling-2.6-flash、Ling-2.6-1T和Ring-2.6-1T。三個模型面向不同場景:Ling-2.6-flash主打低延遲、高吞吐和高頻調用,適合信息抽取、格式轉換、批處理、長輸出,以及Agent工作流中的輕量執行節點;Ling-2.6-1T面向更高能力密度和更強通用能力,重點提升即時響應場景下單位輸出token的信息量;Ring-2.6-1T則面向複雜推理和Agent任務,強調長鏈路規劃、工具調用、代碼執行、搜索和環境交互能力。 ▲百靈大模型地址(圖源:Hugging Face) 隨著大模型逐步進入Agent、Coding、科研分析和企業工作流等複雜任務場景,模型需要具備可靠推理和穩定使用工具的能力,還需要在成本和延遲可控的前提下持續執行任務。 圍繞這一目標,報告重點展示了百靈2.6系列的技術路徑:架構方面,百靈2.6系列模型採用混合線性注意力(Hybrid Linear Attention),將閃電注意力(Lightning Attention)與多頭潛在注意力(MLA)按7:1比例結合,降低長上下文訓練、解碼和鍵值緩存(KV Cache)成本。 預訓練上,團隊在Ling-2.0基礎上進行架構遷移和繼續預訓練,將上下文窗口擴展至256K;後訓練上,Ling-2.6圍繞token效率壓縮冗餘推理,Ring-2.6則面向長程Agent任務強化工具調用、搜索和代碼執行能力;基礎設施上,團隊通過長上下文訓練優化、異步Agentic RL和推理側算子

站內 AI 整理稿

智東西 編譯 | 楊京麗 編輯 | 李水青 智東西6月16日消息,今天,螞蟻百靈團隊發佈Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T三款模型的Ling & Ring 2.6技術報告,系統公開百靈2.6系列模型在架構、預訓練、後訓練與推理基礎設施等方面的技術細節。 此前,百靈已陸續開源Ling-2.6-flash、Ling-2.6-1T和Ring-2.6-1T。三個模型面向不同場景:Ling-2.6-flash主打低延遲、高吞吐和高頻調用,適合信息抽取、格式轉換、批處理、長輸出,以及Agent工作流中的輕量執行節點;Ling-2.6-1T面向更高能力密度和更強通用能力,重點提升即時響應場景下單位輸出token的信息量;Ring-2.6-1T則面向複雜推理和Agent任務,強調長鏈路規劃、工具調用、代碼執行、搜索和環境交互能力。 ▲百靈大模型地址(圖源:Hugging Face) 隨著大模型逐步進入Agent、Coding、科研分析和企業工作流等複雜任務場景,模型需要具備可靠推理和穩定使用工具的能力,還需要在成本和延遲可控的前提下持續執行任務。 圍繞這一目標,報告重點展示了百靈2.6系列的技術路徑:架構方面,百靈2.6系列模型採用混合線性注意力(Hybrid Linear Attention),將閃電注意力(Lightning Attention)與多頭潛在注意力(MLA)按7:1比例結合,降低長上下文訓練、解碼和鍵值緩存(KV Cache)成本。 預訓練上,團隊在Ling-2.0基礎上進行架構遷移和繼續預訓練,將上下文窗口擴展至256K;後訓練上,Ling-2.6圍繞token效率壓縮冗餘推理,Ring-2.6則面向長程Agent任務強化工具調用、搜索和代碼執行能力;基礎設施上,團隊通過長上下文訓練優化、異步Agentic RL和推理側算子融合,支撐萬億參數模型在真實工作流中的訓練與部署。 評測結果顯示,Ling-2.6-1T在Artificial Analysis Intelligence Index中以約16M輸出tokens取得約34分,接近GPT-5.4 Non-reasoning,並高於DeepSeek V3.2和上一代Ling-1T,體現出較高token效率。 ▲Ling-2.6-1T與Ring-2.6-1T評測結果 Ring-2.6-1T則在部分複雜推理和Agent任務中表現突出:其xhigh配置在ARC-AGI-V2上取得66.18,高於Kimi-K2.6 Thinking和DeepSeek-V4-Pro Max;high配置在PinchBench上取得87.60,高於GPT-5.4和Gemini-3.1-Pro,在ClawEval上取得63.82,高於Kimi-K2.6 Thinking、DeepSeek-V4-Pro Max、GPT-5.4和Gemini-3.1-Pro。 技術報告地址:https://arxiv.org/abs/2606.15079 Ling-2.6-flash開源地址:https://huggingface.co/inclusionAI/Ling-2.6-flash Ling-2.6-1T開源地址:https://huggingface.co/inclusionAI/Ling-2.6-1T Ring-2.6-1T開源地址:https://huggingface.co/inclusionAI/Ring-2.6-1T 一、三大重點:長上下文效率、token密度、原生Agent訓練 為保證模型在萬億參數規模和真實Agent工作流下,仍能夠保持長上下文處理效率、輸出質量與工具調用穩定性,百靈2.6主要圍繞以下三方面進行了系統優化。 百靈2.6首先解決的是長上下文效率問題。報告提到,此前模型基於GQA(分組查詢注意力)架構,當上下文長度超過32K tokens後,注意力計算會成為主要瓶頸。為此,Ling/Ring2.6採用混合線性注意力(Hybrid Linear Attention)架構,將閃電注意力(Lightning Attention)與多頭潛在注意力(MLA)按7:1比例結合,即每8層中約7層採用Lightning Attention、1層採用MLA。 ▲Ling-2.6-1T-base整體架構 Lightning Attention將序列維度上的計算複雜度從O(n²)降到O(n),MLA則通過低秩隱空間壓縮KV Cache。二者結合後,模型更適合長上下文訓練、長輸出和長鏈路Agent任務。 第二個重點則是提升token能力密度。Ling-2.6在後訓練階段結合演化式思維鏈(Evolutionary Chain of Thought,Evo-CoT)、語言單元策略優化(Linguistic Unit Policy Optimization,LPO)、雙向偏好對齊和最短正確回答蒸餾等方法,提升模型對有效推理步驟的選擇能力,減少重複、循環和低信息密度輸出。 在Artificial Analysis Intelligence Index榜單上,Ling-2.6-1T使用約16M輸出tokens取得34分。報告稱,這相比Ling-2.0-1T在reasoning workloads上實現約4倍token效率提升。 第三個重點是Agent能力的原生優化。百靈2.6系列的Agent能力不是從普通對話數據中間接遷移而來,而是作為直接訓練目標優化。團隊構建了覆蓋工具調用、代碼、搜索、工作流執行和多輪交互的大規模Agentic Corpus(智能體語料庫),並將其與可驗證任務、結構化工具軌跡和環境反饋結合。 在Ring-2.6上,團隊進一步提出KPop,用對稱二元KL散度替代IcePop中的固定比例約束,以更穩定地進行MoE模型的Agentic RL訓練。同時,團隊還採用異步RL,將rollout採集與參數更新解耦,使編碼、搜索、工具調用和工作流執行等長鏈路任務,能夠在萬億參數規模下進行更高效訓練。 二、預訓練:在Ling-2.0基礎上,擴展至256K上下文 百靈2.6沒有從零訓練萬億參數模型,而是在Ling-2.0基礎上進行架構遷移、繼續完成預訓練和後訓練。報告稱,Ling-2.0-1T此前已有約20T tokens訓練投入,直接重新訓練成本較高,因此團隊選擇在已有checkpoint上完成架構升級。 架構遷移分為四個階段:第一階段是閃電注意力轉換(Lightning Attention Conversion),將部分原有GQA層替換為Lightning Attention,以降低長上下文計算成本;第二階段是線性預熱(Linear Warmup),主要用於對新增參數進行訓練和對齊,使模型逐步適應新結構;第三階段是MLA轉換(MLA Conversion),包括去除QK歸一化(QK Norm removal)和適配部分旋轉位置編碼(Partial RoPE adaptation),為後續KV Cache壓縮和高效推理做準備;最後是MLA預熱(MLA Warmup),通過小規模繼續訓練將loss恢復到遷移前水平。整個遷移階段約使用400B tokens。 完成架構遷移後,模型繼續進行大規模全參數訓練。報告中提到,Ling-2.6預訓練總計處理約9.6T tokens,分為遷移預訓練(Migration Pre-Training)、繼續預訓練(Continue Pre-Training)和中期訓練(Mid-Training)幾個階段。其中遷移預訓練約 400B tokens,用於完成架構遷移;繼續預訓練約8T tokens,使用4K上下文窗口;中期訓練約1.2T tokens,將上下文窗口逐步擴展到32K,再擴展到256K。 ▲Ling-2.6多階段預訓練流程 數據構成上,團隊增強了數學、代碼、Agentic Data、長上下文語料和多語言語料。Agentic Corpus覆蓋500多個真實MCP環境、3000多個工具,以及多種coding、bash、web QA和軟件倉庫任務;Long-Context Corpus覆蓋數學、複雜網頁解析、長文檔摘要、RAG融合和多跳推理等任務。 在base model評測中,團隊使用覆蓋數學、代碼、通用推理、語言理解、世界知識和長上下文理解的31個benchmark,對Ling-2.6-flash-base、Ling-2.6-1T-base與2.0代模型進行對比。 整體來看,Ling-2.6-1T-base在世界知識、長上下文建模和推理能力上取得較穩定提升,同時保持了數學和代碼能力。尤其是在SimpleQA、C-SimpleQA、MMMLU、LongBenchv2等知識和長上下文任務上,提升較為明顯。 ▲Ling-2.6-base與Ling-2.0-base在多類基準測試中的對比 三、Ling-2.6後訓練:用更少token完成高質量即時響應 Ling-2.6的後訓練,圍繞即時響應和高頻調用兩方面展開。團隊重點關注模型能否在更少輸出token內,給出更高質量的回答。 為此,Ling-2.6沒有沿用Ling-2.0中相對統一的後訓練流程,而是採用專家驅動的訓練路線。模型先進行cold-start SFT打底,再進行推理和Agent任務方向的專家化訓練;隨後,通過強化學習進一步優化專家模型,最後將這些專家能力蒸餾回統一的Ling-2.6模型中。 ▲Ling-2.6後訓練流程 在推理數據處理上,團隊先讓專家模型生成多個候選答案,再篩選出最短的正確回答。同時,對於“答對後還在反思”的片段,團隊進一步用LLM judge進行裁剪。報告稱,數據層面的處理,讓模型平均輸出長度減少約200到300個token。 進入強化學習階段後,Ling-2.6在Evo-CoT基礎上加入動態長度懲罰和語義冗餘懲罰。動態長度懲罰允許模型在難題上,保留必要推理空間,壓縮簡單任務中的過長輸出;語義冗餘懲罰則用於抑制循環、重複和低價值反思。 四、Ring-2.6後訓練:面向長程Agent任務,強化工具使用 Ring-2.6的後訓練目標則偏向複雜、長程、工具密集型Agent任務。它以Ling-2.6-1T Base為基礎,經過cold-start SFT,再進入由KPop算法驅動的推理與Agent專家訓練階段,隨後進行專家能力蒸餾,並最終形成high和xhigh兩種推理配置。 工具使用數據上,Ring-2.6重點覆蓋三類場景:倉庫級代碼任務、移動端/網頁搜索任務,以及需要多步規劃和錯誤恢復的通用工具工作流。以Coding Agent為例,團隊從GitHub中大規模挖掘PR-Issue pairs,並設置了較嚴格的篩選條件:倉庫star數超過100、PR已合併且關聯closed issue,同時PR中必須包含test patch以便驗證。經過篩選後,團隊得到約300K raw pairs。 ▲Ring-2.6後訓練流程 在Agentic RL階段,團隊構建輕量級Agent框架,並提供execute_bash、search_replace和task_done三類核心工具。訓練期間最大對話長度為200 turns,評估期間最大對話長度為500 turns。針對SWE類長程任務,最終訓練數據集包含約2500個實例,來自1550個倉庫,覆蓋Python、Java、C、Rust、JavaScript等30多種編程語言。 五、基礎設施:長上下文訓練、異步RL與推理部署協同優化 基礎設施方面,百靈2.6的優化主要圍繞長上下文訓練、大規模異步Agentic RL和推理serving展開。團隊提出AllGather-based CP,使Lightning Attention能夠更高效地進行超長上下文訓練,在256K上下文長度下帶來約68%的端到端加速。RL基礎設施ASystem和ARouter則面向長序列rollout調度,報告稱在長序列場景下帶來超過80%的端到端性能提升。 ▲Lightning Attention的上下文並行優化 推理側,團隊將訓練階段積累的融合算子(fused kernels)適配到真實部署場景,並儘可能保持訓練與推理階段的數值行為一致。這不僅提升推理效率,也有助於減少強化學習採樣(RL rollout)中的訓練-推理差異。推理側kernels能力已通過高性能算子庫linghe開源。 ▲linghe開源地址:https://github.com/inclusionAI/linghe 結合算子融合(kernel fusion)、前綴緩存(prefix caching)與多token生成(multi-token generation),linghe優化提升了整體吞吐、單用戶每秒生成token數和交互穩定性。 結語:國產開源模型,公開更多技術細節 這份報告較完整地公開了百靈團隊在萬億參數模型上的技術細節。從結果看,Ling/Ring2.6在部分複雜推理、工具調用和Agent任務上已有較強表現,但與國際頂尖模型相比仍有追趕空間。 報告也提到,Ling-2.6-flash在高複雜任務中的推理深度和工具調用可靠性仍受思考預算限制;長程Agent在持續變化的工具狀態和異構執行環境中,可靠性仍可能下降。下一階段,百靈團隊計劃繼續沿著架構、系統、低精度訓練推理、KV Cache管理和多模態Agent方向推進。 對開源生態來說,模型開源和技術報告公開本身值得認可。它讓外界能夠了解背後的數據構建、訓練方法、系統優化等,期待更多國產大模型團隊持續開放模型、工具與技術細節,推動開源生態在真實應用能力上繼續向前。

Related

相關文章

鈦媒體生成式AI

Edge AI Daily 早報(6月19日)

AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

2 小時前
智東西生成式AI

谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元

智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

22 小時前

微軟,考慮接入DeepSeek

這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

23 小時前