ICML26 重磅成果!清華 UDS 智能篩選訓練樣本,大模型微調算力直接減半
重點摘要
原文作者:公眾號“AI典型場景產品”原文鏈接:https://mp.weixin.qq.com/s/zf6OJe5pM8JYkzywwlgyVQ 雷峰網轉載近日國際頂級機器學習會議 ICML 2026 公佈多篇核心論文成果,清華大學自動化系團隊帶來全新在線樣本篩選框架 UDS,徹底顛覆大模型監督微調 SFT “全量數據投餵” 的傳統模式。該技術無需完整遍歷全部訓練數據集,依託模型前向傳播原生 logits 信息同步評判樣本價值與多樣性,自動過濾重複、低質量劣質樣本,在不損失模型精度的前提下大幅壓縮訓練算力消耗,實測可實現算力成本近乎腰斬,同時提升訓練吞吐量,為當下算力高企、資源緊張的 AI 行業提供輕量化微調全新解決方案,相關研究成果已由量子位等行業媒體完整披露。行業長期存在一種固有認知,認為 SFT 階段訓練數據規模越大,模型最終效果越好,但落地工程實踐早已推翻這一結論。2026 年產業調研數據顯示,國內大模型訓練整體算力有效利用率不足五成,大量 GPU 算力消耗在重複、低信息量、存在偏見的冗餘樣本之上。全量樣本訓練不僅推高企業 GPU 採購、雲算力租賃成本,還極易引發模型過擬合、認知偏見放大等問題,金融、醫療、工業等垂直領域企業開展定製化微調時,動輒數十萬條標註數據帶來極高時間與資金成本,算力浪費已經成為制約中小 AI 企業迭代模型的核心痛點。過往行業雖已意識到智能挑選樣本的價值,推出 MaxLoss、MaxGrad、GREATS 等在線批次選擇方案,但各類技術均存在難以調和的短板。多數方法僅單一衡量樣本訓練難度,只優先選取損失值高的樣本,完全忽略樣本之間、樣本內部的信息多樣性,極易出現批量樣本高度同質化,持續訓練反而疊加偏差;部分方案需要額外引入驗證集、外部參考模型,或是多次反向傳播計算梯度,額外開銷甚至超過全量訓練,難以真正落地工業化場景,行業始終缺少兼顧效率、精度
原文作者:公眾號“AI典型場景產品”原文鏈接:https://mp.weixin.qq.com/s/zf6OJe5pM8JYkzywwlgyVQ 雷峰網轉載近日國際頂級機器學習會議 ICML 2026 公佈多篇核心論文成果,清華大學自動化系團隊帶來全新在線樣本篩選框架 UDS,徹底顛覆大模型監督微調 SFT “全量數據投餵” 的傳統模式。該技術無需完整遍歷全部訓練數據集,依託模型前向傳播原生 logits 信息同步評判樣本價值與多樣性,自動過濾重複、低質量劣質樣本,在不損失模型精度的前提下大幅壓縮訓練算力消耗,實測可實現算力成本近乎腰斬,同時提升訓練吞吐量,為當下算力高企、資源緊張的 AI 行業提供輕量化微調全新解決方案,相關研究成果已由量子位等行業媒體完整披露。行業長期存在一種固有認知,認為 SFT 階段訓練數據規模越大,模型最終效果越好,但落地工程實踐早已推翻這一結論。2026 年產業調研數據顯示,國內大模型訓練整體算力有效利用率不足五成,大量 GPU 算力消耗在重複、低信息量、存在偏見的冗餘樣本之上。全量樣本訓練不僅推高企業 GPU 採購、雲算力租賃成本,還極易引發模型過擬合、認知偏見放大等問題,金融、醫療、工業等垂直領域企業開展定製化微調時,動輒數十萬條標註數據帶來極高時間與資金成本,算力浪費已經成為制約中小 AI 企業迭代模型的核心痛點。過往行業雖已意識到智能挑選樣本的價值,推出 MaxLoss、MaxGrad、GREATS 等在線批次選擇方案,但各類技術均存在難以調和的短板。多數方法僅單一衡量樣本訓練難度,只優先選取損失值高的樣本,完全忽略樣本之間、樣本內部的信息多樣性,極易出現批量樣本高度同質化,持續訓練反而疊加偏差;部分方案需要額外引入驗證集、外部參考模型,或是多次反向傳播計算梯度,額外開銷甚至超過全量訓練,難以真正落地工業化場景,行業始終缺少兼顧效率、精度、輕量化的一體化篩選框架。清華團隊提出的 UDS 框架跳出傳統評估思路,核心創新在於複用前向傳播生成的 logits 矩陣,無需額外計算開銷即可同步完成雙重維度打分。一方面利用 logits 矩陣核範數計算樣本內部重要性分數,量化單條文本自身的信息豐富度與訓練增益;另一方面通過低維投影壓縮樣本特徵,藉助緩存緩衝區計算樣本與歷史訓練數據的距離,保障批次內樣本差異化,兩套分數加權融合篩選最優樣本,整套流程不依賴外部數據集與第三方模型,完美適配 LoRA 微調、全參微調、長上下文推理等全場景。低維投影與 FIFO 內存緩存的配套設計,解決了海量 logits 矩陣存儲佔用內存過高的現實工程難題。若直接完整存儲原始 logits 向量,千級樣本就會佔用數十 GB 顯存,極大限制訓練集群併發規模,UDS 採用隨機投影算法壓縮特徵維度,在幾乎不損失樣本距離判斷精度的前提下,將內存開銷控制在極低水平。消融實驗清晰驗證兩大核心模塊不可分割,單獨依靠樣本效用分數或是多樣性距離只能小幅提升精度,二者結合後模型綜合能力實現跨越式增長,充分證明雙重評判機制的互補價值。研究團隊選用 Llama-3.1-8B、通義千問 Qwen-2.5-7B 兩大主流開源基座,在 MMLU 通用知識、ScienceQA 科學問答、GSM8K 數學推理、HumanEval 代碼生成四大權威基準完成多輪對照實驗。以國產 Qwen-2.5-7B 為例,採用 UDS 篩選樣本訓練後,MMLU 準確率達到 63.34%,較此前最優方案 GREATS 提升 5.15 個百分點,ScienceQA、數學、代碼評測同步全面領跑,並且訓練吞吐量顯著高於全量 SFT 模式,相同硬件條件下單位時間可處理更多有效樣本,實現精度與速度雙向提升。整套技術具備極強的泛化適配能力,不受訓練參數規模、上下文長度、微調模式限制。實驗分別驗證 8/16 不同批次大小、LoRA 低秩微調、全參數微調、2048 超長文本推理、分佈外 OOD 泛化測試等多種工況,UDS 在全部測試條件下均穩定優於全量訓練、隨機採樣、傳統 loss 篩選等基線方案;同時對比離線樣本篩選算法 FisherSFT,在同等樣本選取比例下四大基準指標全面領先,證明在線動態篩選比事前離線過濾更貼合實時訓練的真實需求。站在產業發展視角,UDS 的落地恰逢行業算力降本增效的關鍵轉型節點。2026 年 AI 產業競爭邏輯已經從比拼硬件算力規模,轉向單位算力產出的模型效能,IDC 預測未來推理與微調算力需求將持續暴漲,HBM 高端存儲、GPU 硬件成本長期維持高位,中小企業難以持續承擔全量數據集訓練帶來的鉅額開銷。清華這套原生輕量化篩選框架無需改造底層算力硬件,僅通過算法優化就能砍掉半數算力消耗,大幅降低垂直行業定製模型的落地門檻,對開源大模型生態商業化普及具備深遠意義。國內開源產業迎來全新技術抓手,通義千問、Llama 系列作為國內企業微調主流基座,UDS 可直接無縫接入現有訓練流水線,無需重構數據處理架構。面向政務、製造、金融等垂直服務商,企業無需囤積大規模高端算力集群,依靠少量 GPU 即可完成高質量模型微調,縮短產品迭代週期;對於算力資源有限的科研團隊、初創 AI 公司,該技術大幅降低模型迭代試錯成本,推動細分場景專用小模型快速落地,進一步激活國內 AI 長尾創新活力。綜合來看,清華 UDS 在 ICML 2026 交出的樣本篩選方案,標誌大模型監督微調正式告別 “數據堆砌” 粗放發展階段。這套依託原生 logits、兼顧樣本效用與多樣性、極低額外開銷的在線篩選框架,既解決全量訓練算力浪費、模型過擬合等行業共性痛點,又適配國內外主流開源基座與各類工業微調場景。隨著該技術逐步開源落地,大模型訓練將邁入 “精準選樣本、高效練模型” 的精細化時代,持續緩解全行業算力成本壓力,加速人工智能技術在千行百業低成本規模化落地。來源:量子位如有侵權請聯繫刪除市場合作聯繫人 | 尚嘉俊聯繫電話 |13709577554聯繫我們序號負責內容負責人及手機號01 產品推廣&活動林馳馳1576794977902企業出海03 場景合作&推廣尚嘉俊1370957755404機器人合作&表演非誠勿擾,請根據實際需求諮詢相關工作人員
Related
相關文章

GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?
這篇消息聚焦「GPT5.6慘遭切腦,Fable 5迴歸要變弱雞版?」。原始導語提到:美國AI,「閉關鎖國」? 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜
這篇消息聚焦「Anthropic最新報告摸透全球打工人:凌晨5點求睡眠,晚6點問菜譜」。原始導語提到:白天,Claude是高薪打工人的生產力引擎;深夜,它成了唯一知道你還醒著的那個。一份報告,意外照出了幾百萬人藏起來的24小時。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑
這篇消息聚焦「獨家|獲超億美元融資,Sand.ai 曹越:為什麼視頻是通往世界模型最重要的路徑」。原始導語提到:“每一代模型,我們都在押注一個非共識。” 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發
這篇消息聚焦「北京太空算力創新中心揭牌成立,統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到:北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式,運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
讓AI自己修服務器?先過了這場“火線測試”再說
智東西 作者 | 陳駿達 編輯 | 漠影 隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和複雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率並降低人力成本。 然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反覆驗證,自行界定問題並尋求解決路徑。 要提升智能體在此類複雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。 正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。 這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。 一、百億條運維數據,煉出103道“考題” 任何評測體系的價值,最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性,許多問題並不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。 無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,並取得明顯成效。工單平均處理
OceanBase發佈AI數據庫三件套,TOC最高降50%,螞蟻、靈光都在用
智東西 作者 | 王涵 編輯 | 雲鵬 智東西6月29日報道,今天,OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase,該產品面向Agent應用,原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構,可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性,讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。 基於此,OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio,以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節,幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口,讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成,把過去依賴專業數據團隊完成的分析流程,轉化為可交互、可追問、可複用的智能決策能力。 智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝,進行了面對面的交流。 楊冰認為,AI正在改變數據的管理方式,數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰:VibeCoding帶來了海量Agent應用;Agent開始執行生產任務;Agent長期運行的正確性和自我進化。數據形態改變,則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。 兩者作用疊加,OceanBase給出判斷:在AI時代,數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露,OceanBase已將內核團隊分為“一體化數據庫”和“A