ICML26 重磅成果！清華 UDS 智能篩選訓練樣本，大模型微調算力直接減半

2026年6月29日 05:47

重點摘要

站內 AI 整理稿

原文作者：公眾號“AI典型場景產品”原文鏈接：https://mp.weixin.qq.com/s/zf6OJe5pM8JYkzywwlgyVQ 雷峰網轉載近日國際頂級機器學習會議 ICML 2026 公佈多篇核心論文成果，清華大學自動化系團隊帶來全新在線樣本篩選框架 UDS，徹底顛覆大模型監督微調 SFT “全量數據投餵” 的傳統模式。該技術無需完整遍歷全部訓練數據集，依託模型前向傳播原生 logits 信息同步評判樣本價值與多樣性，自動過濾重複、低質量劣質樣本，在不損失模型精度的前提下大幅壓縮訓練算力消耗，實測可實現算力成本近乎腰斬，同時提升訓練吞吐量，為當下算力高企、資源緊張的 AI 行業提供輕量化微調全新解決方案，相關研究成果已由量子位等行業媒體完整披露。行業長期存在一種固有認知，認為 SFT 階段訓練數據規模越大，模型最終效果越好，但落地工程實踐早已推翻這一結論。2026 年產業調研數據顯示，國內大模型訓練整體算力有效利用率不足五成，大量 GPU 算力消耗在重複、低信息量、存在偏見的冗餘樣本之上。全量樣本訓練不僅推高企業 GPU 採購、雲算力租賃成本，還極易引發模型過擬合、認知偏見放大等問題，金融、醫療、工業等垂直領域企業開展定製化微調時，動輒數十萬條標註數據帶來極高時間與資金成本，算力浪費已經成為制約中小 AI 企業迭代模型的核心痛點。過往行業雖已意識到智能挑選樣本的價值，推出 MaxLoss、MaxGrad、GREATS 等在線批次選擇方案，但各類技術均存在難以調和的短板。多數方法僅單一衡量樣本訓練難度，只優先選取損失值高的樣本，完全忽略樣本之間、樣本內部的信息多樣性，極易出現批量樣本高度同質化，持續訓練反而疊加偏差；部分方案需要額外引入驗證集、外部參考模型，或是多次反向傳播計算梯度，額外開銷甚至超過全量訓練，難以真正落地工業化場景，行業始終缺少兼顧效率、精度、輕量化的一體化篩選框架。清華團隊提出的 UDS 框架跳出傳統評估思路，核心創新在於複用前向傳播生成的 logits 矩陣，無需額外計算開銷即可同步完成雙重維度打分。一方面利用 logits 矩陣核範數計算樣本內部重要性分數，量化單條文本自身的信息豐富度與訓練增益；另一方面通過低維投影壓縮樣本特徵，藉助緩存緩衝區計算樣本與歷史訓練數據的距離，保障批次內樣本差異化，兩套分數加權融合篩選最優樣本，整套流程不依賴外部數據集與第三方模型，完美適配 LoRA 微調、全參微調、長上下文推理等全場景。低維投影與 FIFO 內存緩存的配套設計，解決了海量 logits 矩陣存儲佔用內存過高的現實工程難題。若直接完整存儲原始 logits 向量，千級樣本就會佔用數十 GB 顯存，極大限制訓練集群併發規模，UDS 採用隨機投影算法壓縮特徵維度，在幾乎不損失樣本距離判斷精度的前提下，將內存開銷控制在極低水平。消融實驗清晰驗證兩大核心模塊不可分割，單獨依靠樣本效用分數或是多樣性距離只能小幅提升精度，二者結合後模型綜合能力實現跨越式增長，充分證明雙重評判機制的互補價值。研究團隊選用 Llama-3.1-8B、通義千問 Qwen-2.5-7B 兩大主流開源基座，在 MMLU 通用知識、ScienceQA 科學問答、GSM8K 數學推理、HumanEval 代碼生成四大權威基準完成多輪對照實驗。以國產 Qwen-2.5-7B 為例，採用 UDS 篩選樣本訓練後，MMLU 準確率達到 63.34%，較此前最優方案 GREATS 提升 5.15 個百分點，ScienceQA、數學、代碼評測同步全面領跑，並且訓練吞吐量顯著高於全量 SFT 模式，相同硬件條件下單位時間可處理更多有效樣本，實現精度與速度雙向提升。整套技術具備極強的泛化適配能力，不受訓練參數規模、上下文長度、微調模式限制。實驗分別驗證 8/16 不同批次大小、LoRA 低秩微調、全參數微調、2048 超長文本推理、分佈外 OOD 泛化測試等多種工況，UDS 在全部測試條件下均穩定優於全量訓練、隨機採樣、傳統 loss 篩選等基線方案；同時對比離線樣本篩選算法 FisherSFT，在同等樣本選取比例下四大基準指標全面領先，證明在線動態篩選比事前離線過濾更貼合實時訓練的真實需求。站在產業發展視角，UDS 的落地恰逢行業算力降本增效的關鍵轉型節點。2026 年 AI 產業競爭邏輯已經從比拼硬件算力規模，轉向單位算力產出的模型效能，IDC 預測未來推理與微調算力需求將持續暴漲，HBM 高端存儲、GPU 硬件成本長期維持高位，中小企業難以持續承擔全量數據集訓練帶來的鉅額開銷。清華這套原生輕量化篩選框架無需改造底層算力硬件，僅通過算法優化就能砍掉半數算力消耗，大幅降低垂直行業定製模型的落地門檻，對開源大模型生態商業化普及具備深遠意義。國內開源產業迎來全新技術抓手，通義千問、Llama 系列作為國內企業微調主流基座，UDS 可直接無縫接入現有訓練流水線，無需重構數據處理架構。面向政務、製造、金融等垂直服務商，企業無需囤積大規模高端算力集群，依靠少量 GPU 即可完成高質量模型微調，縮短產品迭代週期；對於算力資源有限的科研團隊、初創 AI 公司，該技術大幅降低模型迭代試錯成本，推動細分場景專用小模型快速落地，進一步激活國內 AI 長尾創新活力。綜合來看，清華 UDS 在 ICML 2026 交出的樣本篩選方案，標誌大模型監督微調正式告別 “數據堆砌” 粗放發展階段。這套依託原生 logits、兼顧樣本效用與多樣性、極低額外開銷的在線篩選框架，既解決全量訓練算力浪費、模型過擬合等行業共性痛點，又適配國內外主流開源基座與各類工業微調場景。隨著該技術逐步開源落地，大模型訓練將邁入 “精準選樣本、高效練模型” 的精細化時代，持續緩解全行業算力成本壓力，加速人工智能技術在千行百業低成本規模化落地。來源：量子位如有侵權請聯繫刪除市場合作聯繫人 | 尚嘉俊聯繫電話 |13709577554聯繫我們序號負責內容負責人及手機號01 產品推廣&活動林馳馳1576794977902企業出海03 場景合作&推廣尚嘉俊1370957755404機器人合作&表演非誠勿擾，請根據實際需求諮詢相關工作人員

原始來源：雷峰網 ↗

查看原始來源

36氪生成式AI

GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?

這篇消息聚焦「GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?」。原始導語提到：美國AI，「閉關鎖國」？從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜

這篇消息聚焦「Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜」。原始導語提到：白天，Claude是高薪打工人的生產力引擎；深夜，它成了唯一知道你還醒著的那個。一份報告，意外照出了幾百萬人藏起來的24小時。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

36氪生成式AI

獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑

這篇消息聚焦「獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑」。原始導語提到：“每一代模型，我們都在押注一個非共識。” 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

IT之家生成式AI

北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發

這篇消息聚焦「北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發」。原始導語提到：北京太空算力創新中心採用“公司 + 聯盟”雙輪驅動模式，運營主體為北京天算星聯科技有限公司。創新中心承擔四類核心職能。從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

智東西生成式AI

讓AI自己修服務器？先過了這場“火線測試”再說

智東西作者 | 陳駿達編輯 | 漠影隨著大模型能力持續提升，智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域，面對龐大的GPU集群和複雜架構，越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作，以提升運維效率並降低人力成本。然而，運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分佈式存儲、容器編排、訓練框架等多個技術棧，問題現象往往模糊、不完整甚至相互矛盾，智能體需要在開放環境中主動探索、反覆驗證，自行界定問題並尋求解決路徑。要提升智能體在此類複雜場景的綜合能力，一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力，導致運維智能體研發長期“無標可依”，進展評估與方向校準均缺乏牽引。正是在這樣的背景下，中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準，國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。這套基準源自百億條真實運維數據，不再只關注“會不會回答問題”，而是聚焦智能體“能不能解決問題”，為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。一、百億條運維數據，煉出103道“考題” 任何評測體系的價值，最終都建立在數據質量之上。對於運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和複雜性，許多問題並不存在標準答案，甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境，即使得到再高的測試分數，也很難證明智能體具備實際應用價值。無問芯穹之所以能夠重點參與這一評測基準的技術建設，與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息，其早在2025年便已將運維智能體應用到實際訓練推理業務中，並取得明顯成效。工單平均處理

1 小時前閱讀分析

智東西生成式AI

OceanBase發佈AI數據庫三件套，TOC最高降50%，螞蟻、靈光都在用

智東西作者 | 王涵編輯 | 雲鵬智東西6月29日報道，今天，OceanBase發佈湖庫一體AI數據庫產品OceanBase Lakebase，該產品面向Agent應用，原生支持多模態數據管理。 “數據湖”是一種集中式存儲架構，可以存儲結構化、半結構化、非結構化等不同類型的數據。Lakebase融合了“數據湖”架構的開放性和“數據庫”架構的功能性，讓結構化數據、非結構化數據和向量數據能夠在統一架構中被管理、加工、檢索和調用。基於此，OceanBase還發布了數據生產、治理和服務工作臺OceanBase DataStudio，以及面向經營分析和業務決策的數據智能Agent OceanBase DataPilot兩個產品。 OceanBase DataStudio覆蓋數據接入、數據加工、任務編排、語義建模、數據治理到Agent協作等環節，幫助企業把分散的數據資產轉化為可管理、可理解、可調用的數據服務。 OceanBase DataPilot作為統一的企業業務智能入口，讓業務人員可以通過自然語言完成分析報告、數據看板和可信答案生成，把過去依賴專業數據團隊完成的分析流程，轉化為可交互、可追問、可複用的智能決策能力。智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝，進行了面對面的交流。楊冰認為，AI正在改變數據的管理方式，數據使用者和數據形態都發生了變化。數據使用者的改變帶來了三大挑戰：VibeCoding帶來了海量Agent應用；Agent開始執行生產任務；Agent長期運行的正確性和自我進化。數據形態改變，則為非結構化數據成為可計算資產、數據要主動流轉、數據要理解任務。兩者作用疊加，OceanBase給出判斷：在AI時代，數據庫應該是湖庫一體的。 OceanBase內部的AI轉型也在進行中。楊冰透露，OceanBase已將內核團隊分為“一體化數據庫”和“A

2 小時前閱讀分析

相關文章

GPT5.6慘遭切腦，Fable 5迴歸要變弱雞版?

Anthropic最新報告摸透全球打工人：凌晨5點求睡眠，晚6點問菜譜

獨家｜獲超億美元融資，Sand.ai 曹越：為什麼視頻是通往世界模型最重要的路徑

北京太空算力創新中心揭牌成立，統籌組織星載 AI 芯片、太空大模型等聯合研發

讓AI自己修服務器？先過了這場“火線測試”再說

OceanBase發佈AI數據庫三件套，TOC最高降50%，螞蟻、靈光都在用