最大開源中文預訓練合成數據集來了！面壁清華端出6000億Token大模型“精飼料”

2026年5月29日 13:37

重點摘要

站內 AI 整理稿

智東西作者 | 劉煜編輯 | 陳駿達智東西5月29日報道，今日，面壁智能聯合清華大學、OpenBMB開源社區聯合發佈並開源兩大最新數據集：Ultra-FineWeb-L3與UltraData-SFT-2605。這兩大數據集均基於面壁智能的UltraData數據分級治理體系構建。 Ultra-FineWeb-L3是中英文網頁合成數據集，總量突破6000億個Token，英文Token數達4000億個以上，中文則超2000億個，它同時是目前最大規模的開源中文預訓練合成數據集。 UltraData-SFT-2605則是國內首次開源的千萬級、同時包含深思考與非思考標註的SFT數據集。據面壁智能介紹，Ultra-FineWeb-L3能夠緩解中文高質量預訓練數據長期偏少、分佈不均的問題。而UltraData-SFT-2605的關鍵作用，在於增強模型精準執行指令和分步推理的能力。目前，這兩大數據集已全面上線UltraData網站以及集模型庫、數據集、應用部署於一體的AI開發平臺Hugging Face等，面向全球開發者免費開放。 UltraData網站： https://ultradata.openbmb.cn Hugging Face地址： https://huggingface.co/collections/openbmb/ultradata Ultra-FineWeb-L3鏈接： https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3 UltraData-SFT-2605鏈接： https://huggingface.co/datasets/openbmb/UltraData-SFT-2605 一、五級數據精細化治理，模型性能提升效果平均提高1.49個百分點以前研發人員做AI訓練主要靠堆數據量，但當下大模型技術框架愈發接近，優質公開訓練數據也日漸短缺，單純依靠增加數據總量來提升大模型性能的做法，已經不大適用。因此，為提升模型性能，面壁智能聯合清華和OpenBMB推出全球首個L0-L4五級數據分級治理方案，以系統化提升數據質量。整套流程分為五步：從最原始的數據（L0）開始，依次做基礎過濾（L1）、精篩數據（L2）、數據合成與增強（L3），最後得到可用於編排的數據（L4）。這套方案把原始數據分步逐層篩選、優化，每個環節都有對應的處理規則和使用場景，相關測試顯示，按等級使用數據訓練模型，模型性能提升效果比混用數據平均提升1.49個百分點。 ▲L0-L4數據分級治理體系概念圖（圖源：面壁智能公眾號）今日面壁智能聯合推出的Ultra-FineWeb-L3數據集，正是用L3精煉方法從通用網頁中合成的大規模數據集。相關團隊先對網頁數據做L2級精篩，產出Ultra-FineWeb數據集。後續再以此為基礎打造Ultra-FineWeb-L3，藉助生成問答對、多風格文本改寫，將普通網頁內容優化為結構規整、信息濃度更高、更適配大模型學習的訓練數據。如下圖所示，相同訓練量下，Ultra-FineWeb-L3在多箇中英文任務上的表現都超過了FineWeb-edu、FinePhrase等其他數據集，而且訓練越往後優勢越明顯。 ▲不同訓練數據對模型性能的影響（圖源：面壁智能公眾號）除此之外，Ultra-FineWeb-L3數據集還被用於MiniCPM5-1B模型退火階段的核心訓練，助力該模型在訓練後期進一步完成了整體能力提升。二、雙類型標註兼顧快答與深度推理，數據處理全程可溯源面壁智能聯合推出的另一個數據集UltraData-SFT-2605是給大模型用的思考題集和快速問答題集，同時覆蓋數學、代碼、知識、指令遵循等多個領域。如果說預訓練是為模型儲備知識，那麼SFT就是幫助模型打磨理解指令、拆解複雜難題的核心能力。以前很多開源SFT數據要麼規模小，要麼只有最終答案，沒有模型一步步推理的過程。這就導致訓練出來的模型遇到複雜問題（比如數學、邏輯推理）容易瞎猜，給不出有條理的步驟。針對這一痛點，UltraData-SFT-2605劃分出兩類數據，分別適配不同使用場景：一類是非思考數據，用來訓練模型快速給出直接答案，適合日常問答；另一類是深思考數據，附帶完整思考過程，專門鍛鍊模型拆解問題、一步步推理的能力。像解數學題、寫代碼這類複雜任務都能用它訓練。但是，就算是同一級別（L3）的數據，質量也會存在參差不齊的情況。比如會出現題目質量差、回答邏輯亂、或是混入測試題等問題。這些髒數據如果餵給模型，訓練效果會打折扣。針對這些問題，UltraData-SFT-2605設置了一整套篩選流程：先篩選優質提問，再把控回答內容，還專門清理干擾數據、完成效果核驗，最大程度保證用來訓練的數據靠譜且實用。此外，開發者還能查看每一條數據的完整處理記錄，對每條數據進行溯源，能夠自行確認這些數據靠不靠譜。 ▲SFT數據構造和驗證流程示意圖（圖源：面壁智能公眾號）三、L3數據優化訓練效率，UltraData系列開源方案能縮短端側模型研發週期對於端側廠商而言，訓練數據一直是個繞不開的難題。如果自己從網頁合成數據、再做SFT清洗，這樣一來製作成本高並且週期長。UltraData系列數據集的這次開源，相當於幫廠商省掉了這一步驟。面壁智能稱，廠商直接使用開源的UltraData，還能復現MiniCPM5-1B級別的模型能力。具體來說，這批L3高質量數據讓1B模型在數學、代碼、推理等任務上，表現能接近更大的模型。另外，數據質量高了，訓練時不需要那麼多Token就能達到同樣效果，算力和內存也更省。而這對端側大模型從“能做”到“規模化用起來”來說，非常關鍵。在推出Ultra-FineWeb-L3與UltraData-SFT-2605數據集之前，相關團隊在其開放社區網站整理了UltraChat、UltraFeedback等數據集的前期工作，並開源了總計2.4萬億個Token的訓練數據，以及4款數據處理工具，為本次新數據集的推出築牢了基礎。其中，數學領域數據集UltraData-Math總Token量超2900億個，完成了多等級數據搭建，僅L3數學合成數據就有880億個Token，是目前開源平臺裡體量最大的數學訓練數據。而網頁數據集Ultra-FineWeb也曾連續兩週登上Hugging Face熱門榜第一，累計下載量超50萬次。面壁智能稱，接下來UltraData還會陸續開放更多數據，包括更多預訓練階段的數據（L1、L2、L3各層級）、更強的通用SFT數據、專門用於智能體訓練的SFT數據以及強化學習（RL）數據。同時，相關的數據治理算法和模型也會持續開源。結語：開源數據集補齊行業短板，數據與模型協同發展迎來新助力此次兩大新數據集的開源，在一定程度上能夠緩解行業內優質訓練數據不足、數據質量參差不齊等問題，同時也為開發者和終端廠商提供了一套低成本、可複用的數據解決方案，降低端側小模型的訓練門檻。隨著後續更多類型數據、算法與模型逐步開放，面壁智能這套數據治理體系也將持續迭代，進一步推動數據與模型協同發展，助力AI技術在更多場景落地應用。當然，這兩套數據集在模型實際訓練中的具體效果，還有待開發者親自上手驗證。

原始來源：智東西 ↗

查看原始來源

鈦媒體生成式AI

Edge AI Daily 早報（6月19日）

AI Engineer World's Fair 2026規模再創新高，標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整：楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性，Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處，展現生態擴張野心。監管壓力加劇，意大利依據DMA調查蘋果iCloud，巴西開放iOS側載佣金降至5%，蘋果圍牆花園持續崩塌。

3 小時前閱讀分析

36氪生成式AI

今天起，Claude Design要把設計師和程序員變成同一種人了

猝不及防！Anthropic深夜甩出Claude Design大更新，設計系統一鍵導入，代碼雙向同步，9大平臺一鍵導出。Anthropic設計師親自下場錄屏：AI跑了八輪自查，才敢把設計稿給你看。

16 小時前閱讀分析

IT之家生成式AI

OpenAI 成為 Rust 基金會白金會員，合計贊助 60 萬美元

OpenAI 正式成為 Rust 基金會白金會員，將提供總計 60 萬美元資金，用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

18 小時前閱讀分析

IT之家生成式AI

Claude Design 上線首周用戶破百萬，和 Claude Code 共享 AI 配額

Anthropic 今天（6 月 18 日）發佈公告，在宣佈 Claude Design 上線首周用戶規模突破 100 萬後，進一步強化和 Claude Code 的雙向聯動，實現從設計到編程的無縫工作流。

20 小時前閱讀分析

智東西生成式AI

谷歌時隔6年再發智能音箱，Gemini上桌，售價不到700元

智東西編譯 | 劉煜編輯 | 陳駿達智東西6月18日消息，谷歌昨日宣佈，其首款搭載居家版Gemini語音助手的智能音箱（Google Home Speaker）已開啟預售，將於當地時間6月25日正式上市，售價為99.99美元（約合人民幣677.03元）。在此之前，谷歌已有6年沒有推出過獨立智能音箱產品。谷歌這款智能音箱外觀近似球形，風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱（圖源：谷歌官網）使用音箱時，用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini，就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外，用戶只要按照日常說話習慣下達命令，Gemini便能理解用戶意圖，相比之前大大提升溝通效率。一、加強短時對話記憶，會員可與Gemini不限次數對話谷歌此次推出的全新音箱升級諸多功能。其中，音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色，用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令，即使指令未能說對、說完整，用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力，落地到實際生活場景中比較實用。例如，用戶問：“我支持的足球隊下場比賽天氣如何？”Gemini收到指令後，會自動查詢賽事時間、舉辦地點，同時匹配相應時段天氣，再給出答覆。同時，Gemini加強了短時對話記憶，能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件，該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景（圖源：谷歌官網）不僅如此，Gemini搭配的連續對話功能，能讓應答後的音箱麥克風保持短暫收音，用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言，包括

23 小時前閱讀分析