最大開源中文預訓練合成數據集來了!面壁清華端出6000億Token大模型“精飼料”
重點摘要
智東西 作者 | 劉煜 編輯 | 陳駿達 智東西5月29日報道,今日,面壁智能聯合清華大學、OpenBMB開源社區聯合發佈並開源兩大最新數據集:Ultra-FineWeb-L3與UltraData-SFT-2605。這兩大數據集均基於面壁智能的UltraData數據分級治理體系構建。 Ultra-FineWeb-L3是中英文網頁合成數據集,總量突破6000億個Token,英文Token數達4000億個以上,中文則超2000億個,它同時是目前最大規模的開源中文預訓練合成數據集。 UltraData-SFT-2605則是國內首次開源的千萬級、同時包含深思考與非思考標註的SFT數據集。 據面壁智能介紹,Ultra-FineWeb-L3能夠緩解中文高質量預訓練數據長期偏少、分佈不均的問題。而UltraData-SFT-2605的關鍵作用,在於增強模型精準執行指令和分步推理的能力。 目前,這兩大數據集已全面上線UltraData網站以及集模型庫、數據集、應用部署於一體的AI開發平臺Hugging Face等,面向全球開發者免費開放。 UltraData網站: https://ultradata.openbmb.cn Hugging Face地址: https://huggingface.co/collections/openbmb/ultradata Ultra-FineWeb-L3鏈接: https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3 UltraData-SFT-2605鏈接: https://huggingface.co/datasets/openbmb/UltraData-SFT-2605 一、五級數據精細化治理,模型性能提升效果平均提高1.49個百分點 以前研發人員做AI訓練主要靠堆數據量,但當下大模型技術框架
智東西 作者 | 劉煜 編輯 | 陳駿達 智東西5月29日報道,今日,面壁智能聯合清華大學、OpenBMB開源社區聯合發佈並開源兩大最新數據集:Ultra-FineWeb-L3與UltraData-SFT-2605。這兩大數據集均基於面壁智能的UltraData數據分級治理體系構建。 Ultra-FineWeb-L3是中英文網頁合成數據集,總量突破6000億個Token,英文Token數達4000億個以上,中文則超2000億個,它同時是目前最大規模的開源中文預訓練合成數據集。 UltraData-SFT-2605則是國內首次開源的千萬級、同時包含深思考與非思考標註的SFT數據集。 據面壁智能介紹,Ultra-FineWeb-L3能夠緩解中文高質量預訓練數據長期偏少、分佈不均的問題。而UltraData-SFT-2605的關鍵作用,在於增強模型精準執行指令和分步推理的能力。 目前,這兩大數據集已全面上線UltraData網站以及集模型庫、數據集、應用部署於一體的AI開發平臺Hugging Face等,面向全球開發者免費開放。 UltraData網站: https://ultradata.openbmb.cn Hugging Face地址: https://huggingface.co/collections/openbmb/ultradata Ultra-FineWeb-L3鏈接: https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3 UltraData-SFT-2605鏈接: https://huggingface.co/datasets/openbmb/UltraData-SFT-2605 一、五級數據精細化治理,模型性能提升效果平均提高1.49個百分點 以前研發人員做AI訓練主要靠堆數據量,但當下大模型技術框架愈發接近,優質公開訓練數據也日漸短缺,單純依靠增加數據總量來提升大模型性能的做法,已經不大適用。 因此,為提升模型性能,面壁智能聯合清華和OpenBMB推出全球首個L0-L4五級數據分級治理方案,以系統化提升數據質量。整套流程分為五步:從最原始的數據(L0)開始,依次做基礎過濾(L1)、精篩數據(L2)、數據合成與增強(L3),最後得到可用於編排的數據(L4)。 這套方案把原始數據分步逐層篩選、優化,每個環節都有對應的處理規則和使用場景,相關測試顯示,按等級使用數據訓練模型,模型性能提升效果比混用數據平均提升1.49個百分點。 ▲L0-L4數據分級治理體系概念圖(圖源:面壁智能公眾號) 今日面壁智能聯合推出的Ultra-FineWeb-L3數據集,正是用L3精煉方法從通用網頁中合成的大規模數據集。 相關團隊先對網頁數據做L2級精篩,產出Ultra-FineWeb數據集。後續再以此為基礎打造Ultra-FineWeb-L3,藉助生成問答對、多風格文本改寫,將普通網頁內容優化為結構規整、信息濃度更高、更適配大模型學習的訓練數據。 如下圖所示,相同訓練量下,Ultra-FineWeb-L3在多箇中英文任務上的表現都超過了FineWeb-edu、FinePhrase等其他數據集,而且訓練越往後優勢越明顯。 ▲不同訓練數據對模型性能的影響(圖源:面壁智能公眾號) 除此之外,Ultra-FineWeb-L3數據集還被用於MiniCPM5-1B模型退火階段的核心訓練,助力該模型在訓練後期進一步完成了整體能力提升。 二、雙類型標註兼顧快答與深度推理,數據處理全程可溯源 面壁智能聯合推出的另一個數據集UltraData-SFT-2605是給大模型用的思考題集和快速問答題集,同時覆蓋數學、代碼、知識、指令遵循等多個領域。如果說預訓練是為模型儲備知識,那麼SFT就是幫助模型打磨理解指令、拆解複雜難題的核心能力。 以前很多開源SFT數據要麼規模小,要麼只有最終答案,沒有模型一步步推理的過程。這就導致訓練出來的模型遇到複雜問題(比如數學、邏輯推理)容易瞎猜,給不出有條理的步驟。 針對這一痛點,UltraData-SFT-2605劃分出兩類數據,分別適配不同使用場景:一類是非思考數據,用來訓練模型快速給出直接答案,適合日常問答;另一類是深思考數據,附帶完整思考過程,專門鍛鍊模型拆解問題、一步步推理的能力。像解數學題、寫代碼這類複雜任務都能用它訓練。 但是,就算是同一級別(L3)的數據,質量也會存在參差不齊的情況。比如會出現題目質量差、回答邏輯亂、或是混入測試題等問題。這些髒數據如果餵給模型,訓練效果會打折扣。 針對這些問題,UltraData-SFT-2605設置了一整套篩選流程:先篩選優質提問,再把控回答內容,還專門清理干擾數據、完成效果核驗,最大程度保證用來訓練的數據靠譜且實用。 此外,開發者還能查看每一條數據的完整處理記錄,對每條數據進行溯源,能夠自行確認這些數據靠不靠譜。 ▲SFT數據構造和驗證流程示意圖(圖源:面壁智能公眾號) 三、L3數據優化訓練效率,UltraData系列開源方案能縮短端側模型研發週期 對於端側廠商而言,訓練數據一直是個繞不開的難題。如果自己從網頁合成數據、再做SFT清洗,這樣一來製作成本高並且週期長。UltraData系列數據集的這次開源,相當於幫廠商省掉了這一步驟。面壁智能稱,廠商直接使用開源的UltraData,還能復現MiniCPM5-1B級別的模型能力。 具體來說,這批L3高質量數據讓1B模型在數學、代碼、推理等任務上,表現能接近更大的模型。 另外,數據質量高了,訓練時不需要那麼多Token就能達到同樣效果,算力和內存也更省。而這對端側大模型從“能做”到“規模化用起來”來說,非常關鍵。 在推出Ultra-FineWeb-L3與UltraData-SFT-2605數據集之前,相關團隊在其開放社區網站整理了UltraChat、UltraFeedback等數據集的前期工作,並開源了總計2.4萬億個Token的訓練數據,以及4款數據處理工具,為本次新數據集的推出築牢了基礎。 其中,數學領域數據集UltraData-Math總Token量超2900億個,完成了多等級數據搭建,僅L3數學合成數據就有880億個Token,是目前開源平臺裡體量最大的數學訓練數據。 而網頁數據集Ultra-FineWeb也曾連續兩週登上Hugging Face熱門榜第一,累計下載量超50萬次。 面壁智能稱,接下來UltraData還會陸續開放更多數據,包括更多預訓練階段的數據(L1、L2、L3各層級)、更強的通用SFT數據、專門用於智能體訓練的SFT數據以及強化學習(RL)數據。同時,相關的數據治理算法和模型也會持續開源。 結語:開源數據集補齊行業短板,數據與模型協同發展迎來新助力 此次兩大新數據集的開源,在一定程度上能夠緩解行業內優質訓練數據不足、數據質量參差不齊等問題,同時也為開發者和終端廠商提供了一套低成本、可複用的數據解決方案,降低端側小模型的訓練門檻。 隨著後續更多類型數據、算法與模型逐步開放,面壁智能這套數據治理體系也將持續迭代,進一步推動數據與模型協同發展,助力AI技術在更多場景落地應用。當然,這兩套數據集在模型實際訓練中的具體效果,還有待開發者親自上手驗證。
Related
相關文章

Edge AI Daily 早報(6月19日)
AI Engineer World's Fair 2026規模再創新高,標誌AI工程從幕後走向舞臺中央。行業面臨結構性調整:楊立昆警示OpenAI年虧210億美元揭示商業模式脆弱性,Transformer之父轉投OpenAI反映人才爭奪白熱化。Anthropic多線佈局——語音支持七種語言、加入碳清除聯盟、落子首爾辦事處,展現生態擴張野心。監管壓力加劇,意大利依據DMA調查蘋果iCloud,巴西開放iOS側載佣金降至5%,蘋果圍牆花園持續崩塌。

今天起,Claude Design要把設計師和程序員變成同一種人了
猝不及防!Anthropic深夜甩出Claude Design大更新,設計系統一鍵導入,代碼雙向同步,9大平臺一鍵導出。Anthropic設計師親自下場錄屏:AI跑了八輪自查,才敢把設計稿給你看。

OpenAI 成為 Rust 基金會白金會員,合計贊助 60 萬美元
OpenAI 正式成為 Rust 基金會白金會員,將提供總計 60 萬美元資金,用於支持 Rust 開源項目維護者及 Rust 創新實驗室等計劃。這標誌著 AI 巨頭對安全、高效系統編程語言的重視。 #OpenAI #Rust #開源

Claude Design 上線首周用戶破百萬,和 Claude Code 共享 AI 配額
Anthropic 今天(6 月 18 日)發佈公告,在宣佈 Claude Design 上線首周用戶規模突破 100 萬後,進一步強化和 Claude Code 的雙向聯動,實現從設計到編程的無縫工作流。
谷歌時隔6年再發智能音箱,Gemini上桌,售價不到700元
智東西 編譯 | 劉煜 編輯 | 陳駿達 智東西6月18日消息,谷歌昨日宣佈,其首款搭載居家版Gemini語音助手的智能音箱(Google Home Speaker)已開啟預售,將於當地時間6月25日正式上市,售價為99.99美元(約合人民幣677.03元)。在此之前,谷歌已有6年沒有推出過獨立智能音箱產品。 谷歌這款智能音箱外觀近似球形,風格類似亞馬遜新一代Echo音箱與蘋果舊款音箱HomePod Mini。 ▲谷歌智能音箱(圖源:谷歌官網) 使用音箱時,用戶只需通過口令“Hey Google”或“OK Google”喚醒Gemini,就可以繼續下達相應指令。這與谷歌舊款音箱、智能顯示屏等喚醒語音助手的方式相同。此外,用戶只要按照日常說話習慣下達命令,Gemini便能理解用戶意圖,相比之前大大提升溝通效率。 一、加強短時對話記憶,會員可與Gemini不限次數對話 谷歌此次推出的全新音箱升級諸多功能。其中,音箱搭載的Gemini語音助手擁有10款全新擬人化語音音色,用戶可以根據喜好自行選擇聲線。音箱還可支持用戶一次性下達多條語音指令,即使指令未能說對、說完整,用戶中途改口Gemini也能識別。 Gemini還具備多鏈路推理能力,落地到實際生活場景中比較實用。例如,用戶問:“我支持的足球隊下場比賽天氣如何?”Gemini收到指令後,會自動查詢賽事時間、舉辦地點,同時匹配相應時段天氣,再給出答覆。 同時,Gemini加強了短時對話記憶,能承接上下文實現連續對話功能。即使用戶連續追問、甚至串聯多項任務、不重複交代前置條件,該語音助手也能實現來回連貫交流。 ▲谷歌Gemini對話場景(圖源:谷歌官網) 不僅如此,Gemini搭配的連續對話功能,能讓應答後的音箱麥克風保持短暫收音,用戶無需重複喊“OK Google”就能繼續提問。該功能現已全面支持所有Gemini原生適配的語言,包括

微軟,考慮接入DeepSeek
這篇消息聚焦「微軟,考慮接入DeepSeek」。原始導語提到:Copilot Cowork轉為按量計費。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。