拖更三年萬字長文,前OpenAI安全VP翁荔拆解Scaling Laws:你的模型可能喂錯了數據
重點摘要
翁荔迴歸萬字長文《Scaling Laws, Carefully》拆解大模型規模定律,直指行業共識可能寫反:從Kaplan到Chinchilla,主流數據配比未必最優。文章細究算力、模型大小與數據量的權衡,暗示數百億美元押注的路徑或需徹底反思,引發從業者重新審視預訓練配方的有效性。
翁荔,这位前OpenAI安全副總裁,近日攜一篇拖更三年的萬字長文《Scaling Laws, Carefully》強勢回歸,直擊大模型領域最核心的信仰:規模定律(Scaling Laws)。文章不僅回顧了從Kaplan到Chinchilla的經典結論,更大膽指出行業共識的數據配比可能從根本上就搞反了。這一論點猶如投入平靜湖面的巨石,瞬間引發業界對數百億美元預訓練投資路徑的集體反思,也讓眾人重新審視那些被奉為圭臬的計算公式是否真的牢不可破。
長期以來,OpenAI在2020年提出的Kaplan Scaling Laws奠定了「大力出奇蹟」的基調:模型越大,需要的數據和算力就越多,三者之間存在某種近似冪律的黃金比例。然而,後來DeepMind的Chinchilla研究卻給出了截然不同的結論——在同樣算力預算下,更大的模型不如更多的數據來得有效,於是業界迅速轉向「數據至死」的策略,追求超量級語料庫來餵養模型。翁荔的文章恰恰戳破了這個看似圓融的敘事:當我們機械地遵循這些法則時,可能忽略了數據內部結構、分佈與重複使用的邊際效應,導致資源大幅錯配。
翁荔的核心論斷在於「數據配比」的導向可能被寫反了。傳統思維聚焦於模型參數量與數據量的簡單平滑曲線,卻未深究不同類型、不同品質的數據在同一套損失函數下的相互干擾。她認為,從Kaplan到Chinchilla的過渡並非線性改進,而是一個從「算力主導」到「數據主導」的極端擺盪,兩種範式下的「最優」配比實際上都隱含了對數據語義空間維度的簡化假設。一旦這些假設在真實場景中不成立——比如低品質數據稀釋了高品質特徵——那麼算力、模型大小與數據量之間的權衡就會完全變形。
文中進一步細究了算力在不同階段邊際回報遞減的規律。翁荔暗示,當前數百億美元的軍備競賽可能正沿著一條被誤導的捷徑狂奔:企業為了湊齊更龐大的資料集,不惜降低數據標杆,導致模型學到的多是統計上的平庸關聯,而非真正的推理能力。Chinchilla雖然提倡更多數據,但並未告訴我們何種數據以及如何排序。當數據重複利用達到某個閾值,收益便急遽衰減,這意味著單純增加 Token 數並非永續策略,尤其對高質量語料稀缺的非英語語言更是致命。
這番警告直指預訓練配方(Pre-training Recipe)的有效性。目前主流做法依賴於
Related
相關文章

谷歌「推理之王」也跑路Meta了,當年還是李飛飛挖來的
這篇消息聚焦「谷歌「推理之王」也跑路Meta了,當年還是李飛飛挖來的」。原始導語提到:Coding為王 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

95後博士投身世界模型,臉譜心智融資數千萬元
這篇消息聚焦「95後博士投身世界模型,臉譜心智融資數千萬元」。原始導語提到:星連資本、360出手。 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
工信部指導發佈《AI 眼鏡可信視界自律公約》:不得超範圍收集獲取用戶個人信息
中國信通院 6 月 25 日宣佈,在工業和信息化部信息通信管理局的指導下,中國信息通信研究院泰爾終端實驗室聯合深圳市 AI 眼鏡產業聯盟研究起草了《AI 眼鏡可信視界自律公約》(以下簡稱《公約》),得到產業鏈上下游企業的積極響應。

阿里練操作,Momenta 開真車,英偉達搭片場:三個"世界模型"根本不是一回事
這篇消息聚焦「阿里練操作,Momenta 開真車,英偉達搭片場:三個"世界模型"根本不是一回事」。原始導語提到:同名不同命:三家世界模型各玩各的 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。
【ICML 2026】刷新高光譜圖像恢復任務SOTA!DAMP:面向高光譜影像恢復的退化感知度量提示框架
現有的統一高光譜圖像恢復方法還存在不少缺點:如果用顯式退化先驗,很難適配真實場景裡的未知退化;採用黑盒隱式表徵的話,又容易過擬合訓練數據的分佈,對於未見退化的泛化效果不好,光譜保真度也普遍偏低。針對這一問題,文中提出了一個可解釋的空間-光譜度量,得到連續的退化提示,然後再搭配上退化自適應專家混合結構,以度量作為路由動態激活對應的專用專家,最終只用單個模型就能夠滿足多種不同退化類型的情況。從實驗結果來看,該方法在5類常規恢復任務上達到了SOTA水平,而在運動模糊、泊松去噪這類訓練中沒出現過的任務上,零樣本表現也很突出,同時計算開銷比大多數同類方法更低。論文題目:Degradation-Aware Metric Prompting for Hyperspectral Image Restoration中文題目:面向高光譜圖像恢復的退化感知度量提示方法論文鏈接:https://arxiv.org/abs/2512.20251代碼鏈接:https://github.com/MiliLab/DAMP論文作者:Binfeng Wang, Di Wang, Haonan Guo†, Ying Fu†, Jing Zhang†(†為通訊)作者單位:北京理工大學計算機科學與技術學院、北京中關村學院、武漢大學計算機學院發表年份:ICML 2026論文引言高光譜圖像能夠捕捉數百個連續波段的光譜信息,是精準農業、環境監測、地物分類、變化檢測等空天領域應用的重要數據基礎。但受到成像硬件條件和物理環境的雙重幹擾,實際採集到的高光譜圖像往往存在低信噪比、運動模糊、波段缺失等多種退化問題,會大幅降低光譜特徵的判別能力,對下游任務的性能發揮造成不利影響。早期的高光譜恢復方法大多是針對特定任務設計的,只能處理單一類型的退化,很難應對真實場景裡混合、未知的退化模式。受自然圖像恢復領域提示學習思路的啟發,近些年已
ICML 2026 REViT 發佈 | 這可能是這個 Transformer 時代,CNN最後的體面
原文作者:公眾號“集智實驗室”原文鏈接:https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw雷峰網轉載你是否有過這樣的經歷:在醫療影像分析中,僅僅因為細胞切片旋轉了一個角度,AI診斷模型就給出了截然不同的判斷?在自動駕駛場景裡,攝像頭角度稍有傾斜,目標檢測就開始漏檢誤報?這背後是傳統視覺模型的核心痛點——它們對物體的旋轉、翻轉等空間變換過於敏感。雖然旋轉變換等變網絡(Equivariant Networks)早在CNN時代就被提出,但當主流模型轉向視覺Transformer(ViT)時,實現這種“等變性”卻變得異常棘手。因為Transformer賴以成名的“位置編碼”,恰恰成了破壞旋轉對稱性的元兇。今天我們要深挖的這篇文章,提出了一種極簡卻極為優雅的方案——不需要複雜的位置編碼,直接利用卷積投影和群自注意力機制,讓ViT天然具備旋轉反射等變性(Roto-reflection Equivariance)。這不僅砍掉了傳統方法中繁瑣的相對位置編碼,還在多個數據集上碾壓了前輩方法。讓我們一探究竟。核心痛點:位置編碼的“緊箍咒”要理解這項工作的價值,我們得先回到Transformer的基本原理。自注意力機制(Self-Attention)本質上是“排列等變”的——它把輸入token當成一個無序的集合。對於處理圖像來說,這無異於災難:模型會完全忽略像素的空間位置關係。於是,位置編碼(Position Encoding)應運而生。絕對位置編碼給每個位置一個唯一ID,但這破壞了平移等變性;相對位置編碼(RPE)通過編碼位置間的差異來保持平移等變,看似完美,卻帶來了計算複雜度的飆升——每一層、每個注意力頭都要額外計算RPE,讓模型變得臃腫。更棘手的是,為了在自注意力中引入旋轉等變性,現有的群等變方法(如G-SA)不得不進一步疊加複雜的旋轉群編碼